Paper-Analyzer

Paper-Analyzer 是一个基于网络的应用程序,对 3000 万份PubMed 论文摘要的集合进行搜索查询. 搜索查询包括一个基因 ID(根据NCBI 基因 ID)和(或)一个MeSH(医学主题词)。 用户还可以为基因指定分类群名称,添加上下文和作者姓名以缩小搜索范围。 我们训练该模型来搜索参与搜索查询的实体之间的关系。 现在,我们可以找到基因和疾病、化学品和基因、化学品和疾病之间的联系。 有 13 种类型的关系,如标志物-机制关系、治疗效果、基因表現、活动或代谢处理的增加或减少等等。 有很多情况下,摘要不包含有关实体之间存在关系的明确声明。 我们训练了一个基于變換器架构的自然语言理解模型,称为 BERT,以解决这个问题。 我们从比较毒物基因组学数据库(CTD)中抽取阳性关系实例来训练模型。 我们使用 PubTator 应用程序进行命名实体识别和实体名称规范化任务,但我们计划很快用我们自己的 NER 系统替代它。 我们还计划将来自 Reactome 的基因-基因关系纳入我们的搜索系统。

我们对所有的摘要进行预处理,并将关系存储在一个数据库中。

提交查询后,用户会得到一个按关系端点和类型汇总的结果论文列表。 您可以折叠关系类型,并按分数(模型置信度)、出版年份或某组论文的数量对搜索结果进行排序。

用户可以通过选择按关系类型分组的论文,在特定摘要的层面上探索搜索结果。 也可以使用直方图按出版年份筛选摘要。 我们还提供有关论文的详细信息以及 PubMed 和 PubTator 的链接。

我们现在正致力于从文章文本中提取有关实体和关系的额外信息。 目前,可以看到包含两个实体形成关系的句子的上下文。

GraviExtracted 关系数据库

作为关系抽取模型应用于 PubMed 摘要的结果,我们得到了一个抽取关系的数据库。 当模型发生变化时,我们要更新这个数据库。

RE 数据库是一个带列的 tsv 文件:

  • 'NameFrom' - 关系尾部实体名称
  • 'IdFrom' - 关系尾部 NCBI/MESH ID
  • 'GroupFrom' - 关系尾部组名(化学、疾病、基因)
  • 'NameTo' - 关系头部实体名称
  • 'IdTo' - 关系头部 NCBI/MESH ID
  • 'GroupTo' - 关系头部组名(化学、疾病、基因)
  • ‘Relation’ - 关系类型(查看下面的关系类型列表)
  • ‘PMID' - 论文的 PMID,在此处找到了关系
  • 'Prob' - 抽取关系的模型可信度

我们分析以下几类关系类型:

  • chem_disease_marker/mechanism
  • chem_disease_therapeutic
  • chem_gene_affects_response_to_substance
  • chem_gene_affects_transport
  • chem_gene_decreases_activity
  • chem_gene_decreases_expression
  • chem_gene_decreases_metabolic_processing
  • chem_gene_decreases_reaction
  • chem_gene_increases_activity
  • chem_gene_increases_expression
  • chem_gene_increases_metabolic_processing
  • chem_gene_increases_reaction
  • gene_disease_marker/mechanism
  • gene_disease_therapeutic

这些类型代表 CTD 数据库中提到的类型的子集。

于 2020 年 6 月 18 日发布的版本

发布说明:

  • 使用 BioBERT 改进关系抽取的性能。
  • 添加了使用保序回归的关系概率的校准。 校准的概率添加为额外的列 'cProb'。 现在,0.9 的概率表明 10 个关系中有 9 个会为 true。
  • 将关系类型改为最高的 CTD 父级:CHEMICAL-DISEASE: therapeutic, marker/mechanism;
    GENE-DISEASE: therapeutic, marker/mechanism;
    CHEMICAL-GENE: expression, reaction, metabolic processing, activity, binding, response to substance, cotreatment, transport, therapeutic, localization.

该数据库可以在此处下载。

于 2020 年 4 月 16 日发布的版本

发布说明:数据库的第一次公开发布。可以在此处下载。