Paper-Analyzer

Paper-Analyzer 是一个基于网络的应用程序，对 3000 万份PubMed 论文摘要的集合进行搜索查询. 搜索查询包括一个基因 ID（根据NCBI 基因 ID）和（或）一个MeSH（医学主题词）。用户还可以为基因指定分类群名称，添加上下文和作者姓名以缩小搜索范围。我们训练该模型来搜索参与搜索查询的实体之间的关系。现在，我们可以找到基因和疾病、化学品和基因、化学品和疾病之间的联系。有 13 种类型的关系，如标志物-机制关系、治疗效果、基因表現、活动或代谢处理的增加或减少等等。有很多情况下，摘要不包含有关实体之间存在关系的明确声明。我们训练了一个基于變換器架构的自然语言理解模型，称为 BERT，以解决这个问题。我们从比较毒物基因组学数据库（CTD）中抽取阳性关系实例来训练模型。我们使用 PubTator 应用程序进行命名实体识别和实体名称规范化任务，但我们计划很快用我们自己的 NER 系统替代它。我们还计划将来自 Reactome 的基因-基因关系纳入我们的搜索系统。

我们对所有的摘要进行预处理，并将关系存储在一个数据库中。

提交查询后，用户会得到一个按关系端点和类型汇总的结果论文列表。您可以折叠关系类型，并按分数（模型置信度）、出版年份或某组论文的数量对搜索结果进行排序。

用户可以通过选择按关系类型分组的论文，在特定摘要的层面上探索搜索结果。也可以使用直方图按出版年份筛选摘要。我们还提供有关论文的详细信息以及 PubMed 和 PubTator 的链接。

我们现在正致力于从文章文本中提取有关实体和关系的额外信息。目前，可以看到包含两个实体形成关系的句子的上下文。

GraviExtracted 关系数据库

作为关系抽取模型应用于 PubMed 摘要的结果，我们得到了一个抽取关系的数据库。当模型发生变化时，我们要更新这个数据库。

RE 数据库是一个带列的 tsv 文件：

'NameFrom' - 关系尾部实体名称
'IdFrom' - 关系尾部 NCBI/MESH ID
'GroupFrom' - 关系尾部组名（化学、疾病、基因）
'NameTo' - 关系头部实体名称
'IdTo' - 关系头部 NCBI/MESH ID
'GroupTo' - 关系头部组名（化学、疾病、基因）
‘Relation’ - 关系类型（查看下面的关系类型列表）
‘PMID' - 论文的 PMID，在此处找到了关系
'Prob' - 抽取关系的模型可信度

我们分析以下几类关系类型：

chem_disease_marker/mechanism
chem_disease_therapeutic
chem_gene_affects_response_to_substance
chem_gene_affects_transport
chem_gene_decreases_activity
chem_gene_decreases_expression
chem_gene_decreases_metabolic_processing
chem_gene_decreases_reaction
chem_gene_increases_activity
chem_gene_increases_expression
chem_gene_increases_metabolic_processing
chem_gene_increases_reaction
gene_disease_marker/mechanism
gene_disease_therapeutic

这些类型代表 CTD 数据库中提到的类型的子集。

于 2020 年 6 月 18 日发布的版本

发布说明：

使用 BioBERT 改进关系抽取的性能。
添加了使用保序回归的关系概率的校准。校准的概率添加为额外的列 'cProb'。现在，0.9 的概率表明 10 个关系中有 9 个会为 true。
将关系类型改为最高的 CTD 父级：CHEMICAL-DISEASE: therapeutic, marker/mechanism;
GENE-DISEASE: therapeutic, marker/mechanism;
CHEMICAL-GENE: expression, reaction, metabolic processing, activity, binding, response to substance, cotreatment, transport, therapeutic, localization.

该数据库可以在此处下载。

于 2020 年 4 月 16 日发布的版本

发布说明：数据库的第一次公开发布。可以在此处下载。

研究

Paper-Analyzer

Paper-Analyzer

GraviExtracted 关系数据库

于 2020 年 6 月 18 日发布的版本

于 2020 年 4 月 16 日发布的版本