Paper-Analyzer 是一个基于网络的应用程序,对 3000 万份PubMed 论文摘要的集合进行搜索查询. 搜索查询包括一个基因 ID(根据NCBI 基因 ID)和(或)一个MeSH(医学主题词)。 用户还可以为基因指定分类群名称,添加上下文和作者姓名以缩小搜索范围。 我们训练该模型来搜索参与搜索查询的实体之间的关系。 现在,我们可以找到基因和疾病、化学品和基因、化学品和疾病之间的联系。 有 13 种类型的关系,如标志物-机制关系、治疗效果、基因表現、活动或代谢处理的增加或减少等等。 有很多情况下,摘要不包含有关实体之间存在关系的明确声明。 我们训练了一个基于變換器架构的自然语言理解模型,称为 BERT,以解决这个问题。 我们从比较毒物基因组学数据库(CTD)中抽取阳性关系实例来训练模型。 我们使用 PubTator 应用程序进行命名实体识别和实体名称规范化任务,但我们计划很快用我们自己的 NER 系统替代它。 我们还计划将来自 Reactome 的基因-基因关系纳入我们的搜索系统。
我们对所有的摘要进行预处理,并将关系存储在一个数据库中。
提交查询后,用户会得到一个按关系端点和类型汇总的结果论文列表。 您可以折叠关系类型,并按分数(模型置信度)、出版年份或某组论文的数量对搜索结果进行排序。
用户可以通过选择按关系类型分组的论文,在特定摘要的层面上探索搜索结果。 也可以使用直方图按出版年份筛选摘要。 我们还提供有关论文的详细信息以及 PubMed 和 PubTator 的链接。
我们现在正致力于从文章文本中提取有关实体和关系的额外信息。 目前,可以看到包含两个实体形成关系的句子的上下文。
作为关系抽取模型应用于 PubMed 摘要的结果,我们得到了一个抽取关系的数据库。 当模型发生变化时,我们要更新这个数据库。
RE 数据库是一个带列的 tsv 文件:
我们分析以下几类关系类型:
这些类型代表 CTD 数据库中提到的类型的子集。
发布说明:
该数据库可以在此处下载。
发布说明:数据库的第一次公开发布。可以在此处下载。