Paper-Analyzer

Paper-Analyzer

Paper-Analyzer は、3000 万件の PubMed 抄録コレクションに対して検索クエリを実行するウェブベースのアプリケーションです。 検索クエリには、遺伝子 ID(NCBI 遺伝子 ID)や MeSH(Medical Subject Heading)が含まれます。 ユーザーは、遺伝子の分類名を指定し、コンテキストと作者名を追加して、検索を絞ることもできます。モデルは、検索クエリに参加するエンティティ間のリレーションを検索するようにトレーニングしました。現時点では、遺伝子と疾患、化学物質と遺伝子、化学物質と疾患の間の関連を検索できるようになっています。リレーションには、マーカーとメカニズムのリレーション、治療効果、発症の増減、活性または代謝処理などの 13 種類があります。抄録に対象のエンティティ間の関係の有無に関する明示的な文が含まれないケースが多数ありますが、この問題は、BERT という Transformer アーキテクチャに基づく自然言語理解モデルをトレーニングすることで解決されています。正のリレーション例を比較トキシコゲノミクスデータベース(CTD)から取り出して、モデルをトレーニングしました。名前付きエンティティ認識とエンティティ名の正規化タスクには PubTator アプリケーションを使用しましたが、近々、このアプリケーションを独自の NER システムに入れ替える予定です。また、検索システムに、Reactome の遺伝子間のリレーションを含めることも予定しています。

すべての抄録を事前処理し、リレーションをデータベースに保存します。

クエリ送信後、ユーザーは、リレーションのエンドポイントと種類別に集計された論文の結果リストを取得します。リレーションの種類を折りたたみ、スコア(モデル信頼度)、発行年、またはグループ内の論文の件数別に検索結果を並べ替えることができます。

ユーザーは、リレーションの種類でグループ化された論文を選択することで、特定のレベルの抄録で検索結果を調べることができます。ヒストグラムを使用すると、発行年別に抄録をフィルターすることができます。また、論文と PubMed や PubTator へのリンクに関する詳細な情報も提供しています。

現在、記事のテキストからエンティティとリレーションに関する追加情報を抽出することに取り組んでいます。現時点では、リレーションを形成する両方のエンティティを含む文章の文脈を見ることができます。

GraviExtracted リレーションデータベース

PubMed 抄録へのリレーション抽出モデルアプリケーションにより、抽出されたリレーションのデータベースを取得しました。このデータベースは、モデルの変更に合わせて更新していく予定です。

RE データベースは、以下の列を含む tsv ファイルです。

  • ‘NameFrom’ - リレーションのテールエンティティ名
  • ‘IdFrom’ - リレーションのテール NCBI/MESH ID
  • ‘GroupFrom’ - リレーションのテールグループ名(化学物質、疾患、遺伝子)
  • ‘NameTo’ - リレーションのヘッドエンティティ名
  • ‘IdTo’ - リレーションのヘッド NCBI/MESH ID
  • ‘GroupTo’ - リレーションのヘッドグループ名(化学物質、疾患、遺伝子)
  • ‘Relation’ - リレーションの種類(以下のリレーションの種類リストを参照)
  • ‘PMID’ - リレーションが見つかった、論文の PMID
  • ‘Prob’ - 抽出されたリレーションのモデル信憑度

以下のクラスのリレーションの種類を分析します。

  • chem_disease_marker/mechanism
  • chem_disease_therapeutic
  • chem_gene_affects_response_to_substance
  • chem_gene_affects_transport
  • chem_gene_decreases_activity
  • chem_gene_decreases_expression
  • chem_gene_decreases_metabolic_processing
  • chem_gene_decreases_reaction
  • chem_gene_increases_activity
  • chem_gene_increases_expression
  • chem_gene_increases_metabolic_processing
  • chem_gene_increases_reaction
  • gene_disease_marker/mechanism
  • gene_disease_therapeutic

これらの種類は、CTD データベースで言及されている種類のサブセットです。

2020 年 6 月 18 日のリリース

リリースの説明:

  • BioBERT によるリレーション抽出のパフォーマンスを改善しました。
  • 等張回帰を使ったリレーション確率の較正を追加しました。較正された確率は追加の 'cProb' 列として追加されています。これにより、確率 0.9 は、10 個のリレーションの内 9 個が true であることを示すようになっています。
  • CTD の最上位の親である: CHEMICAL-DISEASE: therapeutic, marker/mechanism へのリレーションの種類を変更しました。
    GENE-DISEASE: therapeutic, marker/mechanism;
    CHEMICAL-GENE: expression, reaction, metabolic processing, activity, binding, response to substance, cotreatment, transport, therapeutic, localization.

データベースは、こちらからダウンロードできます。

2020 年 4 月 16 日のリリース

リリースの説明: データベースの初回公開リリース。こちらからダウンロードできます。