Paper-Analyzer

Paper-Analyzer

Paper-Analyzer ist eine webbasierte Anwendung, die Suchanfragen in einer Sammlung von 30 Millionen PubMed-Zeitschriftenkurzfassungen durchführt. Eine Suchanfrage umfasst eine Gen-ID (gemäß NCBI-Gen-ID) und (oder) eine MeSH (Medical Subject Heading). Die Benutzer*innen können auch Taxonnamen für Gene angeben, Kontext und Autorennamen hinzufügen, um die Suche einzugrenzen. Wir haben das Modell darauf trainiert, nach Beziehungen zwischen Entitäten zu suchen, die an Suchanfragen beteiligt sind. Schon jetzt können wir Verbindungen zwischen Genen und Krankheiten, Chemikalien und Genen, Chemikalien und Krankheiten finden. Es gibt 13 Arten von Beziehungen, wie z. B. die Beziehung zwischen Marker und Mechanismus, die therapeutische Wirkung, die Zunahme oder Abnahme der Expression, der Aktivität oder der metabolischen Verarbeitung usw. Es gibt viele Fälle, in denen Kurzfassungen keine expliziten Aussagen über das Vorhandensein von Beziehungen zwischen den betreffenden Entitäten enthalten. Wir haben ein Modell zum Verstehen natürlicher Sprache auf der Grundlage der Transformer-Architektur namens BERT trainiert, um dieses Problem zu lösen. Zum Trainieren des Modells wurden positive Beziehungsbeispiele aus der Comparative Toxicogenomics Database (CTD) verwendet. Wir haben die Anwendung PubTator für die Erkennung von benannten Entitäten und die Normalisierung von Entitätsnamen verwendet, aber wir planen, sie in Kürze durch unser eigenes NER-System zu ersetzen. Wir planen auch, Gen-Gen-Beziehungen aus Reactome in unser Suchsystem aufzunehmen.

Wir verarbeiten alle Kurzfassungen vor und speichern die Beziehungen in einer Datenbank.

Nach dem Absenden der Abfrage erhält der Benutzer/die Benutzerin eine nach Beziehungsendpunkten und -typen zusammengefasste Liste der Ergebnisse. Man kann die Beziehungstypen ausblenden und die Suchergebnisse nach Punktzahl (Modellvertrauen), Publikationsjahr oder Anzahl der Arbeiten in einer Gruppe sortieren.

Die Benutzer*innen können die Suchergebnisse auf der Ebene der einzelnen Kurzfassungen erkunden, indem sie nach Beziehungstypen gruppierte Beiträge auswählen. Mithilfe des Histogramms kann man die Kurzfassungen nach dem Erscheinungsjahr filtern. Wir bieten auch detaillierte Informationen zu den Artikeln und Links zu PubMed und PubTator.

Wir arbeiten nun daran, zusätzliche Informationen über Entitäten und Beziehungen aus Artikeltexten zu extrahieren. Im Moment kann man Kontexte in Sätzen sehen, die beide Entitäten enthalten, die eine Beziehung bilden.

GraviExtracted-Datenbank für Beziehungen

Als Ergebnis der Anwendung des Relation-Extraction-Modells auf PubMed-Zusammenfassungen erhielten wir eine Datenbank mit extrahierten Beziehungen. Wir werden diese Datenbank aktualisieren, wenn sich das Modell ändert.

Die RE-Datenbank ist eine tsv-Datei mit Spalten:

  • 'NameFrom' – Name der Entität am Ende der Beziehung;
  • 'IdFrom' – NCBI/MESH ID am Ende der Beziehung;
  • 'GroupFrom' – Name der Gruppe am Ende der Beziehung (Chemikalie, Krankheit, Gen);
  • 'NameTo' – Name der Entität am Anfang der Beziehung;
  • 'IdTo – NCBI/MESH ID am Anfang der Beziehung;
  • 'GroupTo' – Name der Gruppe am Anfang der Beziehung (Chemikalie, Krankheit, Gen);
  • 'Relation' – Beziehungstyp (siehe unten die Liste der Beziehungstypen);
  • 'PMID' – PMID des Artikels, in der der Beziehung gefunden wurde;
  • 'Prob' – Modellglaubwürdigkeit der extrahierten Beziehung.

Wir analysieren die folgenden Klassen von Beziehungstypen:

  • chem_disease_marker/mechanism
  • chem_disease_therapeutic
  • chem_gene_affects_response_to_substance
  • chem_gene_affects_transport
  • chem_gene_decreases_activity
  • chem_gene_decreases_expression
  • chem_gene_decreases_metabolic_processing
  • chem_gene_decreases_reaction
  • chem_gene_increases_activity
  • chem_gene_increases_expression
  • chem_gene_increases_metabolic_processing
  • chem_gene_increases_reaction
  • gene_disease_marker/mechanism
  • gene_disease_therapeutic

Diese Typen stellen eine Teilmenge der in der CTD-Datenbank genannten Typen dar.

Version vom 18. Juni 2020

Beschreibung der Version:

  • Verbesserte Leistung der Beziehungsextraktion mit BioBERT.
  • Kalibrierung der Beziehungswahrscheinlichkeiten mittels isotonischer Regression hinzugefügt. Kalibrierte Wahrscheinlichkeit als zusätzliche Spalte 'cProb' hinzugefügt. Eine Wahrscheinlichkeit von 0,9 bedeutet, dass 9 von 10 Beziehungen zutreffen würden.
  • Die Beziehungstypen wurden auf das höchste CTD-Elternteil geändert: CHEMICAL-DISEASE: therapeutic, marker/mechanism;
    GENE-DISEASE: therapeutic, marker/mechanism;
    CHEMICAL-GENE: expression, reaction, metabolic processing, activity, binding, response to substance, cotreatment, transport, therapeutic, localization.

Die Datenbank kann hier heruntergeladen werden.

Version vom 16. April 2020

Beschreibung der Version: die erste öffentliche Version der Datenbank. Kann hier heruntergeladen werden.