Paper-Analyzer ist eine webbasierte Anwendung, die Suchanfragen in einer Sammlung von 30 Millionen PubMed-Zeitschriftenkurzfassungen durchführt. Eine Suchanfrage umfasst eine Gen-ID (gemäß NCBI-Gen-ID) und (oder) eine MeSH (Medical Subject Heading). Die Benutzer*innen können auch Taxonnamen für Gene angeben, Kontext und Autorennamen hinzufügen, um die Suche einzugrenzen. Wir haben das Modell darauf trainiert, nach Beziehungen zwischen Entitäten zu suchen, die an Suchanfragen beteiligt sind. Schon jetzt können wir Verbindungen zwischen Genen und Krankheiten, Chemikalien und Genen, Chemikalien und Krankheiten finden. Es gibt 13 Arten von Beziehungen, wie z. B. die Beziehung zwischen Marker und Mechanismus, die therapeutische Wirkung, die Zunahme oder Abnahme der Expression, der Aktivität oder der metabolischen Verarbeitung usw. Es gibt viele Fälle, in denen Kurzfassungen keine expliziten Aussagen über das Vorhandensein von Beziehungen zwischen den betreffenden Entitäten enthalten. Wir haben ein Modell zum Verstehen natürlicher Sprache auf der Grundlage der Transformer-Architektur namens BERT trainiert, um dieses Problem zu lösen. Zum Trainieren des Modells wurden positive Beziehungsbeispiele aus der Comparative Toxicogenomics Database (CTD) verwendet. Wir haben die Anwendung PubTator für die Erkennung von benannten Entitäten und die Normalisierung von Entitätsnamen verwendet, aber wir planen, sie in Kürze durch unser eigenes NER-System zu ersetzen. Wir planen auch, Gen-Gen-Beziehungen aus Reactome in unser Suchsystem aufzunehmen.
Wir verarbeiten alle Kurzfassungen vor und speichern die Beziehungen in einer Datenbank.
Nach dem Absenden der Abfrage erhält der Benutzer/die Benutzerin eine nach Beziehungsendpunkten und -typen zusammengefasste Liste der Ergebnisse. Man kann die Beziehungstypen ausblenden und die Suchergebnisse nach Punktzahl (Modellvertrauen), Publikationsjahr oder Anzahl der Arbeiten in einer Gruppe sortieren.
Die Benutzer*innen können die Suchergebnisse auf der Ebene der einzelnen Kurzfassungen erkunden, indem sie nach Beziehungstypen gruppierte Beiträge auswählen. Mithilfe des Histogramms kann man die Kurzfassungen nach dem Erscheinungsjahr filtern. Wir bieten auch detaillierte Informationen zu den Artikeln und Links zu PubMed und PubTator.
Wir arbeiten nun daran, zusätzliche Informationen über Entitäten und Beziehungen aus Artikeltexten zu extrahieren. Im Moment kann man Kontexte in Sätzen sehen, die beide Entitäten enthalten, die eine Beziehung bilden.
Als Ergebnis der Anwendung des Relation-Extraction-Modells auf PubMed-Zusammenfassungen erhielten wir eine Datenbank mit extrahierten Beziehungen. Wir werden diese Datenbank aktualisieren, wenn sich das Modell ändert.
Die RE-Datenbank ist eine tsv-Datei mit Spalten:
Wir analysieren die folgenden Klassen von Beziehungstypen:
Diese Typen stellen eine Teilmenge der in der CTD-Datenbank genannten Typen dar.
Beschreibung der Version:
Die Datenbank kann hier heruntergeladen werden.
Beschreibung der Version: die erste öffentliche Version der Datenbank. Kann hier heruntergeladen werden.