Paper-Analyzer est une application web qui exécute des requêtes de recherche sur une collection de 30 millions d'abstracts d'articles publiés sur PubMed. Une requête de recherche inclut un ID de gène (selon NCBI ID de gène) et (ou) un MeSH(Medical Subject Heading). Les utilisateurs peuvent également spécifier des taxonomies pour les gènes, ajouter du contexte et des noms d'auteur pour préciser la recherche. Nous avons programmé le modèle pour rechercher des relations entre les entités participant aux requêtes de recherche. Dès maintenant, nous pouvons identifier des liens entre les gènes et les maladies, les produits chimiques et les gènes, les produits chimiques et les maladies. Il existe 13 types de relations telles que des relations marqueur-méchanisme, l'effet thérapeutique, l'augmentation ou la réduction des expressions, de l'activité ou du traitement métabolique, etc. Il existe de nombreux cas où les abstracts ne contiennent pas de déclarations explicites sur la présence de relations entre les entités en question. Nous avons programmé un modèle de compréhension du langage naturel basé sur l'architecture Transformer et appelé BERT pour faire face à ce problème. Nous avons utilisé des exemples de relation positive dans la base de données de toxicogénomique comparative (CTD) pour l'apprentissage du modèle. Nous avons utilisé l'application PubTator pour la reconnaissance d'entité nommée et les tâches de normalisation de nom d'entité, mais nous avons pris des mesures pour la remplacer par le système NER très prochainement. Nous prévoyons également d'inclure les relations gène-gène issues de Reactome dans notre système de recherche.
Nous prétraitons l'ensemble des abstracts et stockons les relations dans une base de données.
Une fois la requête envoyée, l'utilisateur obtient la liste des publications résultantes, agrégées par terminaux et types de relation. Il est possible de réduire les types de relation et de trier les résultats de la recherche par score (niveau de confiance du modèle), année de publication ou nombre de publications dans un groupe.
Les utilisateurs peuvent explorer les résultats de la recherche au niveau de publications spécifiques en les sélectionnant en fonction de leur type de relation. Il est possible de filtrer les abstracts par année de publication en utilisant l'histogramme. Nous fournissons également des informations détaillées sur les publications et des liens vers PubMed et PubTator.
Nous travaillons actuellement sur l'extraction d'informations supplémentaires sur les entités et les relations à partir du texte de l'article. Actuellement, les phrases sont mises en contexte et contiennent les deux entités formant une relation.
En appliquant le modèle d'extraction de relation aux abstracts PubMed, nous avons obtenu une base de données des relations extraites. Cette base de données sera mise à jour au fil des modifications du modèle.
La base de données RE est un fichier tsv à plusieurs colonnes :
Nous analysons les classes suivantes des types de relation :
Ces types correspondent à un sous-ensemble des types mentionnés dans labase de données CTD.
Description de la version :
Cette base de données peut être téléchargée ici.
Description de cette version : la première version publique de cette base de données. Elle peut être téléchargée ici.