Paper-Analyzer

Paper-Analyzer est une application web qui exécute des requêtes de recherche sur une collection de 30 millions d'abstracts d'articles publiés sur PubMed. Une requête de recherche inclut un ID de gène (selon NCBI ID de gène) et (ou) un MeSH(Medical Subject Heading). Les utilisateurs peuvent également spécifier des taxonomies pour les gènes, ajouter du contexte et des noms d'auteur pour préciser la recherche. Nous avons programmé le modèle pour rechercher des relations entre les entités participant aux requêtes de recherche. Dès maintenant, nous pouvons identifier des liens entre les gènes et les maladies, les produits chimiques et les gènes, les produits chimiques et les maladies. Il existe 13 types de relations telles que des relations marqueur-méchanisme, l'effet thérapeutique, l'augmentation ou la réduction des expressions, de l'activité ou du traitement métabolique, etc. Il existe de nombreux cas où les abstracts ne contiennent pas de déclarations explicites sur la présence de relations entre les entités en question. Nous avons programmé un modèle de compréhension du langage naturel basé sur l'architecture Transformer et appelé BERT pour faire face à ce problème. Nous avons utilisé des exemples de relation positive dans la base de données de toxicogénomique comparative (CTD) pour l'apprentissage du modèle. Nous avons utilisé l'application PubTator pour la reconnaissance d'entité nommée et les tâches de normalisation de nom d'entité, mais nous avons pris des mesures pour la remplacer par le système NER très prochainement. Nous prévoyons également d'inclure les relations gène-gène issues de Reactome dans notre système de recherche.

Nous prétraitons l'ensemble des abstracts et stockons les relations dans une base de données.

Une fois la requête envoyée, l'utilisateur obtient la liste des publications résultantes, agrégées par terminaux et types de relation. Il est possible de réduire les types de relation et de trier les résultats de la recherche par score (niveau de confiance du modèle), année de publication ou nombre de publications dans un groupe.

Les utilisateurs peuvent explorer les résultats de la recherche au niveau de publications spécifiques en les sélectionnant en fonction de leur type de relation. Il est possible de filtrer les abstracts par année de publication en utilisant l'histogramme. Nous fournissons également des informations détaillées sur les publications et des liens vers PubMed et PubTator.

Nous travaillons actuellement sur l'extraction d'informations supplémentaires sur les entités et les relations à partir du texte de l'article. Actuellement, les phrases sont mises en contexte et contiennent les deux entités formant une relation.

Base de données des relations GraviExtracted

En appliquant le modèle d'extraction de relation aux abstracts PubMed, nous avons obtenu une base de données des relations extraites. Cette base de données sera mise à jour au fil des modifications du modèle.

La base de données RE est un fichier tsv à plusieurs colonnes :

  • « NameFrom » : nom d'entité en queue de la relation ;
  • « IdFrom » : ID NCBI/MESH en queue de la relation ;
  • « GroupFrom » : nom de groupe en queue de la relation (produits chimiques, maladie, gène) ;
  • « NameTo » : nom d'entité en pointe de la relation ;
  • « IdTo » : ID NCBI/MESH en pointe de la relation ;
  • « GroupTo » : nom de groupe en queue de la relation (produits chimiques, maladie, gène) ;
  • « Relation » : type de relation (voir ci-dessous la liste des types de relation) ;
  • « PMID » : PMID de la publication, endroit où la relation a été identifiée ;
  • « Prob » : crédibilité du modèle pour la relation extraite.

Nous analysons les classes suivantes des types de relation :

  • chem_disease_marker/mechanism
  • chem_disease_therapeutic
  • chem_gene_affects_response_to_substance
  • chem_gene_affects_transport
  • chem_gene_decreases_activity
  • chem_gene_decreases_expression
  • chem_gene_decreases_metabolic_processing
  • chem_gene_decreases_reaction
  • chem_gene_increases_activity
  • chem_gene_increases_expression
  • chem_gene_increases_metabolic_processing
  • chem_gene_increases_reaction
  • gene_disease_marker/mechanism
  • gene_disease_therapeutic

Ces types correspondent à un sous-ensemble des types mentionnés dans labase de données CTD.

Version du 18 juin 2020

Description de la version :

  • Performances améliorées de l'extraction des relations avec BioBERT.
  • Ajout de l'étalonnage des probabilités des relations en appliquant la régression isotonique. Probabilité étalonnée ajoutée sous forme de colonne supplémentaire « cProb ». Désormais une probabilité de 0,9 indique 9 relations sur 10 peuvent être considérées comme vraies.
  • Les types de relation ont été changés pour utiliser le parent CTD de niveau supérieur : CHEMICAL-DISEASE : thérapeutique, marqueur/méchanisme ;
    GENE-DISEASE: thérapeutique, marqueur/méchanisme ;
    CHEMICAL-GENE: expression, réaction, traitement métabolique, activité, liaison, réponse à la substance, cotraitement, transport, thérapeutique, localisation.

Cette base de données peut être téléchargée ici.

Version du 16 avril 2020

Description de cette version : la première version publique de cette base de données. Elle peut être téléchargée ici.