Paper-Analyzer

Paper-Analyzer es una aplicación web que realiza consultas de búsqueda en una colección de 30 millones de resúmenes de artículos de PubMed. Una consulta incluye un ID del gen (según el ID del gen de NCBI) y/o un MeSH(Medical Subject Heading). Para acotar la búsqueda, los usuarios también pueden añadir los nombres de las taxonomías de genes, añadir el contexto y los nombres de los autores. Hemos entrenado el modelo para buscar relaciones entre las entidades que participan en las consultas. En este momento, podemos encontrar relaciones entre genes y enfermedades, sustancias químicas y genes, sustancias químicas y enfermedades. Hay 13 tipos de relaciones, como las de marcador-mecanismo, efecto terapéutico, aumento o disminución de la expresión, actividad o procesamiento metabólico, etc. Hay muchos casos en los que los resúmenes no contienen declaraciones explícitas sobre la presencia de relaciones entre las entidades en cuestión. Para abordar este problema, entrenamos un modelo de comprensión del lenguaje natural basado en la arquitectura Transformer, llamado BERT. Para entrenar el modelo, tomamos ejemplos de relaciones positivas en la Comparative Toxicogenomics Database (CTD). Utilizamos la aplicación PubTator para las tareas de reconocimiento de entidades con nombre y de normalización de nombres de entidades, pero tenemos previsto sustituirla por nuestro propio sistema NER en breve. También tenemos previsto incluir las relaciones gen-gen de Reactome a nuestro sistema de búsqueda.

Preprocesamos todos los resúmenes y almacenamos las relaciones en una base de datos.

Después de enviar la consulta, el usuario obtiene una lista de artículos resultantes agregados por puntos de conexión y tipos. Se pueden contraer los tipos de relación y ordenar los resultados de la búsqueda por puntuación (confianza del modelo), año de publicación o número de artículos en un grupo.

Los usuarios pueden explorar los resultados de la búsqueda por resúmenes concretos seleccionando los artículos agrupados por tipos de relación. Con el histograma, se pueden filtrar los resúmenes por año de publicación. También ofrecemos información detallada sobre los artículos y enlaces a PubMed y PubTator.

Ahora estamos trabajando en la extracción de información adicional sobre entidades y relaciones a partir del texto de los artículos. Por ahora, se pueden ver los contextos encontrados en las frases que contienen las dos entidades que forman una relación.

Base de datos de relaciones GraviExtracted

Como resultado de la aplicación del modelo de extracción de relaciones a los resúmenes de PubMed, hemos obtenido una base de datos de relaciones extraídas. Vamos a actualizar esta base de datos cuando el modelo cambie.

La base de datos de extracción de relaciones es un archivo tsv con columnas:

  • «NameFrom»: nombre de la entidad hacia la que apunta la relación;
  • «IdFrom»: ID de NCBI/MESH en cola de la relación;
  • «GroupFrom»: nombre del grupo en cola de la relación (sustancia química, enfermedad, gen);
  • «NameTo»: nombre de la entidad hacia la que apunta la relación;
  • «IdTo»: ID de NCBI/MESH hacia el que apunta la relación;
  • «GroupTo»: nombre del grupo en cola de la relación (sustancia química, enfermedad, gen);
  • «Relation»: tipo de relación (véase más abajo la lista de tipos de relación);
  • «PMID»: PMID del artículo donde se encontró la relación;
  • «Prob»: credibilidad del modelo de la relación extraída.

Analizamos las siguientes clases de tipos de relación:

  • chem_disease_marker/mechanism
  • chem_disease_therapeutic
  • chem_gene_affects_response_to_substance
  • chem_gene_affects_transport
  • chem_gene_decreases_activity
  • chem_gene_decreases_expression
  • chem_gene_decreases_metabolic_processing
  • chem_gene_decreases_reaction
  • chem_gene_increases_activity
  • chem_gene_increases_expression
  • chem_gene_increases_metabolic_processing
  • chem_gene_increases_reaction
  • gene_disease_marker/mechanism
  • gene_disease_therapeutic

Estos tipos representan un subconjunto de los tipos mencionados en labase de datos CTD.

Publicación del 18 de junio de 2020

Descripción de la versión:

  • Mejora del rendimiento de la extracción de relaciones con BioBERT.
  • Se ha añadido la calibración de las probabilidades de relación utilizando la regresión isotónica. Se ha añadido la probabilidad calibrada en una columna extra llamada «cProb». Ahora una probabilidad de 0,9 indica que 9 de cada 10 relaciones serán verdaderas.
  • Se han cambiado los tipos de relación al padre CTD más alto: CHEMICAL-DISEASE: therapeutic, marker/mechanism;
    GENE-DISEASE: therapeutic, marker/mechanism;
    CHEMICAL-GENE: expression, reaction, metabolic processing, activity, binding, response to substance, cotreatment, transport, therapeutic, localization.

La base de datos puede descargarse aquí.

Publicación del 16 de abril de 2020

Descripción de la versión: la primera versión pública de la base de datos. Se puede descargar aquí.