Paper-Analyzer

O Paper-Analyzer é um aplicativo baseado na Web que faz buscas em um repositório de 30 milhões de resumos de artigos no PubMed. Uma busca inclui um ID do gene (segundo o NCBI) e/ou um termo dos MeSH(Medical Subject Headings). Os usuários também podem especificar nomes de taxons de genes, adicionar contexto e nomes de autores para afunilar a busca. Treinamos o modelo para buscar relacionamentos entre as entidades participantes das buscas. Neste momento, conseguimos encontrar conexões entre genes e doenças, entre substâncias químicas e genes e entre substâncias químicas e doenças. Há 13 tipos de relacionamentos, tais como marcador-mecanismo, efeito terapêutico, aumento ou diminuição da expressão, atividade ou processamento metabólico, etc. Há muitos casos em que os resumos não contêm afirmações explícitas sobre a presença de relacionamentos entre as entidades em questão. Treinamos um modelo de Compreensão de Linguagem Natural chamado BERT, baseado em uma arquitetura de transformadores, para abordar este problema. Usamos exemplos de relacionamentos positivos tirados do Comparative Toxicogenomics Database (CTD) para treinar o modelo. Usamos o aplicativo PubTator para tarefas de reconhecimento de entidades mencionadas (REM) e normalização de nomes de entidades, mas planejamos substituí-lo em breve pelo nosso próprio sistema de REM. Também planejamos incluir relacionamentos gene-gene do Reactome no nosso sistema de buscas.

Pré-processamos todos os resumos e armazenamos os relacionamentos em um banco de dados.

Após submeter a busca, o usuário obtém uma lista de artigos resultantes, agregados por endpoints e tipos de relacionamentos. É possível colapsar os tipos de relacionamentos e classificar os resultados de busca por pontuação (confiança do modelo), ano de publicação ou número de artigos em um grupo.

Os usuários podem explorar os resultados da busca no nível de resumos específicos selecionando artigos agrupados por tipos de relacionamentos. É possível filtrar resumos por ano de publicação através do histograma. Também fornecemos informações detalhadas sobre os artigos e links para o PubMed e o PubTator.

Agora estamos trabalhando em extrair informações adicionais sobre entidades e relacionamentos a partir do texto dos artigos. No momento, é possível visualizar contextos encontrados em frases que contenham ambas as entidades que formam um relacionamento.

Banco de Dados de Relacionamentos GraviExtracted

Como resultado da aplicação do modelo de Extração de Relacionamentos a resumos do PubMed, obtivemos um banco de dados de relacionamentos extraídos. Vamos atualizar esse banco de dados quando o modelo mudar.

O banco de dados de ER é um arquivo tsv com as seguintes colunas:

  • ‘NameFrom’ - nome da entidade de origem do relacionamento;
  • ‘IdFrom’ - identificador NCBI/MESH da entidade de origem do relacionamento;
  • ‘GroupFrom’ - nome do grupo (substância química, doença, gene) da entidade de origem do relacionamento;
  • ‘NameTo’ - nome da entidade de destino do relacionamento;
  • ‘IdTo’ - identificador NCBI/MESH da entidade de destino do relacionamento;
  • ‘GroupTo’ - nome do grupo (substância química, doença, gene) da entidade de destino do relacionamento;
  • ‘Relation’ - tipo de relacionamento (veja a lista de tipos de relacionamentos abaixo);
  • ‘PMID’ - PMID do artigo onde foi encontrado o relacionamento;
  • ‘Prob’ - credibilidade do modelo do relacionamento extraído.

Analisamos as seguintes classes de tipos de relacionamentos:

  • chem_disease_marker/mechanism
  • chem_disease_therapeutic
  • chem_gene_affects_response_to_substance
  • chem_gene_affects_transport
  • chem_gene_decreases_activity
  • chem_gene_decreases_expression
  • chem_gene_decreases_metabolic_processing
  • chem_gene_decreases_reaction
  • chem_gene_increases_activity
  • chem_gene_increases_expression
  • chem_gene_increases_metabolic_processing
  • chem_gene_increases_reaction
  • gene_disease_marker/mechanism
  • gene_disease_therapeutic

Estes tipos representam um subconjunto dos tipos mencionados noCTD.

Versão de 18 de junho de 2020

Descrição da versão:

  • Melhor desempenho na extração de relacionamentos com o BioBERT.
  • Adicionada a calibração de probabilidades de relacionamento através de Regressão Isotônica. Adicionada a probabilidade calibrada como uma coluna a mais, 'cProb'. Agora uma probabilidade de 0,9 indica que 9 entre 10 relacionamentos seriam verdadeiros.
  • Tipos de relacionamentos alterados para o relacionamento de nível mais alto no CTD: CHEMICAL-DISEASE: terapêutica, marcador/mecanismo;
    GENE-DISEASE: terapêutica, marcador/mecanismo;
    CHEMICAL-GENE: expressão, reação, processamento metabólico, atividade, ligação, resposta à substância, cotratamento, transporte, terapêutica, localização.

O banco de dados pode ser baixado daqui.

Versão de 16 de abril de 2020

Descrição da versão: a primeira versão pública do banco de dados. Pode ser baixada daqui.