O Paper-Analyzer é um aplicativo baseado na Web que faz buscas em um repositório de 30 milhões de resumos de artigos no PubMed. Uma busca inclui um ID do gene (segundo o NCBI) e/ou um termo dos MeSH(Medical Subject Headings). Os usuários também podem especificar nomes de taxons de genes, adicionar contexto e nomes de autores para afunilar a busca. Treinamos o modelo para buscar relacionamentos entre as entidades participantes das buscas. Neste momento, conseguimos encontrar conexões entre genes e doenças, entre substâncias químicas e genes e entre substâncias químicas e doenças. Há 13 tipos de relacionamentos, tais como marcador-mecanismo, efeito terapêutico, aumento ou diminuição da expressão, atividade ou processamento metabólico, etc. Há muitos casos em que os resumos não contêm afirmações explícitas sobre a presença de relacionamentos entre as entidades em questão. Treinamos um modelo de Compreensão de Linguagem Natural chamado BERT, baseado em uma arquitetura de transformadores, para abordar este problema. Usamos exemplos de relacionamentos positivos tirados do Comparative Toxicogenomics Database (CTD) para treinar o modelo. Usamos o aplicativo PubTator para tarefas de reconhecimento de entidades mencionadas (REM) e normalização de nomes de entidades, mas planejamos substituí-lo em breve pelo nosso próprio sistema de REM. Também planejamos incluir relacionamentos gene-gene do Reactome no nosso sistema de buscas.
Pré-processamos todos os resumos e armazenamos os relacionamentos em um banco de dados.
Após submeter a busca, o usuário obtém uma lista de artigos resultantes, agregados por endpoints e tipos de relacionamentos. É possível colapsar os tipos de relacionamentos e classificar os resultados de busca por pontuação (confiança do modelo), ano de publicação ou número de artigos em um grupo.
Os usuários podem explorar os resultados da busca no nível de resumos específicos selecionando artigos agrupados por tipos de relacionamentos. É possível filtrar resumos por ano de publicação através do histograma. Também fornecemos informações detalhadas sobre os artigos e links para o PubMed e o PubTator.
Agora estamos trabalhando em extrair informações adicionais sobre entidades e relacionamentos a partir do texto dos artigos. No momento, é possível visualizar contextos encontrados em frases que contenham ambas as entidades que formam um relacionamento.
Como resultado da aplicação do modelo de Extração de Relacionamentos a resumos do PubMed, obtivemos um banco de dados de relacionamentos extraídos. Vamos atualizar esse banco de dados quando o modelo mudar.
O banco de dados de ER é um arquivo tsv com as seguintes colunas:
Analisamos as seguintes classes de tipos de relacionamentos:
Estes tipos representam um subconjunto dos tipos mencionados noCTD.
Descrição da versão:
O banco de dados pode ser baixado daqui.
Descrição da versão: a primeira versão pública do banco de dados. Pode ser baixada daqui.