Paper-Analyzer

Paper-analyzer – это веб-приложение, осуществляющее поиск по 30 млн аннотаций из PubMed. Поисковый запрос включает название гена (согласно NCBI) и/или MeSH (Medical Subject Heading) для химического соединения или заболевания. Пользователи также могут задать название интересующего таксона для выбранного гена и ввести текстовый контекст и имя автора статьи для сужения поиска. Мы обучили модель находить связи между именованными сущностями (названия генов, белков, химических соединений, болезней) выбранными пользователем для запроса. Сейчас модель обучена находить связи между генами и заболеваниями, химическими соединениями и заболеваниями, химическими соединениями и генами.Мы выделяем 13 типов связей, среди которых отношения маркер-механизм, терапевтическое влияние, увеличение или уменьшение экспрессии, активности или метаболического обмена. Во многих случаях аннотация статьи не содержит явного утверждения о наличии связи,. поэтому мы обучили модель трансформера типа BERT, которая способна выявлять имплицитные утверждения, содержащиеся в аннотациях статей.Мы взяли положительные примеры для обучения из Comparative Toxicogenomics Database (CTD) для обучения модели.Мы использовали приложение PubTator для разметки именованных сущностей и стандартизации их наименований (нормализации). В ближайшее время мы планируем заменить PubTator на нашу собственную систему для NER.В планах также добавить возможность поиска связей типа ген-ген, дообучив модель на данных из Reactome.

Мы предварительно обрабатываем все аннотации и записываем найденные связи в базу данных.

После утверждения (Submit) построенного запроса, пользователь получает выдачу из аннотаций статей, агрегированных по типам связей и парам сущностей, формирующих связь.Пользователь может скрыть разбиение по типам связей и отсортировать результаты поискового запроса по уровню уверенности модели (score), году публикации или числу публикаций в группе.

Пользователи могут проанализировать поисковую выдачу на уровне отдельных документов, выбрав интересующую группу статей.Аннотации статей можно отфильтровать по дате публикации, используя бегунки на гистограмме числа публикаций в год.Мы также добавили подробную информацию о публикациях и ссылки на PubMed и PubTator.

Сейчас мы работаем над алгоритмом извлечения более богатого структурированного контекста найденной в аннотации статьи связи.На данный момент можно видеть контексты, извлекаемые из предложений, содержащих оба конца связи.

База извлеченных связей

Результатом работы модели RE является база извлеченных из аннтаций статей из PubMed связей. Мы планируем публиковать обновленные версии базы данных при изменении модели.

База связей RE - это tsv файл с колонками:

  • ‘NameFrom’ - имя сущности, из которой ребро связи выходит;
  • ‘IdFrom’ - NCBI/MESH id сущности, из которой ребро связи выходит;
  • ‘GroupFrom’ - тип сущности, из которой ребро связи выходит (chemical, disease, gene);
  • ‘NameTo’ - имя сущности, в которую ребро связи приходит;
  • ‘IdTo’ - NCBI/MESH id сущности, в которую ребро связи приходит;
  • ‘GroupTo’ - тип сущности, в которую ребро связи приходит (chemical, disease, gene);
  • ‘Relation’ - тип связи (смотри ниже список типов связей);
  • ‘PMID’ - PMID аннотации статьи, в которой связь найдена;
  • Prob’ - уверенность модели относительно найденной связи.

Мы рассматриваем следующие типы связей:

  • chem_disease_marker/mechanism
  • chem_disease_therapeutic
  • chem_gene_affects_response_to_substance
  • chem_gene_affects_transport
  • chem_gene_decreases_activity
  • chem_gene_decreases_expression
  • chem_gene_decreases_metabolic_processing
  • chem_gene_decreases_reaction
  • chem_gene_increases_activity
  • chem_gene_increases_expression
  • chem_gene_increases_metabolic_processing
  • chem_gene_increases_reaction
  • gene_disease_marker/mechanism
  • gene_disease_therapeutic

Перечисленные типы связей являются подмножеством типов связей указанных в базе CTD.

Релиз 18 июня 2020

Описание релиза:

  • Улучшено качество извлечения связей с помощью модели BioBERT.
  • Добавлена калибровка вероятностей наличия связи с помощью Isotonic Regression.Калиброванная вероятность добавлена в отдельный столбец: cProb.Теперь вероятность 0.9 означает, что в среднем 9 из 10 связей правильно определены.
  • Типы связей изменены до наивысшего по CTD родительского типа: CHEMICAL-DISEASE: therapeutic, marker/mechanism;
    GENE-DISEASE: therapeutic, marker/mechanism;
    CHEMICAL-GENE: expression, reaction, metabolic processing, activity, binding, response to substance, cotreatment, transport, therapeutic, localization.

Ссылка на базу.

Релиз 16 апреля 2020

Описание релиза: первый публичный релиз базы данных связей.Ссылка на базу.