Paper-analyzer – это веб-приложение, осуществляющее поиск по 30 млн аннотаций из PubMed. Поисковый запрос включает название гена (согласно NCBI) и/или MeSH (Medical Subject Heading) для химического соединения или заболевания. Пользователи также могут задать название интересующего таксона для выбранного гена и ввести текстовый контекст и имя автора статьи для сужения поиска. Мы обучили модель находить связи между именованными сущностями (названия генов, белков, химических соединений, болезней) выбранными пользователем для запроса. Сейчас модель обучена находить связи между генами и заболеваниями, химическими соединениями и заболеваниями, химическими соединениями и генами.Мы выделяем 13 типов связей, среди которых отношения маркер-механизм, терапевтическое влияние, увеличение или уменьшение экспрессии, активности или метаболического обмена. Во многих случаях аннотация статьи не содержит явного утверждения о наличии связи,. поэтому мы обучили модель трансформера типа BERT, которая способна выявлять имплицитные утверждения, содержащиеся в аннотациях статей.Мы взяли положительные примеры для обучения из Comparative Toxicogenomics Database (CTD) для обучения модели.Мы использовали приложение PubTator для разметки именованных сущностей и стандартизации их наименований (нормализации). В ближайшее время мы планируем заменить PubTator на нашу собственную систему для NER.В планах также добавить возможность поиска связей типа ген-ген, дообучив модель на данных из Reactome.
Мы предварительно обрабатываем все аннотации и записываем найденные связи в базу данных.
После утверждения (Submit) построенного запроса, пользователь получает выдачу из аннотаций статей, агрегированных по типам связей и парам сущностей, формирующих связь.Пользователь может скрыть разбиение по типам связей и отсортировать результаты поискового запроса по уровню уверенности модели (score), году публикации или числу публикаций в группе.
Пользователи могут проанализировать поисковую выдачу на уровне отдельных документов, выбрав интересующую группу статей.Аннотации статей можно отфильтровать по дате публикации, используя бегунки на гистограмме числа публикаций в год.Мы также добавили подробную информацию о публикациях и ссылки на PubMed и PubTator.
Сейчас мы работаем над алгоритмом извлечения более богатого структурированного контекста найденной в аннотации статьи связи.На данный момент можно видеть контексты, извлекаемые из предложений, содержащих оба конца связи.
Результатом работы модели RE является база извлеченных из аннтаций статей из PubMed связей. Мы планируем публиковать обновленные версии базы данных при изменении модели.
База связей RE - это tsv файл с колонками:
Мы рассматриваем следующие типы связей:
Перечисленные типы связей являются подмножеством типов связей указанных в базе CTD.
Описание релиза:
Описание релиза: первый публичный релиз базы данных связей.Ссылка на базу.