Paper-analyzer ставит своей целью упрощение извлечения знаний из научных (биомедицинских) статей с помощью анализа естественного языка (Natural Language Processing, NLP) на базе моделей глубокого обучения (Deep Learning, DL). Ядром paper-analyzer является языковая модель (Language Model, LM) — статистическая модель, построенная на базе архитектуры Transformer, которая на большом объеме текстов обучена предсказывать слова при заданных контекстах. Эта модель была специально дообучена на научных статьях. Мы обучили ряд моделей для решения сопутствующих задач таких как распознавание именованных сущностей (Named Entity Recognition, NER), нахождение связей (Relation Extraction, RE) и ответы на вопросы (Question Answering, QA) для обеспечения решения основной задачи — автоматического извлечения знаний из текста.
Мы реализовали NER и RE как классификаторы, которые определяют наиболее вероятные классы для слов или групп слов.
Мы также экспериментируем с генеративными моделями для задач реферирования статей и перефразирования текста.
Paper-analyzer – это веб-приложение, осуществляющее поиск по 30 млн аннотаций из PubMed