Paper-Analyzer

Paper-Analyzer는 3천만 개의 PubMed 논문 초록 컬렉션에서 검색 쿼리를 수행하는 웹 기반 애플리케이션입니다. 검색 쿼리에는 유전자 ID(NCBI 유전자 ID에 따름) 및 (또는) MeSH(Medical Subject Heading)가 포함됩니다. 또한 사용자가 유전자에 대한 분류 이름을 지정하고 컨텍스트 및 저자 이름을 추가하여 검색 범위를 좁힐 수 있습니다. 검색 쿼리에 참여하는 엔티티 간의 관계를 검색하도록 모델을 훈련했습니다. 현재는 유전자와 질병, 화학물질과 유전자, 화학물질과 질병 사이의 연관성을 찾을 수 있습니다.표지-메커니즘 관계, 치료 효과, 발현의 증가 또는 감소, 활성 또는 대사 처리 등과 같은 13가지 유형의 관계가 있습니다.초록에 해당 엔티티 간의 관계가 존재한다는 사실이 명시적으로 설명되지 않은 경우가 많습니다. 이 문제를 해결하기 위해 BERT라는 Transformer 아키텍처를 기반으로 하는 자연어 이해 모델을 훈련했습니다. 비교 독성유전체학 데이터베이스(CTD)에서 긍정적 관계를 보여주는 사례를 가져와 모델을 훈련했습니다. 명명된 엔티티 인식과 엔티티 이름 정규화 작업을 위해 PubTator 애플리케이션을 사용했지만 곧 자체 NER 시스템으로 대체할 계획입니다. 또한 검색 시스템에 Reactome의 유전자-유전자 관계를 포함할 계획입니다.

모든 초록이 사전 처리되고 관계가 데이터베이스에 저장됩니다.

쿼리를 제출한 후 사용자는 관계 엔드포인트 및 유형별로 집계된 논문 목록 결과를 받습니다. 관계 유형을 축소하고 점수(모델 신뢰도), 출판 연도 또는 그룹 내 논문 수를 기준으로 검색 결과를 정렬할 수 있습니다.

사용자는 관계 유형별로 분류된 논문을 선택하여 특정 초록 수준에서 검색 결과를 탐색할 수 있습니다. 히스토그램을 사용하여 출판 연도별로 초록을 필터링할 수 있습니다. 논문에 대한 자세한 정보와 PubMed 및 PubTator에 대한 링크도 제공합니다.

지금은 기사 텍스트에서 엔티티 및 관계에 대한 추가 정보를 추출하기 위해 노력하고 있습니다. 현재로서는 관계를 형성하는 두 엔티티를 모두 포함하는 문장에서 컨텍스트를 볼 수 있습니다.

GraviExtracted 관계형 데이터베이스

PubMed 초록에 관계 추출 모델을 적용한 결과 추출된 관계에 대한 데이터베이스를 얻었습니다.모델이 변경되면 이 데이터베이스를 업데이트할 예정입니다.

RE 데이터베이스는 다음과 같은 열이 있는 tsv 파일입니다:

  • 'NameFrom' - 관계 꼬리 엔티티 이름
  • 'IdFrom' - 관계 꼬리 NCBI/MESH id
  • 'GroupFrom' - 관계 꼬리 그룹 이름(화학물질, 질병, 유전자)
  • 'NameTo' - 관계 헤드 엔티티 이름
  • 'IdTo' - 관계 헤드 NCBI/MESH id
  • 'GroupTo' - 관계 꼬리 그룹 이름(화학물질, 질병, 유전자)
  • '관계' - 관계 유형(아래의 관계 유형 목록 참조)
  • 'PMID' - 관계가 발견된 논문의 PMID
  • 'Prob' - 추출된 관계의 모델 신뢰도

다음과 같은 부류의 관계 유형을 분석합니다:

  • chem_disease_marker/mechanism
  • chem_disease_therapeutic
  • chem_gene_affects_response_to_substance
  • chem_gene_affects_transport
  • chem_gene_decreases_activity
  • chem_gene_decreases_expression
  • chem_gene_decreases_metabolic_processing
  • chem_gene_decreases_reaction
  • chem_gene_increases_activity
  • chem_gene_increases_expression
  • chem_gene_increases_metabolic_processing
  • chem_gene_increases_reaction
  • gene_disease_marker/mechanism
  • gene_disease_therapeutic

이러한 유형은 CTD 데이터베이스에 언급된 유형의 일부를 구성합니다.

2020년 6월 18일 릴리스

릴리스 설명:

  • BioBERT로 관계 추출 성능이 향상되었습니다.
  • 등장성 회귀(Isotonic Regression)를 사용하여 관계 확률의 보정을 추가했습니다. 보정된 확률이 별도의 열 'cProb'로 추가되었습니다. 이제 0.9의 확률은 10개 중 9개의 관계가 참임을 나타냅니다.
  • 관계 유형을 가장 높은 CTD 상위로 변경:CHEMICAL-DISEASE: 치료, 마커/메커니즘;
    GENE-DISEASE: 치료, 마커/메커니즘;
    CHEMICAL-GENE: 발현, 반응, 대사 처리, 활성, 결합 , 물질에 대한 반응, 공동 치료, 수송, 치료, 국소화.

데이터베이스는 여기에서 다운로드할 수 있습니다.

2020년 4월 16일 릴리스

릴리스 설명: 데이터베이스의 첫 번째 공개 릴리스입니다.여기에서 다운로드할 수 있습니다.