불용어 마스크 풀링을 이용한 의학 도메인 밀집 검색Stopwords Mask Pooling for Dense Retrieval in Medical Domain

Cited 0 time in webofscience Cited 0 time in scopus
  • Hit : 90
  • Download : 0
의학 데이터셋에서의 밀집 검색 시스템은 데이터셋의 전문적인 내용으로 인해 학습 데이터 구축에 어려움이 따르므로 일반적인 도메인의 데이터셋으로 미세조정한다. 그런데 의학 데이터셋에는 데이터셋을 이루는 단어들 외에도 의학 전문용어가 높은 빈도로 나타나므로 기존 토큰화 방법만으로는 OOV 문제가 있게 되고 따라서 토큰이 학습된 시점의 환경과 평가 시점의 환경에 큰 차이가 있게 된다. 본 연구는 이를 해결하기 위해 풀링층에서 불용어를 제거하는 불용어 마스크 풀링(SWMP) 방법을 제안한다. 상용 의학 데이터셋에 SWMP를 적용한 모델을 사용했을 때의 성능 향상을 실험을 통해 확인하였다.
Publisher
한국정보과학회
Issue Date
2022-06-29
Language
Korean
Citation

2022 한국컴퓨터종합학술대회 (KCC), pp.407 - 409

URI
http://hdl.handle.net/10203/299501
Appears in Collection
CS-Conference Papers(학술회의논문)
Files in This Item
There are no files associated with this item.

qr_code

  • mendeley

    citeulike


rss_1.0 rss_2.0 atom_1.0