Incorporating domain knowledge into hierarchical topic models with dirichlet forest priors디리쉴릿 포레스트 사전 확률을 적용한 계층적 토픽 모델에의 도메인 지식 반영법 연구

Cited 0 time in webofscience Cited 0 time in scopus
  • Hit : 528
  • Download : 0
토픽 모델의 확산에도 불구하고, 여전히 토픽의 구조적 구성에 대한 필요성은 향상될 필요가 있다. 이러한 향상은 다음과 같은 방법을 통해 시도해 볼 수 있다. 첫째로, 토픽을 더 구조화된 조직으로 구성하는 것과 둘째로, 말뭉치에 대한 도메인 지식을 반영하는 것이다. 계층적 토픽 모델과 같은 토픽 체계를 보여주는 모델은 유사한 토픽을 분류하고 조직화한다. 이에 도메인 지식을 반영한 것은 혼합 모델의 훈련 시 기 정의된 키워드에 초점이 된 샘플링을 가능케 한다. 본 논문에서는 계층적 토픽 모델에 도메인 지식을 반영한 가이드된 계층적 토픽 모델을 제안한다. 구체적으로 언급하자면, 도메인 지식의 사전 정보를 디리쉴릿 트리 분포에 할당하고 이것을 계층적 토픽 모델의 사전 확률로 이용하였다. 이러한 사전 확률의 조정을 통해, 도메인 지식에 의해 가이드된 토픽 트리를 얻을 수 있었다. 구조적으로 조직된 유명한 데이터 셋인 Reuters Corpus Volume과 20 Newsgroups 라는 데이터셋을 가지고 가이드된 계층적 토픽 모델과 기존의 계층적 토픽 모델 간 계층적 분류 정확도를 비교하였다. 또한 분류의 마이크로/매크로 평균을 비교하여 가이드된 계층적 토픽 모델이 기존의 모델에 비해 더 향상된 구조적 토픽 조직을 제시해 주고 있음을 확인하였다.
Advisors
Moon, Il Chulresearcher문일철researcher
Description
한국과학기술원 :산업및시스템공학과,
Publisher
한국과학기술원
Issue Date
2015
Identifier
325007
Language
eng
Description

학위논문(석사) - 한국과학기술원 : 산업및시스템공학과, 2015.2 ,[iv, 38p :]

Keywords

Hierarchical topic model; Dirichlet Forest priors; Domain knowledge; 계층적 토픽 모델; 디리쉴릿 포레스트 사전 확률; 도메인 지식

URI
http://hdl.handle.net/10203/206064
Link
http://library.kaist.ac.kr/search/detail/view.do?bibCtrlNo=608356&flag=dissertation
Appears in Collection
IE-Theses_Master(석사논문)
Files in This Item
There are no files associated with this item.

qr_code

  • mendeley

    citeulike


rss_1.0 rss_2.0 atom_1.0