Nonparametric topic models with multi-labeled dataset다중 레이블 데이터셋을 위한 비모수적 토픽모델

Cited 0 time in webofscience Cited 0 time in scopus
  • Hit : 577
  • Download : 0
확률론적 주제 모형은 대규모 데이터 내에 잠재되어 있는 다양한 주제들을 자동으로 찾아내기 위해 고안된 모형으로, 문서 데이터 뿐만 아니라 이미지, 인지과학, 계산 생물학 등 다양한 분야에 적용되어 널리 사용되고 있다. 비모수적 베이지안 방법론은 통계 모형의 한 연구분야로써 주제 모형에의 적용을 통해 기존방법으로 풀지 못한 여러가지 문제들을 (총 주제 수의 선택, 계층적 주제의 추론) 풀수있는 방법을 제안하고 있다. 이러한 비모수적 베이지안 방법론은 기계학습의 다양한 분야에서 널리 사용되어 왔으나, 상대적으로 주제 모형에는 복잡한 모형 구성과 사후 확률 추론의 불가성 때문에 적극적으로 적용되어 사용되지 못하였다. 본 학위논문에서는 이러한 단점을 보완하고자 세가지 비모수적 주제 모형을 제안한다. 본 모형들은 문서가 가지고 있는 여러가지 부가 정보인 저자, 문서 작성일자, 카테고리 정보등을 사용하여 주제를 찾아낸다. 첫째, 본 연구는 거리 의존 관계를 이용한 비모수적 주제 모형을 제안한다. 문서들 사이에는 다양한 형태의 의존관계가 존재한다. 예를들어 시간대별로 작성된 연구논문들의 경우 시간이 지날 수록 새로운 연구주제들이 생겨나는 특성을 보여준다. 새롭게 제안된 모형은 이러한 문서들의 시간 관계를 이용하여 시간의 흐름에 따른 주제의 발생과 소멸을 추론할 수 있게 고안되었다. 다양한 학술 논문 데이터를 사용한 실험을 통해 실제로 어떤 주제들이 시간에 따라 생성/소멸 하는지를 보여준다. 둘째, 본 연구는 다중 범주 정보를 이용한 비모수적 주제 모형을 제안한다. 문서의 다중 범주 정보에는 계층적 분류, 다중 저자 정보등이 포함된다. 새롭게 제안된 모형은 각각의 범주마다 가장 적절한 수의 주제를 찾아 낼 수 있게 디리클레 혼합 모형을 사용하여 문서들의 주제를 추론할 수 있도록 고안되었다. 학술 논문 데이터뿐만 아니라 이미지 데이터를 사용한 실험을 통해 본 모형이 어떻게 다중 범주 정보와 연관된 주제들을 자동으로 찾아내는지를 보여준다. 셋째, 본 연구는 다중 범주 정보 및 수치 정보를 비례 계층적 비모수적 주제 모형을 제안한다. 새롭게 제안된 모형은 다중 범주 정보뿐만 아니라 수치형식으로 나타나는 문서의 정보들을 사용하여 주제를 추론한다. 본 모형은 주제들과 부가 정보들의 상관 관계를 명확하게 정의하여 이를 통해 문서의 부가 정보가 주어졌을때 부가 정보와 가장 유사성이 높은 주제들이 사용 될 수 있도록 모형을 지도한다. 상품의 항목 범주와 수치적 평가에 대한 정보를 가지고 있는 상품 평가 문서들을 사용한 실험을 통해 본 모형의 향상된 수치 평가 분류 성능을 보여준다.
Advisors
Oh, Hae Yunresearcher오혜연researcher
Description
한국과학기술원 :전산학과,
Publisher
한국과학기술원
Issue Date
2015
Identifier
325007
Language
eng
Description

학위논문(박사) - 한국과학기술원 : 전산학과, 2015.2 ,[viii, 88 p. :]

Keywords

topic model; Bayesian nonparametrics; Bayesian model; 토픽모델; 비모수적 베이지안 모형; 베이지안 모형

URI
http://hdl.handle.net/10203/206717
Link
http://library.kaist.ac.kr/search/detail/view.do?bibCtrlNo=615702&flag=dissertation
Appears in Collection
CS-Theses_Ph.D.(박사논문)
Files in This Item
There are no files associated with this item.

qr_code

  • mendeley

    citeulike


rss_1.0 rss_2.0 atom_1.0