Instance-level dimensionality reduction for efficient similarity search in large document databases = 대규모 문서 데이터베이스에서 효율적인 유사 검색을 위한 인스턴스-레벨 차원 감소 기법

Cited 0 time in webofscience Cited 0 time in scopus
  • Hit : 344
  • Download : 0
수 만에 이르는 텍스트 문서의 차원 크기는 텍스트 마이닝의 성능을 저하시키는 주된 원인이며, 따라서 텍스트 문서의 차원 감소는 텍스트 마이닝에서 매우 중요하다. 그러나, 차원 감소에 대한 최근까지의 연구들은 확장성이 부족하여 대규모 문서 데이터베이스에 적용하는 것이 어려웠다. 따라서, 본 학위 논문에서는 수평 차원 감소라고 불리는 대규모 문서 데이터베이스를 위한 간단하면서도 효과적인 새로운 차원 감소 기법을 제안한다. 수평 차원 감소는 각각의 텍스트 문서를 소수의 비트맵으로 변환하고, 이 비트맵을 이용하는 텍스트 문서 간 유사도의 엄격한 하한을 제공한다. 비트맵 표현은 매우 간단하고, 비트맵의 생성과 사용에 필요한 시간이 매우 짧으며, 수평 차원 감소의 인스턴스-기반 성질은 대규모의 그리고 업데이트가 빈번한 문서 데이터베이스에 적합하다. 또한, 본 학위 논문에서는 수평 차원 감소 기법을 이용하여 분류와 클러스터링 등의 텍스트 마이닝을 위한 효율적인 $k$-nearest neighbor ($k$-NN) 검색 알고리즘을 제안하고, 알고리즘의 정확성을 정형적으로 증명한다. 제안하는 알고리즘은 입출력과 CPU 오버헤드를 동시에 감소시키는데, 이유는 다음과 같다. 1) 수평 차원 감소를 사용하면 유사하지 않은 문서를 걸러내는 알고리즘의 초기 단계에서, 비트맵 기반의 유사도를 사용하여 유사 여부를 확인해야하는 실제 문서의 수를 줄인다. 따라서, 2) 자연스럽게 고차원 텍스트 문서 간의 실제 유사도를 계산하기 위한 CPU-집중적인 계산의 회수가 줄어든다. 본 학위 논문에서 제안한 수평 차원 감소 기법과 기존 차원 감소 방법들을 비교한 실험 결과, 수평 차원 감소는 차원 감소(전차리) 과정의 성능을 수십 $\sim$ 수백배 향상시켰다. 또한, 수평 차원 감소을 사용한 $k$-NN 검색 알고리즘의 성능은 기존의 차원 감소 기법을 사용한 검색 알고리즘의 성능을 크게 능가하였다.
Advisors
Whang, Kyu Youngresearcher황규영researcher
Description
한국과학기술원 :전산학과,
Publisher
한국과학기술원
Issue Date
2015
Identifier
325007
Language
eng
Description

학위논문(박사) - 한국과학기술원 : 전산학과, 2015.2 ,[iv, 43 :]

Keywords

dimensionality reduction; text mining; 차원 감소; 텍스트 마이닝

URI
http://hdl.handle.net/10203/206716
Link
http://library.kaist.ac.kr/search/detail/view.do?bibCtrlNo=615703&flag=dissertation
Appears in Collection
CS-Theses_Ph.D.(박사논문)
Files in This Item
There are no files associated with this item.

qr_code

  • mendeley

    citeulike


rss_1.0 rss_2.0 atom_1.0