다차원 데이터를 위한 코사인 유사도를 이용한 검색 공간 축소A search space reduction using cosine similarity for multidimensional data

Cited 0 time in webofscience Cited 0 time in scopus
  • Hit : 953
  • Download : 0
이전의 데이터베이스는 숫자 혹은 문자로 된 데이터를 저장하는데 사용되어왔다. 하지만 최근들어 사람들은 사진이나 동영상, 웹문서, 재정적인 time-series 데이터 증 다양한 데이터를 저장하고 싶어 한다. 그 결과 데이터의 차원은 급격히 증가하였고, 이는 \\\\`curse of dimensionality\\\\` 문제를 야기했다. 데이터의 차원이 증가할수록 기존에 사용하던 인덱스의 성능은 급격히 저하되게 된다. 이러한 \\\\`curse of dimensionality\\\\`를 극복하기 위해 다양한 방법들이 연구되어 왔다. 하지만 많은 방법들은 \\\\`no false dismissal\\\\`을 보장하지 못하고, 몇몇은 복잡한 계산과정이 필요하다. 본 논문에서는 코사인 유사도와 데이터 벡터의 길이를 이용하여 \\\\`no false dismissal\\\\`을 보장하는 검색 공간 축소 기법을 제안하였다. 질의가 들어오면 인덱스를 이용하여 먼저 질의의 검색 결과를 모두 포함하는 superset을 찾는다. 이 때 인덱스는 미리 정의된 어떤 축과 데이터 벡터 간의 코사인 유사도를 key 값으로 사용한다. 그 후 데이터 벡터의 길이를 이용하여 질의의 검색 결과에 포함될 수 없는 데이터를 가려낸다. 본 논문에서는 이러한 기법을 이용한 질의 처리 알고리즘을 개발하였고 또 실제 데이터를 이용한 실험 결과를 통해 성능을 보였다. 그리고 제안된 방법은 많이 사용되는 Euclidean 거리함수 대신 코사인 유사도를 이용하는 질의에 대한 검색 결과도 찾을 수 있다. 그리고 이미 차원 축소 기법을 포함하고 있기 때문에 코사인 유사도를 이용한 다차원 데이터에 대해서도 사용이 가능하다.
Advisors
정진완researcherChung, Chin-Wanresearcher
Description
한국과학기술원 : 전산학전공,
Publisher
한국과학기술원
Issue Date
2007
Identifier
268878/325007  / 020053681
Language
kor
Description

학위논문(석사) - 한국과학기술원 : 전산학전공, 2007. 8, [ vi, 41 p. ]

Keywords

Search Space Reduction; Dimension Reduction; Multidimensional Data; Cosine Similarity; 검색 공간 축소; 차원 축소; 다차원 데이터; 코사인 유사도; Search Space Reduction; Dimension Reduction; Multidimensional Data; Cosine Similarity; 검색 공간 축소; 차원 축소; 다차원 데이터; 코사인 유사도

URI
http://hdl.handle.net/10203/34786
Link
http://library.kaist.ac.kr/search/detail/view.do?bibCtrlNo=268878&flag=dissertation
Appears in Collection
CS-Theses_Master(석사논문)
Files in This Item
There are no files associated with this item.

qr_code

  • mendeley

    citeulike


rss_1.0 rss_2.0 atom_1.0