발표용 슬라이드 분류를 위한 연관 지식 및 특성 기반 벡터공간 추출기법Proposing and validating vector space extraction methods based on external knowledge and slide features to identify each cluster
발표용 슬라이드 문서는 교육, 회의 등의 다양하고 일반적인 상황에서 쓰이고 있다. 이처럼 폭발적으로 늘어나는 슬라이드 문서를 클러스터링하는 기술이 필요하다. 전통적인 클러스터링 연구들은 긴 문서에 국한되어 있다. 최근에는 짧은 문서를 클러스터링하는 연구들 또한 진행되고 있다. 하지만 슬라이드는 짧은 문서가 아닌 중요단어 기반의 함축적인 문서이다. 본 연구는 슬라이드를 분류하기 위해, 외부 연관 지식 및 슬라이드 고유 특성 기반의 벡터공간 추출 기법들을 제안한다. 슬라이드의 단어 분포를 분석한 후, 그 결과로부터 벡터공간 추출 기법들을 개발하였고, 각 벡터공간들 간의 EM-알고리즘 분류 결과를 비교하였다. 비교를 통해 외부 연관 지식 및 슬라이드 특성을 사용했을 때, 정밀도의 향상이 있다는 것을 검증하였다. 이는 슬라이드 환경에서 검색 및 추천하고자 할 때, 본 연구에서 제안하는 방법들을 활용하여 그 효과를 높일 수 있음을 보여준다.