DC Field | Value | Language |
---|---|---|
dc.contributor.author | 김정은 | ko |
dc.contributor.author | 이재길 | ko |
dc.date.accessioned | 2015-03-26T08:29:55Z | - |
dc.date.available | 2015-03-26T08:29:55Z | - |
dc.date.created | 2014-06-28 | - |
dc.date.created | 2014-06-28 | - |
dc.date.created | 2014-06-28 | - |
dc.date.issued | 2014-04 | - |
dc.identifier.citation | 데이타베이스연구, v.30, no.1, pp.87 - 95 | - |
dc.identifier.issn | 1598-9798 | - |
dc.identifier.uri | http://hdl.handle.net/10203/194168 | - |
dc.description.abstract | 대용량 문서 데이터 셋에서 모든 문서 쌍에 대한 유사도를 측정하는 것은 계산상 오버헤드가 매우 크다. 하지만유사할 가능성이 높은 문서 쌍을 예측하고 유사할 가능성이 현저히 낮은 문서 쌍을 계산 전에 제거 한다면 계산상효율을 크게 향상 시킬 수 있다. 본 논문에서는 대용량 문서 데이터 셋에서 메타데이터를 활용하여 문서 유사도계산 성능을 향상시키는 방법을 학술 논문 데이터 셋을 중심으로 제안한다. 문서의 메타데이터란 문서를 기술한데이터로 문서의 속성 정보를 내포하며 학술 논문의 경우에는 제목, 발행처, 저자 등이 있다. 학술 논문 간 관련성을 발행처 정보와 저자 정보를 이용하여 정의하고 관련성이 낮은 학술 논문들은 유사도 계산에서 제외함으로써효율성을 높인다. 42만개의 대용량 학술 논문 데이터 셋에 대해 실험을 수행하였으며 제안하는 방법이 일반적인방법보다 197배 높은 성능을 보임을 확인하였다. | - |
dc.language | Korean | - |
dc.publisher | 한국정보과학회 | - |
dc.title | 대용량 문서 데이터 셋에서 메타데이터를 활용한 문서 유사도 계산 성능 향상 | - |
dc.title.alternative | Improving the Performance of Calculating Document Similarity Using Metadata in Large-Scale Datasets | - |
dc.type | Article | - |
dc.type.rims | ART | - |
dc.citation.volume | 30 | - |
dc.citation.issue | 1 | - |
dc.citation.beginningpage | 87 | - |
dc.citation.endingpage | 95 | - |
dc.citation.publicationname | 데이타베이스연구 | - |
dc.identifier.kciid | ART001875211 | - |
dc.contributor.localauthor | 이재길 | - |
dc.subject.keywordAuthor | 대용량 문서 데이터 셋 | - |
dc.subject.keywordAuthor | 메타데이터 | - |
dc.subject.keywordAuthor | 문서 유사도 | - |
dc.subject.keywordAuthor | 학술 논문 | - |
dc.subject.keywordAuthor | Large-Scale Document Dataset | - |
dc.subject.keywordAuthor | Metadata | - |
dc.subject.keywordAuthor | Document Similarity | - |
dc.subject.keywordAuthor | Academic Paper | - |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.