대용량 문서 데이터 셋에서 모든 문서 쌍에 대한 유사도를 측정하는 것은 계산상 오버헤드가 매우 크다. 하지만유사할 가능성이 높은 문서 쌍을 예측하고 유사할 가능성이 현저히 낮은 문서 쌍을 계산 전에 제거 한다면 계산상효율을 크게 향상 시킬 수 있다. 본 논문에서는 대용량 문서 데이터 셋에서 메타데이터를 활용하여 문서 유사도계산 성능을 향상시키는 방법을 학술 논문 데이터 셋을 중심으로 제안한다. 문서의 메타데이터란 문서를 기술한데이터로 문서의 속성 정보를 내포하며 학술 논문의 경우에는 제목, 발행처, 저자 등이 있다. 학술 논문 간 관련성을 발행처 정보와 저자 정보를 이용하여 정의하고 관련성이 낮은 학술 논문들은 유사도 계산에서 제외함으로써효율성을 높인다. 42만개의 대용량 학술 논문 데이터 셋에 대해 실험을 수행하였으며 제안하는 방법이 일반적인방법보다 197배 높은 성능을 보임을 확인하였다.