대용량 검색 엔진을 위한 병렬 웹 크롤러의 설계 및 구현Design and implementation of a parallel web crawler for large-scale search engines

Cited 0 time in webofscience Cited 0 time in scopus
  • Hit : 685
  • Download : 0
의 크기가 폭발적으로 증가함에 따라 인터넷에서 정보를 얻는 수단으로서 검색 엔진의 중요성이 부각되고 있다. 검색 엔진은 사용자에게 최신의 검색 결과를 제공하기 위해 웹 페이지를 주기적으로 수집하여 이를 데이타베이스에 저장한다. 웹 크롤러는 이러한 목적으로 웹 페이지를 수집하는 프로그램이다. 대부분의 검색 엔진은 제한된 시간 내에 많은 수의 웹 페이지를 수집하기 위해 다수의 머신을 사용한 병렬 웹 크롤러를 이용한다. 그러나, 병렬 웹 크롤러의 아키텍처와 세부 구현 방법이 잘 알려져있지 않기 때문에 실제로 병렬 웹 크롤러를 구현하는데 어려움이 많다. 본 논문에서는 병렬 웹 크롤러,(parallel web crawler),의 아키텍처와 세부 구현 방법을 제시한다. 병렬 웹 크롤러는 다수의 머신에서 웹 페이지를 병렬적으로 수집하기 위해 coordinator/agent 구조의 2-tier 모델을 사용한다. Coordinator/agent 모델은 각 머신에서 웹 페이지를 수집하기 위한 다수의 agent들과 이 agent들을 관리하기 위한 하나의 coordinator로 구성된다. 병렬 웹 크롤러는 웹 페이지를 수집하기 위한 crawling 모듈, 수집한 웹 페이지들을 데이터베이스 로딩 포맷으로 변환하기 위한 converting 모듈, 그리고, 수집된 웹 페이지의 중요도를 계산하기 위한 ranking 모듈로 구성된다. 본 논문에서는 병렬 웹 크롤러의 각 모듈들을 설명하고, 세부 구현 방법을 설명한다. 마지막으로, 실험을 통해 병렬 웹 크롤러의 성능을 평가하였다. 실험 결과, 제안된 병렬 웹 크롤러가 머신 개수와 수집해야할 웹 페이지 수에 scalable함을 보였다.
Advisors
황규영researcherWhang, Kyu-Youngresearcher
Description
한국과학기술원 : 전산학전공,
Publisher
한국과학기술원
Issue Date
2007
Identifier
265047/325007  / 020053301
Language
kor
Description

학위논문(석사) - 한국과학기술원 : 전산학전공, 2007.2, [ vi, 35 p. ]

Keywords

병렬 웹 크롤러; 검색 엔진; search engine; parallel web crawler

URI
http://hdl.handle.net/10203/34766
Link
http://library.kaist.ac.kr/search/detail/view.do?bibCtrlNo=265047&flag=dissertation
Appears in Collection
CS-Theses_Master(석사논문)
Files in This Item
There are no files associated with this item.

qr_code

  • mendeley

    citeulike


rss_1.0 rss_2.0 atom_1.0