DSpace at KOASAS: 대용량 검색 엔진을 위한 병렬 웹 크롤러의 설계 및 구현

DSpace at KOASAS

College of Engineering(공과대학)School of Computing(전산학부)CS-Theses_Master(석사논문)

대용량 검색 엔진을 위한 병렬 웹 크롤러의 설계 및 구현Design and implementation of a parallel web crawler for large-scale search engines

Cited 0 time in webofscience

Cited 0 time in scopus

Hit : 685
Download : 0

Export

신은정 / Shin, Eun-Jeong

의 크기가 폭발적으로 증가함에 따라 인터넷에서 정보를 얻는 수단으로서 검색 엔진의 중요성이 부각되고 있다. 검색 엔진은 사용자에게 최신의 검색 결과를 제공하기 위해 웹 페이지를 주기적으로 수집하여 이를 데이타베이스에 저장한다. 웹 크롤러는 이러한 목적으로 웹 페이지를 수집하는 프로그램이다. 대부분의 검색 엔진은 제한된 시간 내에 많은 수의 웹 페이지를 수집하기 위해 다수의 머신을 사용한 병렬 웹 크롤러를 이용한다. 그러나, 병렬 웹 크롤러의 아키텍처와 세부 구현 방법이 잘 알려져있지 않기 때문에 실제로 병렬 웹 크롤러를 구현하는데 어려움이 많다. 본 논문에서는 병렬 웹 크롤러,(parallel web crawler),의 아키텍처와 세부 구현 방법을 제시한다. 병렬 웹 크롤러는 다수의 머신에서 웹 페이지를 병렬적으로 수집하기 위해 coordinator/agent 구조의 2-tier 모델을 사용한다. Coordinator/agent 모델은 각 머신에서 웹 페이지를 수집하기 위한 다수의 agent들과 이 agent들을 관리하기 위한 하나의 coordinator로 구성된다. 병렬 웹 크롤러는 웹 페이지를 수집하기 위한 crawling 모듈, 수집한 웹 페이지들을 데이터베이스 로딩 포맷으로 변환하기 위한 converting 모듈, 그리고, 수집된 웹 페이지의 중요도를 계산하기 위한 ranking 모듈로 구성된다. 본 논문에서는 병렬 웹 크롤러의 각 모듈들을 설명하고, 세부 구현 방법을 설명한다. 마지막으로, 실험을 통해 병렬 웹 크롤러의 성능을 평가하였다. 실험 결과, 제안된 병렬 웹 크롤러가 머신 개수와 수집해야할 웹 페이지 수에 scalable함을 보였다.

Advisors: 황규영 researcher; Whang, Kyu-Young researcher

Description: 한국과학기술원 : 전산학전공,

Publisher: 한국과학기술원

Issue Date: 2007

Identifier: 265047/325007 / 020053301

Language: kor

Description: 학위논문(석사) - 한국과학기술원 : 전산학전공, 2007.2, [ vi, 35 p. ]

Keywords: 병렬 웹 크롤러; 검색 엔진; search engine; parallel web crawler

URI: http://hdl.handle.net/10203/34766

Link: http://library.kaist.ac.kr/search/detail/view.do?bibCtrlNo=265047&flag=dissertation

Appears in Collection: CS-Theses_Master(석사논문)

Files in This Item: There are no files associated with this item.

Display Full Item Record

qr_code

트윗하기

KOASAS

Knowledge Service Development Team, KAIST 291 Daehak-ro, Yuseong-gu, Daejeon 34141, Republic of Korea. T. 82-42-350-4493 Email. koasas@kaist.ac.kr
Copyright © 2016. Korea Advanced Institute of Science and Technology. All Rights Reserved.

KOASAS

KOASAS

Browse

대용량 검색 엔진을 위한 병렬 웹 크롤러의 설계 및 구현Design and implementation of a parallel web crawler for large-scale search engines

KOASAS

Communities & Collections