오류-보정 기법을 이용한 어휘 모호성 해소Lexical disambiguation with error-driven learning

Cited 0 time in webofscience Cited 0 time in scopus
  • Hit : 604
  • Download : 0
본 논문은 오류-보정 기법을 이용해서 형태소 해석에서 발생되는 형태적 모호성을 해결하기 위한 방법을 제안한다. 형태적 모호성을 효과적으로 해결하기 위해서 형태적 모호성 축소 및 해소 과정으로 나누어 처리된다. 형태적 모호성 축소는 항상 올바른 형태소 해석 결과를 포함하면서 형태적 모호성을 줄이는 과정이고, 형태적 모호성 해소(품사 태깅)는 형태소 해석 결과 중에서 주어진 문장에 가장 적절한 하나의 해석을 찾는 과정이다. 형태적 모호성 축소 과정에서는 어휘화된 배열규칙과 형태소 해석 사이의 포섭관계를 이용한다. 전자는 기능어(functional words)에 속하는 단어를 형태소 배열규칙에 포함시켜서 불필요한 해석을 줄이고자 하는 방법이다. 후자는 형태소 해석들 사이에서 언어적인 관계, 즉, 복합어 관계를 이용해서 불필요한 해석을 줄이고자 하는 방법이다. 어휘화된 배열규칙과 포섭관계를 이용했을 때, 각각 54%와 40%의 형태적 모호성이 감소되었다. 이들 정보를 모두 사용했을 경우에는 약 67%의 오류가 감소되었다. 형태적 모호성 축소 후에도 여전히 형태적 모호성이 존재한다. 이와 같은 모호성을 완전히 해소하기 위해서 형태적 모호성 해소, 즉, 품사 태깅 과정을 거친다. 본 논문에서의 품사 태깅은 가중치 망 모델을 기반으로 한다. 이때, 가중치는 퍼지소속함수나 조건확률을 이용한다. 퍼지소속함수를 이용하는 퍼지망 모델은 학습 말뭉치의 양이 충분치 못할 경우에 적합하고, 조건확률을 이용하는 은닉마르코프 모델은 학습 말뭉치의 양이 충분할 경우에 적합함을 알 수 있었다. 그러나, 학습 말뭉치의 양이 충분하더라도 품사 태깅 시스템은 여전히 오류를 오 지고 있다. 이와 같은 문제는 크게 부적합한 매개변수 추정 방법과 어휘 문맥정보의 부족에 기인된다. 전자를 개선하기 위해서 본 논문에서는 분별학습 방법을 매개변수 추정에 이용하였다. 후자를 개선하기 위해서 본 논문에서는 다중단어의 개념을 가중치 망 모델에 포함할 수 있도록 하는 방법과 가중치 망 모델에서 자주 오류를 범하는 환경에 대해서 오류를 수정할 수 있는 오류 수정 규칙을 이용하였다. 이와 같은 방법으로 약 1.1% ($96.4% →97.5%$)의 정확률이 상승되었으며, 약 28%의 오류가 감소되었다.
Advisors
김길창양승택Kim, Gil-ChangYang, Seung-Taik
Description
한국과학기술원 : 전산학과,
Publisher
한국과학기술원
Issue Date
1996
Identifier
108831/325007 / 000925077
Language
kor
Description

학위논문(박사) - 한국과학기술원 : 전산학과, 1996.2, [ xvii, 135 p. ]

Keywords

형태적 모호성; 품사 태깅; 자연언어 처리; Error-driven learning; Lexical ambiguity; Morphological amgiguity; Part-of-speech tagging; Natural language processing; 오류-보정 기법; 어휘 모호성

URI
http://hdl.handle.net/10203/33069
Link
http://library.kaist.ac.kr/search/detail/view.do?bibCtrlNo=108831&flag=dissertation
Appears in Collection
CS-Theses_Ph.D.(박사논문)
Files in This Item
There are no files associated with this item.

qr_code

  • mendeley

    citeulike


rss_1.0 rss_2.0 atom_1.0