형태소 및 구문 분석을 통한 한국어 문장 유형의 자동 파악Identifying sentence types in korean with morpho-syntactic analysis

Cited 0 time in webofscience Cited 0 time in scopus
  • Hit : 607
  • Download : 0
본 연구에서는 한국어 문장 유형을 자동으로 파악하는 방법을 제안한다. 한국어에서 문장 유형은 크게 평서문, 명령문, 청유문, 의문문, 감탄문의 다섯 가지로 분류되는데, 이를 판단할 때 가장 중요한 기준이 되는 것은 종결어미와 문장부호로 알려져 있다. 가령 “어제 재미있었니?”, “점심은 먹었냐?”와 같은 문장은 문장부호로 물음표를, 종결어미로는 각각 ‘-니’, ‘-냐’를 사용하였으므로 의문문이라고 판단할 수 있으며, “손 씻어라.”, “어서 드십시오.”와 같은 문장은 문장부호로 마침표를, 종결어미로는 각각 ‘-어라’, ‘-십시오’를 사용하였으므로 명령문임을 알 수 있다. 그러나 동일한 문장부호와 종결어미가 쓰인 문장도 두 가지 이상의 문형으로 해석되는 경우가 있는데, 가령 “얼른 약을 드세요.”, “전 생선이 싫어요.”와 같은 문장에서는 마침표와 ‘-어요’라는 동일한 문장부호, 종결어미가 사용되었지만 두 문장은 각각 명령문, 평서문으로 서로 다른 문형임을 알 수 있다. 이와 같이 한국어 문장에는 문장부호와 종결어미만으로 문형을 결정하기 어려운 경우가 많은데, 그 이유는 위에서 보인 ‘-어요’와 같이 다양한 문형에 사용되는 몇 가지 종결어미가 존재하기 있기 때문이다. 특히 해요체 중 하나인 ‘-어요’는 경우에 따라 의문문, 명령문, 청유문, 평서문의 서술어에 모두 사용될 수 있으므로 문형의 중의성을 유발하는 대표적인 종결어미라고 할 수 있다. 하지만 일상 대화나 담화에서는 이러한 종결어미가 사용된 문장일지라도 문형 결정에 도움을 주는 단서들이 문장 내에 드러나는 경우가 많은 것을 확인할 수 있다. 가령 “식기 전에 얼른 먹어요.”는 ‘얼른’이라는 부사를 통해 명령문일 가능성이 높다고 판단할 수 있으며, “전 생선이 싫어요.”는 ‘싫다’라는 용언을 통해 적어도 명령문이 될 수 없음을 알 수 있다. 본 연구에서는 문장 내에서 문형의 중의성을 유발하는 종결어미가 사용된 문장에 대해 형태소 및 구문 단위의 분석을 적용하여 문형을 결정하는데 중요한 역할을 하는 단서들을 찾아내고, 이를 통해 문형의 중의성을 해소하는 방법을 제시한다. 이를 바탕으로 규칙 기반의 시스템과 Support Vector Machine (SVM)을 이용한 기계학습 기반의 시스템을 구현하여 대화체 문장으로 구성된 TV 드라마 대본 말뭉치 상에서 실험한 결과 80% 이상의 정답률을 얻을 수 있었다. 또한 두 시스템을 비교하였을 때 SVM 기반의 시스템이 더 높은 성능을 보였으나 규칙 기반의 시스템이 더 안정된 성능을 보이는 것을 확인하였다.
Advisors
박종철researcherPark, Jong-C.researcher
Description
한국과학기술원 : 전산학과,
Publisher
한국과학기술원
Issue Date
2011
Identifier
467921/325007  / 020093505
Language
kor
Description

학위논문(석사) - 한국과학기술원 : 전산학과, 2011.2, [ iv, 38 p. ]

Keywords

한국어 문장; 문장 유형; 중의성 해소; Korean sentence; sentence type; ambiguity resolution; morpho-syntactic analysis; 형태소 및 구문분석

URI
http://hdl.handle.net/10203/180561
Link
http://library.kaist.ac.kr/search/detail/view.do?bibCtrlNo=467921&flag=dissertation
Appears in Collection
CS-Theses_Master(석사논문)
Files in This Item
There are no files associated with this item.

qr_code

  • mendeley

    citeulike


rss_1.0 rss_2.0 atom_1.0