Diphone단위의 hidden Markov model을 이용하는 음성인식 시스템의 성능 향상에 관한 연구A study on the performance improvement of the speech recognition system based on the diphone-level hidden markov model
본 논문에서는 한국어 음성인식에 적합한 음성 인식 단위에 대해서 연구하였다. 음성 인식에는 음소, 음절, 단어, triphone, diphone과 같은 여러가지 인식 단위가 사용되는데 본 논문에서는 이들중 diphone을 이용한 음성 인식에 관해서 주로 연구하였다. 좋은 음성 인식 시스템을 구현하기 위해서는 발음된 음성내의 조음화현상을 처리할 수 있는 인식 단위를 선택해야만 한다. 따라서 음소보다 개념적으로 확대된 인식 단위가 필요하게 되는데, diphone은 음소간의 전이영역을 modeling하기 때문에 좋은 인식 단위가 될 수 있다. Diphone을 인식 단위로 할 경우에 안정적인 음소영역을 diphone사이에 삽입할 수도 있다. 74단어로 구성된 고립단어 인식 실험결과 diphone을 2-state HMM으로, 터짐 소리와 묵음을 제거한 음소모델을 1-state HMM으로 나타냈을 때 가장 높은 인식률을 보였다. 이 때 드물게 발생하는 diphone들을 하나의 단위로 합쳤을 때 인식률이 93.98\%에서 96.29\%로 향상되었다. 또한 Training과정중 하나의 HMM state에 해당하는 특징벡터들과 좌측으로 가장 인접한 특징벡터를 clustering함으로써, 인식률이 96.29\%에서 96.76\%로 증가되었다. 게다가 o}櫓繹瑾 }train된 HMM을 충분히 train된 HMM을 사용해서 smoothing하기 위해 극소보간법이 제안되었다. 이 방법으로 최고 97.22\%의 인식률을 얻을 수 있었다.