음소 인식 단위의 vector quantization과 hidden markov model을 이용한 한국어 대용량 격리 단어 인식에 관한 연구A study on korean large vocabulary isolated word recognition based on phoneme-level vector quantization and hidden markov modeling
본 논문에서는 대용량 격리 단어 인식 시스템 구현을 위한 algorithm을 연구하였다. 먼저 training 과정에서 manual segmentation을 통해 각 음소별로 data를 분류해서 VQ를 한 후에 HMM parameter를 estimate하였다. 이 단어 인식 시스템의 성능을 알아 보기 위해서 computer simulation을 화자 종속으로, 한 화자에 의해 발음된 114 전화번호 안내 시스템의 1160 단어에서 적절한 418 단어를 선택하여 수행하였다. Codeword의 수가 256개이고 음소 model의 수가 49개일 때 첫째, test 단어를 음소 분리한 경우의 nonlinear word matching 방법으로는 92.61\%의 인식율을 얻었고 둘째, test 단어, 그 자체를 재구성된 word HMM으로 scoring하는 word-level Viterbi scoring 방법으로는 94.78\%의 인식율을 얻었다.