통계적 방법에 의한 음소의 자동 분할 및 Feature map을 이용한 음소 분류 알고리즘 연구Statistical approach to automatic phoneme segmentation and a feature map-bae[실제는 s]ed phoneme classification algorithm
본 논문에서는 통계적 방법에 의한 음소의 자동 분할과 분할된 음소를 신경회로망을 이용하여 분류하는 연구를 수행하였다.
음소 분할은 우선 음성 신호를 AR 모델로 모델링한 후 스펙트럼이 변화하기 전과 변화한 후의 모델에 대해서 likelihood ratio와 mutual information을 고려한 test statistics로 부터 모델 계수가 변화하는 곳을 예측해 내고 이곳을 음소의 경계로 판단한다. 이 경우 검파되지 못하는 대부분의 음소는 짧은 자음이었으며 SFBR을 이용하여 개선하였다. 또한 false alarm error를 줄이기 위해 두 segment 사이의 distortion으로 부터 smoothing을 하였다. 그리고 모 비음 구간을 미리 예측하여 cumsum test에 적용함으로써 non-detection error를 줄였다. 3명의 화자에 대한 실험 결과 non-detection error는 10% 정도, false alarm error는 20% 정도로 나타났지만 화자 간에 알고리즘의 성능 변화가 거의 없으며 특히 분할된 경계치 분포는 전체 음소의 90% 이상이 30ms 이내에 위치하였다.
분할된 음소에 대한 인식은 신경 회로망 이론에 근거 하였다. 음소를 7가지의 음소군으로 분류한 후 각각의 음소군에 대해 Kohonen의 feature map과 LVQ2 그리고 이를 개선한 modified LVQ2를 이용하여 feature map을 형성하였다. 특히 평음과 격음에 대해서는 transient map을 만들었다. 화자 독립의 경우 음소 인식 결과는 약 65% 정도로 통계적 방법에 근거한 HMM 시스템에 비교해서 8% 정도 높았다. 여기에 control network의 성능을 고려한 경우에는 58% 정도를 얻을 수 있었다. 그리고 분할된 음소에 대한 인식 결과는 50% 정도로 매우 낮았으나 분류된 음소열을 가지고 false alarm error를 5% 정도 개선할 수 있었다.