평활화 효과 개선을 통한 DNN 기반 통계 파라메트릭 음성합성기의 음질 향상 방법Performance improvement of DNN-based statistical parametric speech synthesis by over-smoothing effect reduction

Cited 0 time in webofscience Cited 0 time in scopus
  • Hit : 664
  • Download : 0
통계 파라메트릭 음성합성기의 음질은 심층신경망의 도입으로 인해 크게 향상되었다. 심층신경망은 언어특징벡터와 음성특징벡터간의 복잡(complex)하고 비선형적, 고차원 관계를 표현하는데 있어 전통적인 방법인 은닉 마르코프 모델보다 좋은 성능을 보여준다. 최근 몇 년간 엔드투엔드 구조를 가지는 음성합성 구조가 제안되었다. 하지만 이러한 알고리즘들은 소용량 코퍼스 환경에서 급격한 성능저하를 보이며 높은 계산량을 필요로 하는 단점이 있다. 이러한 이유로 제한된 환경에서는 통계 파라메트릭 음성합성기가 여전히 유용하다고 할 수 있다. 여러가지 심층신경망을 활용한 통계 파라메트릭 구조가 제안되었다. 이러한 구조들은 일반적으로 선형출력층을 가지며 최소 평균제곱오차(MSE: Mean Squared Error) 기준(criterion)으로 훈련되며, 최대 우도 파라미터 생성(MLPG: Maximum Likliehood Parameter Generation) 알고리즘을 이용하여 파라미터를 생성한다. 하지만 이때 2가지 주요한 문제가 발생한다: MSE 기준으로 인한 프레임간 독립 문제와 선형출력층으로 인한 유니모달(unimnodal) 가정 문제이다. 고음질의 음성합성을 위해서는 음성의 시간축에서의 정보가 필수적이지만 MSE 기준은 정적 특징벡터와 동적 특징벡터간의 관계를 어긋나게 만든다. 이러한 단점을 보안하기 위해 최소 궤적 오차(MTE: Minimum Trajectory Error)가 제안되었다. MTE 기준은 정적-동적 제약을 MSE 기준에 추가함으로써 시간축에서 자연스러운 특징벡터 궤적을 생성한다. 하지만 생성된 특징벡터는 선형출력층 문제로 인해 과평활화(over-s0moothing) 되어있다. 혼합 밀도 신경망(MDN: Mixture Density Network) 출력층은 이러한 문제를 해결할 수 있다. MDN의 여러 개의 가우시안 혼합이 음성의 멀티모달(multimodal) 특성을 반영함으로써 과평활화 문제를 일부 해결하였다. 그럼에도 불구하고 MSE 기준과 마찬가지로 시간축에서의 정보를 활용하지 못함으로써 부자연스러운 궤적을 생성한다. 과평활화 문제를 해결하기 위한 또 하나의 방법은 생성된 특징벡터의 분석 특징을 사용하는 것이다. 이러한 분석 특징 중엔 인지적인 단서라고 알려진 전역 분산(GV: Global Variance)과 변조 스펙트럼(MS: Modulation Spectrum)이 대표적이다. 훈련/합성과정에서 GV와 MS를 제약으로 활용함으로써 합성음의 명료성을 향상시킬 수 있다. 하지만 이러한 방법은 음성의 멀티모달 특성을 반영하는 것이 아니라 음성과 비슷하도록 궤적의 변화를 급격하게 만드는 데에만 집중한다. 본 논문에서는 과평활화 문제와 부자연스러운 궤적 문제를 해결하기위해 MDN에 MTE 기준을 적용하는 훈련 알고리즘을 제안한다. MTE 기준을 적용하기 위해 최확혼합(MPM: Most Probable Mixture)를 활용하여 전통적 MLPG 알고리즘을 폐형(closed-form)으로 수식화하였다. 제안 알고리즘은 정적-동적 제약을 도입하였을 뿐만 아니라 음성의 멀티모달 특성을 반영할 수 있기 때문에 전통적방법보다 좀 더 자연스럽고 명료한 합성음을 생성할 수 있다. 추가적인 성능 개선을 위해, MS 제약과 적대적 생성 신경망을 손실함수에 적용함으로써 과평활화 문제를 한번 더 감쇄시켰다. 합성음질 평가를 위해 객관적, 주관적 평가를 실시하였고 제안된 알고리즘이 합성음질을 향상시켰다는 것을 확인하였다.
Advisors
한민수researcherHahn, Minsooresearcher
Description
한국과학기술원 :전기및전자공학부,
Publisher
한국과학기술원
Issue Date
2019
Identifier
325007
Language
kor
Description

학위논문(박사) - 한국과학기술원 : 전기및전자공학부, 2019.2,[vii, 101 p. :]

Keywords

과평활화▼a문자-음성 변환▼a변조 스펙트럼▼a심층신경망▼a적대적 생성신경망▼a통계 파라메트릭 음성합성▼a혼합 밀도 신경망; deep neural network▼amixture density network▼agenerative adversarial network▼amodulation spectrum▼aover-smoothing▼astatistical parametric speech synthesis▼atext-to-speech

URI
http://hdl.handle.net/10203/265297
Link
http://library.kaist.ac.kr/search/detail/view.do?bibCtrlNo=842220&flag=dissertation
Appears in Collection
EE-Theses_Ph.D.(박사논문)
Files in This Item
There are no files associated with this item.

qr_code

  • mendeley

    citeulike


rss_1.0 rss_2.0 atom_1.0