한 화자의 적은 음성 데이터로 감정 운율을 담은 음성 합성 방법 및 장치Method and apparatus for Speech Synthesis Containing Emotional Rhymes with Scarce Speech Data of a Single Speaker
한 화자의 적은 음성 데이터로 감정 운율을 담은 음성 합성 방법 및 장치가 제시된다. 일 실시예에 따른 전자 장치로 구현되는 음성 합성 장치를 이용한 음성 합성 방법은, 화자 음성의 특징을 추출하는 화자 인코더(speaker encoder)를 다량의 다화자 데이터를 통해 학습시키는 단계; 텍스트 인코더(text encoder), 운율 인코더(prosody encoder) 및 잔차 인코더(residual encoder) 중 적어도 어느 하나 이상을 상기 다량의 다화자 데이터, 다량의 표현 음성 데이터 및 감정 음성 데이터 중 적어도 어느 하나 이상을 통해 학습시키는 단계; 학습된 상기 텍스트 인코더, 상기 운율 인코더 및 상기 잔차 인코더 중 적어도 어느 하나 이상을 통해 상기 감정 음성 데이터의 감정 운율의 표현을 찾는 단계; 및 중립 화자 데이터의 화자의 목소리 표현을 상기 화자 인코더의 출력값으로 하고, 합성을 원하는 상기 감정 운율의 표현을 선별하여 합성시켜, 상기 중립 화자 데이터의 화자의 감정 음성을 출력하는 단계를 포함하여 이루어질 수 있다.