한 화자의 적은 음성 데이터로 감정 운율을 담은 음성 합성 방법 및 장치Method and apparatus for Speech Synthesis Containing Emotional Rhymes with Scarce Speech Data of a Single Speaker

Cited 0 time in webofscience Cited 0 time in scopus
  • Hit : 94
  • Download : 0
한 화자의 적은 음성 데이터로 감정 운율을 담은 음성 합성 방법 및 장치가 제시된다. 일 실시예에 따른 전자 장치로 구현되는 음성 합성 장치를 이용한 음성 합성 방법은, 화자 음성의 특징을 추출하는 화자 인코더(speaker encoder)를 다량의 다화자 데이터를 통해 학습시키는 단계; 텍스트 인코더(text encoder), 운율 인코더(prosody encoder) 및 잔차 인코더(residual encoder) 중 적어도 어느 하나 이상을 상기 다량의 다화자 데이터, 다량의 표현 음성 데이터 및 감정 음성 데이터 중 적어도 어느 하나 이상을 통해 학습시키는 단계; 학습된 상기 텍스트 인코더, 상기 운율 인코더 및 상기 잔차 인코더 중 적어도 어느 하나 이상을 통해 상기 감정 음성 데이터의 감정 운율의 표현을 찾는 단계; 및 중립 화자 데이터의 화자의 목소리 표현을 상기 화자 인코더의 출력값으로 하고, 합성을 원하는 상기 감정 운율의 표현을 선별하여 합성시켜, 상기 중립 화자 데이터의 화자의 감정 음성을 출력하는 단계를 포함하여 이루어질 수 있다.
Assignee
한국과학기술원
Country
KO (South Korea)
Application Date
2020-08-21
Application Number
10-2020-0105049
Registration Date
2022-07-22
Registration Number
10-2426020-0000
URI
http://hdl.handle.net/10203/297716
Appears in Collection
EE-Patent(특허)
Files in This Item
There are no files associated with this item.

qr_code

  • mendeley

    citeulike


rss_1.0 rss_2.0 atom_1.0