스타일러: 음성 분해를 통해 신속성과 견고성을 갖춘 스타일 요소 모델링을 기반으로 다양한 표현 및 스타일 제어가 가능한 인공신경망 기반의 음성 합성 시스템STYLER: STYLE FACTOR MODELING WITH RAPIDITY AND ROBUSTNESS VIA SPEECH DECOMPOSITION FOR EXPRESSIVE AND CONTROLLABLE NEURAL TEXT TO SPEECH

Cited 0 time in webofscience Cited 0 time in scopus
  • Hit : 101
  • Download : 0
음성 분해를 통해 신속성과 견고성을 갖춘 스타일 요소 모델링을 기반으로 다양한 표현 및 스타일 제어가 가능한 인공신경망 기반의 음성 합성 기술이 개시된다. 일 실시예에 따른 음성 합성 시스템에 의해 수행되는 합성 방법은, 스타일 요소 모델링을 위한 음성합성 모델에 오디오 데이터 및 텍스트 데이터를 입력받는 단계; 상기 음성합성 모델을 이용하여 상기 오디오 데이터 및 텍스트 데이터에 대한 스타일 요소를 모델링하는 단계; 및 상기 모델링을 통해 상기 오디오 데이터 및 텍스트 데이터에 대한 합성 음성 데이터를 출력하는 단계를 포함하고, 상기 음성합성 모델은, 스타일 요소 모델링을 통해 텍스트 데이터 및 오디오 데이터를 융합 및 분해하여 표현 및 제어가 가능한 합성 음성 데이터를 생성하도록 학습된 것일 수 있다.
Assignee
한국과학기술원
Country
KO (South Korea)
Application Date
2021-07-29
Application Number
10-2021-0099709
Registration Date
2023-02-28
Registration Number
10-2506671-0000
URI
http://hdl.handle.net/10203/305695
Appears in Collection
CS-Patent(특허)
Files in This Item
There are no files associated with this item.

qr_code

  • mendeley

    citeulike


rss_1.0 rss_2.0 atom_1.0