감정 강도 조절이 가능한 시퀀스-투-시퀀스 감정 음성 변환 기술Sequence-to-sequence emotional voice conversion with strength control

Cited 0 time in webofscience Cited 0 time in scopus
  • Hit : 164
  • Download : 0
본 학위 논문에서는 감정 강도를 조절하는 감정 음성 변환 방법론을 다룬다. 감정은 일상 대화에서 말의 의도와 반응을 보다 효과적으로 전달하고 사회적 소통, 의사 결정에도 중요한 역할을 하는 요소이다. 감정 음성 변환 기술은 풍부한 의사소통을 위한 감정 음성 생성 분야 중 하나로서 중립 음성을 원하는 감정 음성으로 변환해 주는 기술이다. 통계적인 접근 방법부터 최근에는 딥러닝까지 다양한 방법론들이 감정 음성 변환에 성공적으로 적용되었다. 하지만 기존의 감정 음성 변환 방법들은 발화 지속 시간 모델의 부재, 제한된 감정 표현력과 같은 문제점들이 수반된다. 따라서 본 논문에서는 두 가지의 감정 음성 변환 방법을 제안한다. 첫 번째 방법은 중립 음성과 감정 음성의 시간 정렬을 위해 어텐션 기반의 시퀀스-투-시퀀스 모델을 도입하여 발화 지속 시간을 모델 내에서 훈련하고, 감정 스타일 전이 모델을 통해 감정 음성의 개별적인 감정 스타일을 반영하는 감정 파라미터를 고안한다. 또한 감정 파라미터에 가중치를 부여하여 감정 음성 변환 시에 감정 강도 조절을 도모하며 다화자 감정 음성 데이터를 활용하여 다양한 화자의 감정 표현을 반영한다. 두 번째 방법은 시간 정렬 어텐션의 지식 전이를 통해 보다 안정적인 발화 지속 시간 모델을 제안한다. 또한, 각 감정 분포집단 간의 거리를 분석하여 선형 보간법에 기반한 감정 강도 조절 방법을 기술한다. 제안된 방법론들은 기존 기법들의 제한점들을 효과적으로 극복할 뿐만 아니라 객관적 및 주관적 평가실험을 통해 향상된 성능을 검증한다.
Advisors
한민수researcherHahn, Minsooresearcher
Description
한국과학기술원 :전기및전자공학부,
Publisher
한국과학기술원
Issue Date
2021
Identifier
325007
Language
kor
Description

학위논문(박사) - 한국과학기술원 : 전기및전자공학부, 2021.8,[v, 81 p. :]

Keywords

음성 변환▼a감정 음성 변환▼a감정 강도▼a시퀀스-투-시퀀스 학습▼a조절 가능한 감정 음성 변환; Voice conversion▼aEmotional voice conversion▼aEmotion strength▼aSequence-to-sequence learning▼aControllable emotional voice conversion

URI
http://hdl.handle.net/10203/295716
Link
http://library.kaist.ac.kr/search/detail/view.do?bibCtrlNo=962482&flag=dissertation
Appears in Collection
EE-Theses_Ph.D.(박사논문)
Files in This Item
There are no files associated with this item.

qr_code

  • mendeley

    citeulike


rss_1.0 rss_2.0 atom_1.0