시간적 적응 정규화와 전역 스타일 토큰을 이용한 비병렬 음색변환Non-parallel voice conversion using temporally adaptive normalization and global style token

Cited 0 time in webofscience Cited 0 time in scopus
  • Hit : 85
  • Download : 0
DC FieldValueLanguage
dc.contributor.advisor김회린-
dc.contributor.advisorKim, Hoirin-
dc.contributor.author엄지섭-
dc.date.accessioned2022-04-27T19:31:08Z-
dc.date.available2022-04-27T19:31:08Z-
dc.date.issued2021-
dc.identifier.urihttp://library.kaist.ac.kr/search/detail/view.do?bibCtrlNo=948721&flag=dissertationen_US
dc.identifier.urihttp://hdl.handle.net/10203/295967-
dc.description학위논문(석사) - 한국과학기술원 : 전기및전자공학부, 2021.2,[iv, 43 p. :]-
dc.description.abstract음색변환은 언어 정보를 담고 있는 내용은 그대로 유지하면서 소스 화자의 화자 특성을 목표 화자의 특성으로 변환시켜주는 시스템이다. 최근 들어 소스 화자와 목표 화자의 발화 내용이 전부 같게 구성된 코퍼스를 구하는 것이 어려워 이를 해결하고자 비병렬 음색변환이 주로 연구되고 있다. 또한, 훈련 과정에서 본 화자에 대해서만 변환이 가능하다는 한계를 해결하고자 훈련 과정에서 본 적이 없는 화자에 대해서도 하나의 발화만을 이용해 변환하는 원샷 음색변환이 등장하였다. 다방면으로 연구가 발전되면서 성능이 향상되었지만 여전히 원음과 비교했을 때 음색 유사도와 자연성 측면 모두에서 여전히 부족함을 보이고 있다. 본 연구에서는 음성인식기 기반의 비병렬 음색변환 시스템에 2가지 방법을 적용하여 음색 유사도와 자연성 측면에서 성능을 높이고자 한다. 음의 높낮이와 같은 말하는 스타일 정보를 전역 스타일 토큰을 통해 임베딩으로 추출하고 이를 모델에 추가 정보로써 활용하여 좀 더 목표 화자에 가까운 소리가 나도록 했으며 화자 정보뿐만 아니라 언어 정보에 대해서도 모델 네트워크에 전달해주는 시간적 적응 정규화 기법을 적용하여 자연성 부분에서 개선하였다. 추가로 본 연구에서는 선행 학습된 화자 인식기를 사용하여 원샷 음색변환으로 확장을 시도한다. 객관 평가와 주관 평가를 통해 본 연구에서 제안한 모델을 평가하고 이 평가들은 기존의 모델보다 음색 유사도와 자연성 측면 모두에서 더 좋은 성능을 보인다는 것을 입증하였다.-
dc.languagekor-
dc.publisher한국과학기술원-
dc.subject음색변환▼a비병렬▼a원샷▼a시간적 적응 정규화▼a전역 스타일 토큰-
dc.subjectVoice Conversion▼aNon-parallel▼aOne-shot▼aTemporally Adaptive Normalization▼aGlobal Style Token-
dc.title시간적 적응 정규화와 전역 스타일 토큰을 이용한 비병렬 음색변환-
dc.title.alternativeNon-parallel voice conversion using temporally adaptive normalization and global style token-
dc.typeThesis(Master)-
dc.identifier.CNRN325007-
dc.description.department한국과학기술원 :전기및전자공학부,-
dc.contributor.alternativeauthorUm, Ji Sub-
Appears in Collection
EE-Theses_Master(석사논문)
Files in This Item
There are no files associated with this item.

qr_code

  • mendeley

    citeulike


rss_1.0 rss_2.0 atom_1.0