DSpace at KOASAS: RawNet3를 통해 추출한 화자 특성 기반 원샷 다화자 음성합성 시스템

DSpace at KOASAS

College of Engineering(공과대학)School of Electrical Engineering(전기및전자공학부)EE-Journal Papers(저널논문)

RawNet3를 통해 추출한 화자 특성 기반 원샷 다화자 음성합성 시스템

Cited 0 time in webofscience

Cited 0 time in scopus

Hit : 3
Download : 0

Export

DC Field	Value	Language
dc.contributor.author	한소희	ko
dc.contributor.author	엄지섭	ko
dc.contributor.author	김회린	ko
dc.date.accessioned	2024-07-31T03:00:06Z	-
dc.date.available	2024-07-31T03:00:06Z	-
dc.date.created	2024-07-30	-
dc.date.issued	2024-03	-
dc.identifier.citation	말소리와 음성과학, v.16, no.1, pp.67 - 76	-
dc.identifier.issn	2005-8063	-
dc.identifier.uri	http://hdl.handle.net/10203/321703	-
dc.description.abstract	최근 음성합성(text-to-speech, TTS) 기술의 발전은 합성음의 음질을 크게 향상하였으며, 사람의 음성에 가까운 합성음을 생성할 수 있는 수준에 이르렀다. 특히, 다양한 음성 특성과 개인화된 음성을 제공하는 TTS 모델은 AI(artificial intelligence) 튜터, 광고, 비디오 더빙과 같은 분야에서 널리 활용되고 있다. 따라서 본 논문은 훈련 중 보지 않은 화자의 발화를 사용하여 음성을 합성함으로써 음향적 다양성을 보장하고 개인화된 음성을 제공하는 원샷 다화자 음성합성 시스템을 제안했다. 이 제안 모델은 FastSpeech2 음향 모델과 HiFi-GAN 보코더로 구성된 TTS 모델에 RawNet3 기반 화자 인코더를 결합한 구조이다. 화자 인코더는 목표 음성에서 화자의 음색이 담긴 임베딩을 추출하는 역할을 한다. 본 논문에서는 영어 원샷 다화자 음성합성 모델뿐만 아니라 한국어 원샷 다화자 음성합성 모델도 구현하였다. 제안한 모델로 합성한 음성의 자연성과 화자 유사도를 평가하기 위해 객관적인 평가 지표와 주관적인 평가 지표를 사용하였다. 주관적 평가에서, 제안한 한국어 원샷 다화자 음성합성 모델의 NMOS(naturalness mean opinion score)는 3.36점이고 SMOS(similarity MOS)는 3.16점이었다. 객관적 평가에서, 제안한 영어 원샷 다화자 음성합성 모델과 한국어 원샷 다화자 음성합성 모델의 P-MOS(prediction MOS)는 각각 2.54점과 3.74점이었다. 이러한 결과는 제안 모델이 화자 유사도와 자연성 두 측면 모두에서 비교 모델들보다 성능이 향상되었음을 의미한다.	-
dc.language	Korean	-
dc.publisher	한국음성학회	-
dc.title	RawNet3를 통해 추출한 화자 특성 기반 원샷 다화자 음성합성 시스템	-
dc.type	Article	-
dc.type.rims	ART	-
dc.citation.volume	16	-
dc.citation.issue	1	-
dc.citation.beginningpage	67	-
dc.citation.endingpage	76	-
dc.citation.publicationname	말소리와 음성과학	-
dc.identifier.kciid	ART003070357	-
dc.contributor.localauthor	김회린	-
dc.description.isOpenAccess	N	-

Appears in Collection: EE-Journal Papers(저널논문)

Files in This Item: There are no files associated with this item.

Display Simple Item Record

qr_code

트윗하기

KOASAS

Knowledge Service Development Team, KAIST 291 Daehak-ro, Yuseong-gu, Daejeon 34141, Republic of Korea. T. 82-42-350-4493 Email. koasas@kaist.ac.kr
Copyright © 2016. Korea Advanced Institute of Science and Technology. All Rights Reserved.

KOASAS

KOASAS

Browse

RawNet3를 통해 추출한 화자 특성 기반 원샷 다화자 음성합성 시스템

KOASAS

Communities & Collections