DSpace at KOASAS: 음성 합성 시스템을 위한 심층 오토 인코더 기반 스펙트럼 포락선의 저차원 표현

DSpace at KOASAS

College of Engineering(공과대학)School of Electrical Engineering(전기및전자공학부)EE-Theses_Master(석사논문)

음성 합성 시스템을 위한 심층 오토 인코더 기반 스펙트럼 포락선의 저차원 표현Reduced dimensional representation of spectral envelope using deep auto-encoder for speech synthesis

Cited 0 time in webofscience

Cited 0 time in scopus

Hit : 474
Download : 0

Export

최희진

본 논문에서는 통계적 매개변수 음성 합성 시스템을 위한 스펙트럼 특징 벡터를 추출하는 심층 오토 인코더 구조를 제안한다. 기존의 멜 캡스트럼 분석은 낮은 대역의 정보를 효율적으로 나타내지만 높은 대역의 정보를 반영하기 어렵다. 특히, 높은 샘플링 주파수의 음성을 분석할 때 정보 손실이 더욱 크다. 이러한 문제를 해결하기 위해 본 논문에서는 멜 캡스트럼 분석 및 바크 캡스트럼 분석을 대체하는 스펙트럼 특징 벡터 모델링 방법을 제안한다. 이는 스펙트럼의 모든 주파수 대역을 압축하여 저차원 스펙트럼 특징 벡터를 표현한다. WORLD 보코더를 이용하여 얻은 고차원의 스펙트럼 정보는 심층 오토 인코더를 통해 강인한 저차원 중간 특징 벡터로 압축되며 제안된 스펙트럼 특징 벡터는 오토 인코더의 병목(bottleneck) 특징 벡터에 스펙트럼 정보의 에너지 값을 포함한 벡터 표현이다. 음성 합성 시스템에 요구되는 저차원 스펙트럼 특징 벡터를 추출하기 위해 최적화된 오토 인코더 구조와 데이터 전처리 방법을 찾기 위한 다양한 실험 분석 과정과 그 결과를 소개한다. 기존 멜 캡스트럼 분석 방법과 제안한 방법을 이용하여 음성을 분석-재합성한 결과 멜 캡스트럼 분석 방법보다 제안한 방법이 높은 대역뿐만 아니라 낮은 대역에서도 더 좋은 복원 결과를 보여준다. 또한 멜 캡스트럼과 제안한 방법으로 추출한 저차원 스펙트럼 특징벡터를 이용하여 LSTM 모델 기반 음성 합성 시스템의 성능을 비교한 결과 제안한 방법이 더 자연스러운 합성음을 생성하였다. 높은 샘플링 주파수의 음성에서 제안된 방법과 멜 캡스트럼 분석의 선호도 평가 결과 더 큰 차이를 보이며 낮은 대역의 정보를 효율적으로 나타내는 멜 캡스트럼 분석 시스템이 높은 대역에서 압축 손실이 더욱 크다는 것을 보여준다. 이를 통해, 제안한 방법은 모든 대역 스펙트럼 정보를 유지하며 그대로 압축하는 데이터 기반 접근 방법으로 합성 음성의 품질을 향상시킴을 확인하였다.

Advisors: 한민수 researcher; Hahn, Minsoo researcher

Description: 한국과학기술원 :전기및전자공학부,

Publisher: 한국과학기술원

Issue Date: 2018

Identifier: 325007

Language: kor

Description: 학위논문(석사) - 한국과학기술원 : 전기및전자공학부, 2018.2,[iv, 60 p. :]

Keywords: 통계적 매개변수 음성 합성 시스템▼a심층 오토 인코더▼a스펙트럼 포락선▼a보코더; Statistical parametric speech synthesis▼aDeep auto-encoder▼aSpectral envelope▼aVocoder

URI: http://hdl.handle.net/10203/266984

Link: http://library.kaist.ac.kr/search/detail/view.do?bibCtrlNo=734062&flag=dissertation

Appears in Collection: EE-Theses_Master(석사논문)

Files in This Item: There are no files associated with this item.

Display Full Item Record

qr_code

트윗하기

KOASAS

Knowledge Service Development Team, KAIST 291 Daehak-ro, Yuseong-gu, Daejeon 34141, Republic of Korea. T. 82-42-350-4493 Email. koasas@kaist.ac.kr
Copyright © 2016. Korea Advanced Institute of Science and Technology. All Rights Reserved.

KOASAS

KOASAS

Browse

음성 합성 시스템을 위한 심층 오토 인코더 기반 스펙트럼 포락선의 저차원 표현Reduced dimensional representation of spectral envelope using deep auto-encoder for speech synthesis

KOASAS

Communities & Collections