음성 합성 시스템을 위한 심층 오토 인코더 기반 스펙트럼 포락선의 저차원 표현Reduced dimensional representation of spectral envelope using deep auto-encoder for speech synthesis

Cited 0 time in webofscience Cited 0 time in scopus
  • Hit : 450
  • Download : 0
본 논문에서는 통계적 매개변수 음성 합성 시스템을 위한 스펙트럼 특징 벡터를 추출하는 심층 오토 인코더 구조를 제안한다. 기존의 멜 캡스트럼 분석은 낮은 대역의 정보를 효율적으로 나타내지만 높은 대역의 정보를 반영하기 어렵다. 특히, 높은 샘플링 주파수의 음성을 분석할 때 정보 손실이 더욱 크다. 이러한 문제를 해결하기 위해 본 논문에서는 멜 캡스트럼 분석 및 바크 캡스트럼 분석을 대체하는 스펙트럼 특징 벡터 모델링 방법을 제안한다. 이는 스펙트럼의 모든 주파수 대역을 압축하여 저차원 스펙트럼 특징 벡터를 표현한다. WORLD 보코더를 이용하여 얻은 고차원의 스펙트럼 정보는 심층 오토 인코더를 통해 강인한 저차원 중간 특징 벡터로 압축되며 제안된 스펙트럼 특징 벡터는 오토 인코더의 병목(bottleneck) 특징 벡터에 스펙트럼 정보의 에너지 값을 포함한 벡터 표현이다. 음성 합성 시스템에 요구되는 저차원 스펙트럼 특징 벡터를 추출하기 위해 최적화된 오토 인코더 구조와 데이터 전처리 방법을 찾기 위한 다양한 실험 분석 과정과 그 결과를 소개한다. 기존 멜 캡스트럼 분석 방법과 제안한 방법을 이용하여 음성을 분석-재합성한 결과 멜 캡스트럼 분석 방법보다 제안한 방법이 높은 대역뿐만 아니라 낮은 대역에서도 더 좋은 복원 결과를 보여준다. 또한 멜 캡스트럼과 제안한 방법으로 추출한 저차원 스펙트럼 특징벡터를 이용하여 LSTM 모델 기반 음성 합성 시스템의 성능을 비교한 결과 제안한 방법이 더 자연스러운 합성음을 생성하였다. 높은 샘플링 주파수의 음성에서 제안된 방법과 멜 캡스트럼 분석의 선호도 평가 결과 더 큰 차이를 보이며 낮은 대역의 정보를 효율적으로 나타내는 멜 캡스트럼 분석 시스템이 높은 대역에서 압축 손실이 더욱 크다는 것을 보여준다. 이를 통해, 제안한 방법은 모든 대역 스펙트럼 정보를 유지하며 그대로 압축하는 데이터 기반 접근 방법으로 합성 음성의 품질을 향상시킴을 확인하였다.
Advisors
한민수researcherHahn, Minsooresearcher
Description
한국과학기술원 :전기및전자공학부,
Publisher
한국과학기술원
Issue Date
2018
Identifier
325007
Language
kor
Description

학위논문(석사) - 한국과학기술원 : 전기및전자공학부, 2018.2,[iv, 60 p. :]

Keywords

통계적 매개변수 음성 합성 시스템▼a심층 오토 인코더▼a스펙트럼 포락선▼a보코더; Statistical parametric speech synthesis▼aDeep auto-encoder▼aSpectral envelope▼aVocoder

URI
http://hdl.handle.net/10203/266984
Link
http://library.kaist.ac.kr/search/detail/view.do?bibCtrlNo=734062&flag=dissertation
Appears in Collection
EE-Theses_Master(석사논문)
Files in This Item
There are no files associated with this item.

qr_code

  • mendeley

    citeulike


rss_1.0 rss_2.0 atom_1.0