음성-음악 혼재 데이터에서의 음성분리를 위한 확률적 어텐션을 사용한 양방향 LSTM 기반 피치 분류Pitch Classification Based on Bidirectional LSTM with Probabilistic Attention for Speech Segregation from Speech-Music Mixtures

Cited 0 time in webofscience Cited 0 time in scopus
  • Hit : 654
  • Download : 0
Sub-band masking 기반 단일채널 음성분리에서는 음성피치를 추정하여 추정된 피치와 일치하는 주파수 에너지만 통과시키는 필터를 사용하여 배경 잡음으로부터 음성을 분리한다. 음성과 음악은 비슷한 하모닉 구조를 가지고 있어, 음악이 잡음으로 입력될 경우 추정된 피치에 음성 피치와 음악 피치가 공존하게 되며, 이는 음성분리의 성능하락으로 연결된다. 따라서 음성-음악 혼재 데이터에서의 효과적인 음성분리를 위해 음성 피치와 음악 피치를 분류해야 한다. 본 연구에서는 양방향 LSTM을 사용하는 음성/음악 피치 분류 방법을 제안하였으며, 양방향 LSTM의 성능을 향상시키기 위해서 확률적 어텐션 레이어 구조를 제안하였다. 또한 피치 분류 결과로부터 자연스러운 음성분리 결과를 얻기 위해 음악 에너지가 제거된 음성분리 마스크 생성 기법을 제안하였다. 실험결과 확률적 어텐션 기반 양방향 LSTM이 다른 방법에 비해 더 좋은 음성분리 성능을 보여주었다.
Publisher
한국정보과학회
Issue Date
2019-04
Language
Korean
Citation

정보과학회 컴퓨팅의 실제 논문지, v.25, no.4, pp.223 - 230

ISSN
2383-6318
DOI
10.5626/KTCP.2019.25.4.223
URI
http://hdl.handle.net/10203/271438
Appears in Collection
CS-Journal Papers(저널논문)
Files in This Item
There are no files associated with this item.

qr_code

  • mendeley

    citeulike


rss_1.0 rss_2.0 atom_1.0