다중 확장된 콘볼루션 신경망을 활용한 음성 검출기에 관한 연구Voice activity detection based on multi-dilated convolutional neural network

Cited 0 time in webofscience Cited 0 time in scopus
  • Hit : 479
  • Download : 0
음성 검출은 음성 신호를 음성과 비음성 구간으로 분류하는 기법이다. 음성 검출은 음성 대화, 화자 인식, 그리고 음성 인식 과 같은 응용 음성 신호처리 분야의 첫 번 째 과정으로서 적은 계산 비용으로 높은 성능을 갖는 것이 요구된다. 음성 검출은 낮은 신호 대 잡음 비 환경에서 성능 저하가 발생하는데, 다양한 구간의 문맥 정보를 활용하여 성능을 개선할 수 있는 것이 기존의 연구들을 통해서 알려져 있다. 문맥 정보를 활용하기 위해서 CNN (Convolutional Neural Network)기반 음성 검출기를 구성한다. CNN은 활용하는 문맥 정보의 범위를 효율적으로 조절할 수 있지만 긴 구간의 문맥 정보를 활용할 때 계산 비용이 증가한다. CNN은 입력 신호로부터 특징을 추출하기 위한 콘볼루션 필터들을 구성한다. CNN이 활용하는 문맥 정보의 범위는 필터들 크기에 의해 결정된다. 긴 구간의 문맥 정보를 활용할 때, CNN은 필터의 크기나 수를 증가시킬 필요가 있고 이에 따라 파라미터 수가 증가하는 문제가 발생한다. 본 논문은 CNN이 긴 구간의 문맥 정보를 활용할 때 발생하는 계산 비용을 감소시키기 위해 확장된 콘볼루션(Dilated convolution)을 적용한다. 확장된 콘볼루션은 서브 샘플링이 적용된 큰 사이즈의 필터를 구성하는 기법이다. 음성 신호가 갖는 인접한 프레임 간의 높은 연관을 갖는 특징에 의해 확장된 콘볼루션을 필터에 적용하여 입력신호를 서브샘플하여 사용해도 성능 손실이 크게 발생하지 않는다. 본 연구는 계산 비용을 증가시키지 않으면서 다양한 구간의 문맥 정보를 활용하기 위해 다중 확장된 콘볼루션을 제안한다. 한 레이어의 확장된 콘볼루션 필터들을 각각 다른 크기의 필터로 구성하는 것으로 다양한 구간의 문맥 정보에서 특징을 추출하는 기법이다. 음성 데이터인 TIMIT 데이터 세트와 잡음 데이터 'A sound effect library'와 Noise-X 데이터 세트를 사용하였다. 실험 결과 다중 확장된 콘볼루션 레이어를 적용한 모델이 다른 비교 모델들 보다 높은 평균 성능을 갖는 것을 볼 수 있었다.
Advisors
한민수researcherHahn, Minsooresearcher
Description
한국과학기술원 :전기및전자공학부,
Publisher
한국과학기술원
Issue Date
2018
Identifier
325007
Language
kor
Description

학위논문(석사) - 한국과학기술원 : 전기및전자공학부, 2018.2,[v, 46 p. :]

Keywords

음성 검출▼a딥러닝▼aCNN▼a확장된 콘볼루션▼a문맥 정보▼a긴 구간 문맥 정보; Voice activity detection▼adeep neural network▼aConvolutional neural network▼aDilated convolution▼along-term contextual information

URI
http://hdl.handle.net/10203/266983
Link
http://library.kaist.ac.kr/search/detail/view.do?bibCtrlNo=733998&flag=dissertation
Appears in Collection
EE-Theses_Master(석사논문)
Files in This Item
There are no files associated with this item.

qr_code

  • mendeley

    citeulike


rss_1.0 rss_2.0 atom_1.0