사람의 청각계를 모사한 두 귀의 시간차 추정기법Method for Estimating Interaural Time Difference by Modeling the Human Auditory System

Cited 0 time in webofscience Cited 0 time in scopus
  • Hit : 420
  • Download : 0
오늘날 인간-기계 상호작용 관련 분야 중에서 가장 빠르게 발전하고 있는 분야가 음성인식이다. 최근 음성인식 기술은 인공지능과 결합하여 다양한 분야에서 활용되고 있으며 산업적으로 고부가가치의 기술로 성장하고 있다. 그러나 잡음 환경으로 인한 인식성능 저하는 사용자로 하여금 불편을 느끼게 하고 음성인식기능의 사용을 꺼리게 하는 원인이 되고 있다. 따라서 잡음 환경에서 화자의 위치 파악을 통한 전처리 과정은 잡음 환경에 강인한 음성인식을 위해 필수적이다. 화자의 위치 추적을 위해서는 두 개 이상의 마이크로폰이 필요하지만 공간적 제약이 많은 소형 단말기에서는 마이크로폰의 개수를 최소화 해야 한다. 본 연구에서는 잡음 환경에서 최소의 입력 채널로 화자의 위치를 추적하기 위해, 사람의 청각계(auditory system)를 모사하여 두 채널 간의 두 귀의 시간차(interaural time difference, ITD)를 추정하는 기법을 제안한다. 인간의 청각계는 외이, 중이, 내이로 분류된다. 음성 신호는 외이에서 고막의 기계적 진동으로 변환된 다음 중이를 통해 내이의 달팽이관으로 전달된다. 달팽이관 내부의 기저막(basilar membrane)은 고주파에서 저주파까지 각각 다른 공진점을 갖고 있으며, 음성 신호의 주파수 성분에 따라 각각 다른 응답을 나타낸다. 그리고 기저막의 기계적 진동은 내유모세포(inner hair cell, IHC)에 의해 청각 신경 섬유의 신경 발화로 변환된다. 본 논문에서는 이러한 인간의 청각계를 달팽이관의 필터 뱅크(filter bank) 응답 및 Zero-Crossings with Peak Amplitudes (ZCPA) 모델로 모사 하였다. ZCPA 모델은 필터 뱅크를 통과한 각 기저막 응답에 대해 상향 영교차(upward zero-crossing) 지점 간 주기와 진폭을 사용하여 내유모세포의 신경 발화 패턴을 모사한 것으로서, 잡음 환경에서 강건한 음성 특징을 추출하는데 유용하다. 두 채널 간의 ITD는 각 채널의 ZCPA 패턴을 구한 후에 두 패턴 간의 중심 주파수(center frequency) 별 상호상관함수(cross correlogram)를 구함으로써 추정하였다. 음성 신호에 부가한 잡음은 표준정규분포를 갖는 임의신호를 사용하였으며, 다양한 SNR 조건에서 ITD를 추정해 봄으로써 본 기법의 적용 가능성을 검토해 보았다.
Publisher
한국소음진동공학회
Issue Date
2019-02-22
Language
Korean
Citation

한국소음진동공학회 2019년도 춘계 학술대회, pp.229 - 229

URI
http://hdl.handle.net/10203/251548
Appears in Collection
ME-Conference Papers(학술회의논문)
Files in This Item
There are no files associated with this item.

qr_code

  • mendeley

    citeulike


rss_1.0 rss_2.0 atom_1.0