본 발명은 외부로부터 오디오 신호를 입력받아 분석하고 합성곱 신경망을 통해 학습하여 주변 환경에 적합한 환경음으로 출력할 수 있도록 하는 합성곱 신경망 기반 환경음 인식 방법 및 시스템에 관한 것이다. 본 발명에 따른 합성곱 신경망 기반 환경음 인식 시스템은, 오디오 신호를 입력받아 멀티레졸루션 단시간 푸리에 변환(Multi-resolution STFT)과 멜프리퀀시 필터뱅크 변환 및 로그 변환을 통해 멀티레졸루션 로그 멜스펙트로그램을 획득하는 멀티레졸루션 분석부; 상기 멀티레졸루션 로그 멜스펙트로그램을 입력받아 합성곱 연산 및 풀링 연산을 실행하여 환경음 라벨 데이터를 출력하는 합성곱 신경망 모듈부를 포함할 수 있다.