본 발명은 캡슐 네트워크 기반의 종단간 음성 인식 방법 및 장치에 관한 것으로, 이는 컨볼루션 레이어, 입력 캡슐 레이어 및 출력 캡슐 레이어로 구성되는 캡슐 네트워크를 구성하는 단계; 다수의 주 명령어, 다수의 보조 명령어, 다수의 배경 잡음으로 구성된 음성 명령어 데이터 세트를 획득 및 저장하는 단계; 상기 음성 명령어 데이터 세트를 기반으로 음성 데이터와 명령어간 상관 관계가 정의된 학습 데이터 다수개를 추출하는 단계; 상기 학습 데이터 각각을 기반으로 상기 캡슐 네트워크를 반복적으로 훈련하면서 상기 캡슐 네트워크의 컨볼루션 레이어의 커널 크기, 디코더 네트워크의 존재 여부, 캡슐 채널, 입력 캡슐 벡터 길이, 출력 캡슐 벡터 길이 중 적어도 하나를 조정한 후, 상기 학습 데이터를 통해 상기 캡슐 네트워크를 반복 학습시키는 단계; 및 음성 인식이 요청되면, 상기 캡슐 네트워크를 이용하여 입력 음성에 대응되는 음성 명령어를 인식 및 출력하는 단계를 포함할 수 있다.