음성 감정 인식 및 합성의 반복 학습 방법 및 장치가 제시된다. 일 실시예에 따른 음성 감정 인식 및 합성의 반복 학습 방법은, 텍스트(Text), 화자(ID) 및 감정(Style)에 대한 입력 정보를 딥러닝 기반의 텍스트 음성 합성(Text-to-Speech; TTS) 모듈에 입력하는 단계; 상기 입력 정보를 상기 텍스트 음성 합성(TTS) 모듈을 통해 음성 정보로 변환하는 단계; 변환된 상기 음성 정보를 딥러닝 기반의 음성 인식(Speech-to-Text; STT) 모듈, 음성 화자 인식(Speaker Identification; SI) 모듈 및 음성 감정 인식(Speech Emotion Recognition; SER) 모듈 중 적어도 어느 하나 이상에 입력하는 단계; 및 상기 음성 인식(STT) 모듈, 음성 화자 인식(SI) 모듈 및 음성 감정 인식(SER) 모듈 중 적어도 어느 하나 이상의 모듈을 통해 텍스트(Text), 화자(ID) 및 감정(Style)에 대한 출력 정보를 생성하는 단계를 포함하여 이루어질 수 있다.