스타일 스피치 생성 방법 및 이를 수행하는 장치가 개시된다. 다양한 실시예에 따른 스타일 스피치 생성 방법은 참조 음성으로부터 상기 참조 음성의 특징에 대응하는 스타일 벡터를 추출하는 동작, 음소 시퀀스 및 상기 스타일 벡터에 기초하여 상기 음소 시퀀스에 관한 복수의 SALN(style-adaptive layer normalization) 벡터를 생성하는 동작과 상기 복수의 SALN 벡터에 기초하여 상기 음소 시퀀스를 상기 특징에 따라 발화한 음성인 스타일 스피치를 생성하는 동작을 포함할 수 있다.