최근 인간-컴퓨터 상호작용 기술의 발전에 따라 사용자의 감성 상태를 인지하고 적절한 피드백을 제공하는 분야인 감성 컴퓨팅이 다양한 산업 분야에서 주목받으며 그 연구가 활발히 이루어지고 있다. 사람의 의사 표현은 음성, 언어, 얼굴 표현 등의 다양한 모달리티로 나타난다. 그러나 감정인식을 위해 모달 간 내부 정보와 모달 간 상관관계를 충분히 학습하는 멀티모달 융합 방법이 필요하다는 문제가 존재한다. 본 연구에서는 트랜스포머를 기반으로 하는 중간 융합 구조의 멀티모달 감정인식 네트워크를 제안한다. 트랜스포머 인코더와 공동-어텐션 모듈을 사용해 멀티모달 시퀀스의 은닉 층에서의 모달 간 정보를 학습하고 다음 은닉층에 전달한다. 또한 언어 데이터에 감정 정보가 현저히 드러난다는 사실을 고려해 언어를 주 모달리티로 적용하여 연산량을 감소시킨다. 두 종류의 감정인식 벤치마크에 대한 종합적인 실험 결과로 기존의 트랜스포머 기반의 멀티모달 모델보다 성능이 향상되었고 연산시간 또한 단축되었다.