강화학습은 다양한 분야에서 활발히 연구되고 있으며, 몇몇 분야에서 뛰어난 성과를 보이고 있다. 유도제어 분야에서도 최적제어 문제를 데이터-드리븐(Data-driven) 방식으로 푸는 방식으로써 강화학습에 대한 연구가 활발히 진행되고 있다. 일반적으로 모델-없는(Model-free) 강화학습은 경우 많은 샘플이 필요하며 강화학습을 수렴시키기 어렵다는 단점이 존재하지만, 정책이 학습된 경우 상태로부터 바로 행동을 산출할 수 있다는 장점이 있다. 모델-없는 강화학습의 샘플 효율성을 높이기 위해 모델-참조 강화학습 방법이 연구되고 있으며, 본 논문에서는 MPPI를 사용하여 같은 목적함수를 갖는 강화학습 문제를 모델-참조 방식으로 푼 것을 다룬다. 끝으로 이 방식의 효과를 시뮬레이션 결과를 통해 확인하였다.