내부적 보상을 이용한 재구성 기반의 월드 모델 편향 완화Bias mitigation of reconstruction-based world model using intrinsic rewards

Cited 0 time in webofscience Cited 0 time in scopus
  • Hit : 77
  • Download : 0
순차적 의사 결정 문제를 풀기 위하여 강화 학습을 이용하는 경우, 마르코프 결정 모델로 해당 문제를 표현 하는 것이 도움이 된다. 마르코프 결정 모델은 동적인 환경에 대한 의사 결정 과정을, 확률적 특성을 이용해 표현한 수학적 모델이기 때문이다. 이를 구성하기 위해서는 상태 공간의 표현과 상태 전이 모델이 필요하며, 주어진 상태에 대한 보상이 정의되어야 한다. 하지만 현실적으로는 상태의 전이나 보상에 대한 정보가 없는 경우가 많기 때문에, 이를 추론 모델을 이용해 학습시키는 모델 기반의 강화 학습이 사용될수있다. 또한 주어진 데이터가 상태 공간을 표현하기에 불충분한 정보를 가지고 있는 경우, 변분 추론에 기반한 차원 축소를 통해 월드 모델을 학습시켜, 잠재 공간 상에서 상호작용에 대한 역학을 표현할 수 있다. 우리는 이를 대표하는 순환 상태 공간 모델이, 순환 신경망에 대해 지배적으로 동작함에 따라 월드 모델의 편향을 유발하는 것을 보인다. 이러한 문제를 해결하기 위하여 스킵 커넥션을 활용한 디코더를 사용하는 방법과 보상 모델의 손실을 내부적 보상으로 제공하는 방법을 제안한다. 결과적으로 우리의 방법이 기존의 모델에 비교해서 추가적인 연산을 거의 필요로 하지 않으며, 로봇 시뮬레이션 환경에서 최종적인 누적 보상을 향상시킨다는 것을 보인다.
Advisors
이동환researcherLee, Donghwanresearcher
Description
한국과학기술원 :전기및전자공학부,
Publisher
한국과학기술원
Issue Date
2023
Identifier
325007
Language
kor
Description

학위논문(석사) - 한국과학기술원 : 전기및전자공학부, 2023.2,[iii, 28 p. :]

Keywords

모델 기반 강화 학습▼a월드 모델▼a잠재 공간 역학▼a내부 보상; Model-based reinforcement learning▼aWorld model▼aLatent dynamics▼aIntrinsic reward

URI
http://hdl.handle.net/10203/309996
Link
http://library.kaist.ac.kr/search/detail/view.do?bibCtrlNo=1032891&flag=dissertation
Appears in Collection
EE-Theses_Master(석사논문)
Files in This Item
There are no files associated with this item.

qr_code

  • mendeley

    citeulike


rss_1.0 rss_2.0 atom_1.0