DC Field | Value | Language |
---|---|---|
dc.contributor.author | 피오릴로 | ko |
dc.date.accessioned | 2017-12-20T07:48:31Z | - |
dc.date.available | 2017-12-20T07:48:31Z | - |
dc.date.issued | 2016-03-10 | - |
dc.identifier.uri | http://hdl.handle.net/10203/231604 | - |
dc.description.abstract | 강화학습(reinforcement learning)의 목적은, 에이전트(agent)로 하여금 보상을 최대화하고 처벌을 최소화하는 것이다. 이러한 두 가지는 전통적으로, 서로 같은 것으로서 결국 하나라고 인식되어져 왔고, 따라서 강화학습 모델에서의 학습은, '가치(value)'의 단일 척도에 의해 보상과 처벌을 표현하는(represent) 단일 강화 신호에 의해 구동되어져 왔다. 본 발명은 보상과 처벌을 두 개의 분리된 카테고리로 표현하고, 각각에 대해 두 개의 대립되는 표현을 갖도록 하는 것이 유리하다는 것을 제안한다. 따라서 보상 증거(evidence for reward), 반 보상 증거(evidence against reward), 처벌 증거(evidence for punishment) 및 반 처벌 증거(evidence against punishment)의 4개의 '기본 가치 신호(elementary value signal)'를 제안한다. 본 발명은 이러한 네 개의 기본 가치 신호가 다양한 유효 강화 신호(effective reinforcement signal)를 만드는 다양한 조합으로 어떻게 합해질 수 있는지를 설명한다. 뇌는 수치 표현의 총 8가지 타입을 학습하는 방법을 사용한다는 것을 제안한다. | - |
dc.title | 기본 가치 신호를 이용한 강화 학습 방법 및 그 장치 | - |
dc.title.alternative | REINFORCEMENT LEARNING METHOD AND APPARATUS WITH ELEMENTARY VALUE SIGNALS | - |
dc.type | Patent | - |
dc.type.rims | PAT | - |
dc.contributor.localauthor | 피오릴로 | - |
dc.contributor.assignee | 한국과학기술원 | - |
dc.identifier.iprsType | 특허 | - |
dc.identifier.patentApplicationNumber | 10-2014-0025967 | - |
dc.identifier.patentRegistrationNumber | 10-1603940-0000 | - |
dc.date.application | 2014-03-05 | - |
dc.date.registration | 2016-03-10 | - |
dc.publisher.country | KO | - |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.