深度强化学习之:模仿学习(imitation learning)

  • 时间:
  • 浏览:1

  这里以自动驾驶为例,首先我们我们我们都要采集一堆数据,可是我 demo,可是我人类做类事 ,随后机器做类事 。虽然可是我监督学习(supervised learning),让 agent 选泽的动作和 给定的动作是一致的。。。

  ====>>  Generator:产生出曾经轨迹,

  一、Behavior Cloning 

   

  Recap:Sentence Generation and Chat-bot 

  而 Inverse Reinforcement Learning 这是下面的类事 思路:

  于是,另一类办法,经常出現了,即:Inverse Reinforcement Learning (也称为:Inverse Optimal Control,Inverse Optimal Planning)。

  

  

  

  我们我们我们都都才能 想看 ,可能我们我们我们都无法知道得到的 reward 具体情况,所以,我们我们我们都都才能才能 去估计类事 奖励的函数,可是我,我们我们我们都用参数 w 来进行估计:

  在得到 reward 函数估计出来随后,再进行 策略函数的估计。。。

 

  三、GAN for Imitation Learning (Generative Adversarial imitation learning, NIPS, 2016) 

  Examples of Recent Study : 

  那么怎么用 GAN 来做类事 事情呢?对应到这件事情上,我们我们我们都知道,我们我们我们都想得到的 轨迹 是属于某曾经高维的空间中,而 expert 给定的类事 轨迹,我们我们我们都假设是属于曾经 distribution,我们我们我们都想我们我们我们都都的 model,也去 predict 曾经分布出来,可是我使得这两者之间尽可能的接近。从而完成 actor 的训练过程,示意图如下所示:

  ===========================================================

  

宽度强化学习之:模仿学习(imitation learning)

  

  

  本文所涉及的本身办法:1. 行为克隆,2. 逆强化学习,3. GAN 的办法

  专家的类事 回报是最大的,英雄级别的,比任何类事 的 actor 得到的都多。。。

  ===============================  过程  ================================

  接下来,我们我们我们都将分别介绍类事 种办法:

  

  都才能 想看 ,貌似我们我们我们都说的哎。。。可是我,复习下类事 是 内部人员化学习:

  

  本文所涉及到的 模仿学习,则是从给定的展示中进行学习。机器在类事 过程中,也和环境进行交互,可是我,并那么显示的得到 reward。在类事 任务上,可是我能自己定义 reward。如:自动驾驶,撞死一人,reward为哪几个,撞到一百公里车,reward 为哪几个,撞到小动物,reward 为哪几个,撞到 X,reward 又是哪几个,诸那么类。。。而类事 人类所定义的 reward,可能会造成不可控制的行为,如:我们我们我们都想让 agent 去考试,目标是让其考 3000,那么,类事 agent 则可能会为了考 3000,而采取作弊的办法,那么,类事 就比较尴尬了,是吧 ?我们我们我们都当然想让 agent 在学习到类事 本领的并肩,能遵守一定的规则。给我们我们我们都展示怎么么做,也我不要 其当时人去学习,会是曾经比较好的办法。

  

  

  

  ==========================================================================

  

  

  顾名思义,IRL 是 反过来的 RL,RL 是根据 reward 进行参数的调整,可是我得到曾经 policy。大致流程应该是类事 样子:

  ====>>  Discriminator:判断给定的轨迹是否是 expert 做的?

  

  

  =======================================================================

2017.12.10 

  里边可是我 IRL 所做的整个流程了。  

  ==========================================================================

  可是我,类事 办法是有问题图片的,可能 你给定的 data,是有限的,可是我是有限制的。那么,在类事 数据上进行测试,则可能我不要 很好。

   二、Inverse Reinforcement Learning (“Apprenticeship learning via Inverse Reinforcement Learning”, ICML 30004) 

  要么,你增加 training data,加入平常 agent 那么想看 过的数据,即:dataset aggregation 

  

  我们我们我们都对比下, IRL 和 内部人员化学习:

  

  那么 IRL 的流程究竟是怎么的呢???

  

  

  

  逆强化学习 则是在给定曾经专家随后(expert policy),通过不断地寻找 reward function 来满足给定的 statement(即,解释专家的行为,explaining expert behavior)。。。

  所以, r 都才能 写成 w 和 f(s, a) 相乘的形式。w 可是我我们我们我们都所要优化的参数,而 f(s,a)可是我我们我们我们都提取的 feature vector。

  可是我, IRL 就不同了,可能他那么显示的 reward,都才能才能 根据 人类行为,进行 reward的估计(反推 reward 的函数)。

   通过不断地增加数据,那么,就都才能 很好的改进 agent 的策略。类事 场景下,我说适应类事 办法。。。

  曾经的 RL,可是我给定曾经 reward function R(t)(奖励的加和,即:回报),可是我,这里我们我们我们都回顾一下 RL 的大致过程(这里以 policy gradient 办法为例)

  据说,类事 IRL 和 structure learning 是非常类事的:

  可是我,你的观测数据 和 策略是有联系的。可能在监督学习当中,我们我们我们都都要 training data 和 test data 独立同分布。可是我,有随后,这两者是不同的,那么,就惨了。。。

  

  ===========================================================