模仿学习笔记:行为克隆

1 模仿学习

  • 模仿学习 (Imitation Learning) 不是强化学习,而是强化学习的一种替代品。
  • 模仿学习与强化学习有相同的目的:
    • 两者的目的都是学习策略网络,从而控制智能体。
  • 模仿学习与强化学习又有不同的原理:
    • 模仿学习向人类专家学习,目标是让策略网络做出的决策与人类专家相同;
    • 强化学习利用环境反馈的奖励改进策略,目标是让累计奖励(即回报)最大化。

2 行为克隆概述

  • 行为克隆 (Behavior Cloning) 是最简单的模仿学习。
  • 行为克隆的目的是模仿人的动作,学出一个随机策略网络 π(a|s; θ) 或者确定策略网络 µ(s; θ)
  • 虽然行为克隆的目的与强化学习中的策略学习类似,但是行为克隆的本质是监督学习(分类或者回归),而不是强化学习。
  • 行为克隆通过模仿人类专家的动作来学习策略,而强化学习则是从奖励中学习策略。
模仿学习需要一个事先准备好的数据集,由(状态,动作)这样的二元组构成,记作:

         其中 sj 是一个状态,而对应的 aj 是人类专家基于状态 sj 做出的动作。(aj就是行为克隆遇到状态sj时,应该做出的动作)

        可以把 sj aj 分别视作监督学习中的输入和标签。

3  连续控制问题+行为克隆 【类比:有监督回归问题】

强化学习笔记:连续控制 & 确定策略梯度DPG_UQI-LIUWJ的博客-CSDN博客中的DPG策略网络是一样的

      行为克隆用回归的方法训练确定策略网络。训练数据集 X 中的二元组 (s, a) 的意思

是基于状态 s ,人做出动作 a 。行为克隆鼓励策略网络的决策 µ ( s ; θ ) 接近人做出的动作
a
       
        于是我们定义损失函数
损失函数越小,说明策略网络的决策越接近人的动作。【相比于DPG,这里时有了一个ground truth的动作,所以就和监督学习一样直接可以计算loss;而DPG这类强化学习的任务则是需要将决策网络的输出送到value network中,才会有可以判断好坏的奖励】
        
        使用梯度下降更新θ

3.1 训练流程

 

4 离散控制问题+行为克隆【类比:有监督分类问题】

此时的策略网络和强化学习笔记:policy learning_UQI-LIUWJ的博客-CSDN博客中的类似

         行为克隆把策略网络 π(a|s; θ) 看做一个多类别分类器,用监督学习的方法训练这个分类器。

        把训练数据集 X 中的动作 a 看做类别标签,用于训练分类器。需要对类别标签 a One-Hot 编码,得到 |A| 维的向量,记作粗体字母 a¯

        和有监督学习中的分类问题一样,我们用交叉熵来衡量策略网络输出和ground truth分布之间的区别

        

        我们同样用梯度下降更新参数

 

4.1 训练流程

 

5 强化学习 VS 行为克隆

行为克隆强化学习
不需要与环境交互,而是利用事先准备好的数据集,用人类的动作指导策略网络的改进,目的是让策略网络的决策更像人类的决策。
让智能体与环境交互,用环境反馈的奖励指导策略网络的改进,目的是最大化回报的期望。

本质上是监督学习,不是强化学习

——>离散动作:分类

——>连续动作:回归

隆训练出的策略网络通常效果不佳。
——>人类不会探索奇怪的状态和动作,因此数据集上的状态和动作缺乏多样性。
——> 在数据集上做完行为克隆之后,智能体面对真实的
环境,可能会见到陌生的状态,智能体的决策可能会很糟糕。
行为克隆存在“错误累加” 的缺陷。
假如当前智能体的决策a_t不够好
——>那么下一时刻的状态s_{t+1}可能会比较罕见
——>于是智能体的决策a_{t+1} 会很差
——>这又导致状态s_{t+2}非常奇怪
——>使得决策 a_{t+2}更糟糕
行 为克隆训练出的策略常会进入这种恶性循环。
强化学习效果通常优于行为克隆。
如果用强化学习,那么智能体探索过各种各样的 状态,尝试过各种各样的动作,知道面对各种状态时应该做什么决策。
智能体通过探索, 各种状态都见过,比行为克隆有更多的“人生经验”,因此表现会更好。
行为克隆的优势在于离线训练,可以避免与真实环境的交互,不会对环境产生影响。
可以先用行为克隆初始化策略网络,而不是随机初始化,然后再做
强化学习,这样可以减小对物理世界的有害影响。
强化学习的一个缺点在于需要与环境交互,需要探索,而且会改变环境。
如果在真实物理世界应用强化学习,要考虑初始化和探索带来的成 本。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/1382166.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

WPF界面设计学习

github上发现了一个不错的项目: https://github.com/HenJigg/wpf-uidesign 还配有B站的学习视频: https://space.bilibili.com/32497462 看了这个项目,觉得自己学了这么多年的WPF,界面还设计的这么丑,顿时脸都不知道往…

联邦学习(Federated Learning)

联邦学习简介 联邦学习(Federated Learning)是一种新兴的人工智能基础技术,其设计目标是在保障大数据交换时的信息安全、保护终端数据和个人数据隐私、保证合法合规的前提下,在多参与方或多计算结点之间开展高效率的机器学习。其…

机器学习(Machine Learning)

简介 bili 吴恩达 机器学习 这是一门让计算机在没有明确编程的情况下学习的科学。 亚瑟塞缪尔(1959):赋予计算机学习能力而不被明确编程的研究领域。 机器学习作为人工智能的一个子领域。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或…

机器学习丨监督学习与无监督学习

较为通俗易懂的参考:2 监督学习与无监督学习 表述比较清晰的参考:监督学习和无监督学习的区别 前言 机器学习算法最主要两个分类就是监督学习、无监督学习。(此外强化学习和推荐系统也都是机器学习算法的一员)(强化学…

深度学习面试题

深度学习面试题 1.深度学习常用算法,及相应应用场景有哪些2.什么数据集不合适做深度学习3.如何确定CNN卷积核通道数和卷积输出层的通道数4.什么是卷积5.什么是CNN的池化层(pool)6.CNN常用的几个模型7.CNN的特点以及优势8.卷积神经网络CNN中池…

机器学习的实验

目录 BP神经网络预测波士顿房价 1. 神经网络基本概念 1.1概念 1.2发展 CNN RNN GAN 2.神经网络基本框架 2.1单元/神经元 2.2 连接/权重/参数 2.3偏置项 2.4超参数 2.5激活函数 2.6层 3.神经网络算法 4.算法方案 5. 实验 6.参考文献 BP神经网络预测波士顿房价 …

联邦学习概述

本博客地址:https://security.blog.csdn.net/article/details/122779883 一、联邦学习的定义与应用场景 联邦学习是从技术维度出发,重点研究其中的隐私保护和数据安全问题的一种技术。其旨在建立一个基于分布数据集的联邦学习模型。 对于联邦学习的过…

基于Pytorch的深度学习激励函数总结

基于Pytorch的深度学习激励函数总结 1 激励函数定义2 常见激励函数2.1 Threshold函数2.1.1 数学定义2.1.2 常见性质2.1.3 Pytorch实现 2.2 Tanh函数2.2.1 数学定义2.2.2 常见性质2.2.3 Pytorch实现 2.3 Sigmoid函数2.3.1 数学定义2.3.2 常见性质2.3.3 Pytorch实现 2.4 ReLU函数…

机器学习、深度学习项目开发业务数据场景梳理汇总记录一

本文的主要作用是对历史项目开发过程中接触到的业务数据进行整体的汇总梳理,文章会随着项目的开发推进不断更新。 一、MSTAR雷达影像数据 MSTAR(Moving and Stationary Target Acquisition and Recognition)雷达影像数据集是一种常用的合成孔…

ps模糊照片变清晰步骤东方逐梦

ps把模糊照片变清晰步骤 1.打开照片双击解锁图层 2.CtelJ复制图层选择滤镜—>锐化—>USM锐化(按照以下步骤设置) 3.图像模式lab颜色合并图层 4.继续复制已经合并的图层进行一下操作 5.选中通道中明度继续SUM锐化半径选择1.2数量150%确定 6.回到原…

照片放大后怎么变清晰?

照片放大后怎么变清晰?在电脑使用的过程中,都避免不了需要将尺寸较小的照片进行放大处理,使用正常的方法将图片放大后(例如用ps将照片放大),照片的清晰度或多或少都会受到一些影响,画质变差失真…

【雕爷学编程】Arduino动手做(201)---行空板硬件控制之板载光线传感器

37款传感器与模块的提法,在网络上广泛流传,其实Arduino能够兼容的传感器模块肯定是不止37种的。鉴于本人手头积累了一些传感器和执行器模块,依照实践出真知(一定要动手做)的理念,以学习和交流为目的&#x…

Acrel-2000E/B配电室综合监控系统的应用

摘要:Acrel-2000E/B配电室综合监控系统是以智能控制为核心,通过物联网技术的集成应用,来实现配电室内环境的全天候状态监视和智能控制。针对经开第一大街南一所项目的要求,系统实现了环境数据监测和设备控制,起到了预防…

智头条:萤石拟科创板上市将投18.5亿建厂,Matter智能家居标准延迟至明年,涂鸦、公牛、极米等企业发布

  本栏目由智能产业专业媒体【智哪儿】出品。 1、行业 ① 萤石拟18.5亿建厂 将从海康威视分拆上市 8月10日,海康威视公告两项重磅消息,其一是分拆子公司萤石至科创板上市;其二是萤石将以自筹资金投18.50亿元&a…

既要便捷、安全+智能,也要颜值,萤石发布北斗星人脸锁DL30F和极光人脸视频锁Y3000FV

1. 视频、视觉人脸识别技术助推智能锁进入主动安全时代 智能锁经历了从电子密码、指纹、指静脉到人脸识别阶段,随着人脸识别技术的成熟,越来越多的主流厂商开始主推人脸识别智能门锁,与其他技术相比,人脸识别智能锁无疑从安全性和…

Web端接入萤石云平台的视频数据

前言 因为项目需要在Web和App上展示实时视频流信息,所以之前做项目时尝试了很多方法。有用vlc插件播放的(由于使用到了插件,所以安卓App、微信小程序都不能显示视频,最后也放弃了),也有使用海康威视Web开发包开发的。但是最简单的…

EasyCVR视频通道名称出现乱码是什么原因导致的?如何修复?

大家知道EasyCVR视频智能监控平台支持摄像机的RTSP、GB28181、和Ehome的接入,同时会对接入上来的视频信息进行同步的更新和反馈,因此视频通道的名称是实时更新的,当通道变化,名称也会随之重新生成。 在实际的使用过程中&#xff…

鸭蛋大小,灵巧设计,萤石全无线智能家居电池摄像机BC2上手体验

在智能家居场景中,安防一直是一个核心需求,无论是照看小孩、监看宠物、还是看家护院,智能家居摄像机有着无可替代的作用。但在实际运用场景中,往往因为传统摄像机安装布线麻烦、摄像机外型比较大等客观因素,将很多原本…

Web端与移动端接入萤石云平台的视频数据

前言 因为项目需要在Web和App上展示实时视频流信息,所以之前做项目时尝试了很多方法。有用vlc插件播放的(由于使用到了插件,所以安卓App、微信小程序都不能显示视频,最后也放弃了),也有使用海康威视Web开发包开发的。但是最简单的…

萤石春季发布会:4+N产品体系再升级EZVIZ Connect连接智能生活

3月18日,以“智家新生,萤领未来”为主题的萤石智能家居2022春季发布会在线上召开。本次发布会除了带来全无线电池摄像机、智能门铃、视频锁、玲珑面板、Wi-Fi6全屋覆盖方案等突破性创新产品外,还发布了新一代智能中控屏SP4,并通过…