强化学习(GPS)

GPS——Guided Policy Search引导策略搜索  基于模型的强化学习算法

GPS目前被作为基础算法广泛应用于各种强化学习任务中,其出发点在于纯粹的策略梯度方法在更新参数时不会用到环境模型因而属于一种无模型强化学习算法。由于没有利用任何环境的内在属性,使得其训练只能完全依靠试错,效率较低。

开环方法:开放循环控制或非反馈控制,是一种控制策略,其中系统的输出或行为仅依赖于预设的指令或计划,而不考虑实际输出或环境状态的变化。在开环控制中,一旦确定了控制策略,就会一直执行下去,不会根据系统的实际表现进行调整。

闭环方法:反馈控制,涉及到系统通过传感器持续监测器输出或环境状态,并将这些信息反馈到控制系统中,以调整其输入或行为。闭环控制能够自动纠正偏差,因此对环境变化和不确定性有更好的适应性。

路径优化算法是一个开环方法,策略梯度是一个闭环方法,将两者相结合,利用路径优化算法的输出结果来指导策略梯度方法的训练过程,从而提高策略梯方法的效率,即GPS算法。

GPS的基本结构

GPS分为两个模块:左侧是最优控制,右侧是策略搜索模块

最优控制器:在该模块中,控制器会运行当前的控制策略,并产生数据,然后基于这些产生的数据利用机器学习的方法,例如回归的方法拟合控制方法。有了控制方程就可以利用经典的最优控制的方法来求解当前的最优控制率。经典的最优控制的方法包括变分法、庞特里亚金最大值原理和动态规划的方法。在GPS中,最常用的是动态规划的方法,如LQR(线性二次型调节器)、LQG(线性二次高斯调节器)、iLQG(迭代线性二次高斯调节器)、DDP(微分动态规划)

监督学习模块:需要的输入数据和标签数据分别由最优控制器模块的实际轨迹数和最优控制率来提供,参数更新的方法为随机梯度下降法。

GPS=最优控制器+监督学习,+是耦合关系,体现为交互性

GPS算法是通过约束条件来实现最优控制器与监督学习网络之间的交互的,约束条件的意思是最优控制器所产生的分布应该与监督神经网络所产生的分布相同,即最优控制器的控制率应该与监督神经网络的控制率在采样点相同

GPS算法通常包括的步骤:

1、策略初始化:初始策略可以是基于专家知识手动设计,也可以是简单的神经网络

2、数据搜集:使用当前策略在环境中执行一系列的试验,收集状态-动作对,这些状态-动作对就是所谓的“采样点”

3、策略评估:在这些采样点上,使用最优控制方法(如:ILQR)来找到在当前策略下,从每个状态到下一个状态的最优动作,这些最优动作形成一个行的动作分布。

4、监督学习:使用策略评估中得到的最优动作作为标签,训练一个监督学习网络来近似最优策略,这里的监督学习网络输出的动作应该尽可能接近最优控制器输出的动作。

5、策略改进:将监督学习网络作为新的策略,并重复上述步骤,直到网络的输出动作与最优控制器的输出动作在采样点上非常接近,即两个分布相同或足够相似。

监督学习网络通过约束条件参与到最优控制器的优化,而优化好的控制器通过提供监督学习的标签来指导监督神经网络进行策略搜索。

GPS算法的缺点:

1、计算复杂性:GPS算法在策略评估和策略改进步骤中使用了迭代线性二次调节器或其他优化技术,这些计算通常是非常复杂的,尤其是高纬状态和动作空间中。

2、数据需求:GPS算法需要大量的数据来准确估计策略梯度,尤其是在复杂环境中,这意味着在实际应用中可能需要大量的试错过程,增加时间成本。

3、局部最优:采用梯度下降法会陷入局部最优

4、对模型精度的依赖:GPS算法通常假设环境模型是已知的或者可以通过监督学习来准确估计的,但是在许多实际问题中,环境模型可能是未知的,很难准确估计,可能会导致算法性能的下降。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/2809457.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

在线网络代理转发NPClient

NPClient操作方式: 用浏览器打开网站http://101.35.247.87:9000/ 点击注册 输入注册的用户名和密码,就会进入如下界面: 点击登录 输入用户名和密码后进入如下界面: 点击下载代理客户端,下载时要稍微等一下&#xff0c…

【hashmap】【将排序之后的字符串作为哈希表的键】【获取 HashMap 中所有值的集合】Leetcode 49 字母异位词分组

【hashmap】【将排序之后的字符串作为哈希表的键】【获取 HashMap 中所有值的集合】Leetcode 49 字母异位词分组 解法1 将排序之后的字符串作为哈希表的键解法2 在解法一的基础上加入了getOrDefault ---------------🎈🎈题目链接🎈&#x1f3…

K—近邻算法实际应用案例

K—近邻算法实际应用案例 1. 案例1:鸢尾花种类预测1.1 数据集获取和属性介绍1.1.1 scikit-learn中的数据集介绍1.1.2 sklearn数据集返回值介绍 1.2 数据可视化介绍(查看数据分布)1.3 数据集的划分1.4 特征工程1.4.1 归一化1.4.2 标准化 1.5 鸢…

09 呼吸灯

呼吸灯简介 呼吸灯实际展示的效果就是一个 LED 灯的亮度由亮到暗,再由暗到亮的变化过程,并且该过程是循环往复的,像呼吸一样那么有节奏。 呼吸灯通常是采用 PWM(Pulse Width Modulation,即脉冲宽度调制) 的方式实现,在…

zabbix监控业务数据

前言 监控系统除了监控os和数据库性能相关的指标外,业务数据也是重点监控的对象。 一线驻场的运维同学应该深有体会,每天需要向甲方或者公司反馈现场的数据情况,正常情况下一天巡检两次,早上上班后和下午下班前各一次。监控项目…

Vue3 路由配置 + 路由跳转 + 路由传参(动态路由传参 + 普通路由传参)

Vue Router: Vue.js 的官方路由。它与 Vue.js 核心深度集成,让用 Vue.js 构建单页应用变得轻而易举。 效果 一、介绍 1、官方文档:https://router.vuejs.org/zh/introduction.html 介绍 | Vue RouterVue.js 的官方路由https://router.vuejs.…

MATLAB练习题:违背直觉的三门问题(非常有趣的一道题目)

​讲解视频:可以在bilibili搜索《MATLAB教程新手入门篇——数学建模清风主讲》。​ MATLAB教程新手入门篇(数学建模清风主讲,适合零基础同学观看)_哔哩哔哩_bilibili 三门问题(Monty Hall problem)又称蒙提…

nginx之状态页 日志分割 自定义图表 证书

5.1 网页的状态页 基于nginx 模块 ngx_http_stub_status_module 实现,在编译安装nginx的时候需要添加编译参数 --with-http_stub_status_module,否则配置完成之后监测会是提示语法错误注意: 状态页显示的是整个服务器的状态,而非虚拟主机的状态 server{…

Nvidia Jetson Orin NX配置环境

Nvidia Jetson Orin NX配置环境配置环境 一、安装jetson5.1.2二、安装jtop三、配置CUDA和cuDNN四、安装Pytorch 先导片:Jetson采用arm64架构 一、安装jetson5.1.2 安装好jetson自带cuda、cudnn和tensorRT 官方文档 更换源 sudo vi /etc/apt/sources.list.d/nvidia…

LeetCode 第一题: 两数之和

文章目录 第一题: 两数之和题目描述示例 解题思路Go语言实现 - 一遍哈希表法C实现算法分析 排序和双指针法Go语言实现 - 排序和双指针法C算法分析 暴力法Go语言实现 - 暴力法C算法分析 二分搜索法Go语言实现 - 二分搜索法C算法分析 第一题: 两数之和 ‍ 题目描述 给定一个整…

组态软件在物联网中的应用

随着物联网的快速发展,组态软件在物联网中的应用也越来越广泛。组态软件是一种用于创建和管理物联网系统的可视化工具,它能够将传感器、设备和网络连接起来,实现数据的采集、分析和可视化。本文将探讨组态软件在物联网中的应用,并…

如何利用EXCEL批量插入图片

目录 1.excel打开目标表格; 2.点开视图-宏-录制宏,可以改宏的名字或者选择默认; 3.然后点开视图-宏-查看宏 4.点编辑进去 5.修改代码: (1)打开之后会显示有一堆代码 (2)将这个…

【前端】nginx 反向代理,实现跨域问题

前面讲跨域的问题,这篇 C# webapi 文章里面已经说过了。在上述文章中是属于从服务器端去允许访问的策略去解决跨域问题。而这里是从客户端的角度利用反向代理的方法去解决跨域问题。 反向代理:其原理就是将请求都接收到一个中间件(中间地址&a…

基于springboot+vue的音乐网站(前后端分离)

博主主页:猫头鹰源码 博主简介:Java领域优质创作者、CSDN博客专家、阿里云专家博主、公司架构师、全网粉丝5万、专注Java技术领域和毕业设计项目实战,欢迎高校老师\讲师\同行交流合作 ​主要内容:毕业设计(Javaweb项目|小程序|Pyt…

YOLOv8改进 | Conv篇 | 全新的SOATA轻量化下采样操作ADown(参数量下降百分之二十,附手撕结构图)

一、本文介绍 本文给大家带来的改进机制是利用2024/02/21号最新发布的YOLOv9其中提出的ADown模块来改进我们的Conv模块,其中YOLOv9针对于这个模块并没有介绍,只是在其项目文件中用到了,我将其整理出来用于我们的YOLOv8的项目,经过实验我发现该卷积模块(作为下采样模块)…

EasyRecovery2024个人免费版本电脑手机数据恢复软件下载

EasyRecovery是一款功能强大的数据恢复软件,能够帮助用户恢复丢失、删除、格式化或损坏的数据。无论是由于误操作、病毒攻击、硬盘故障还是其他原因导致的数据丢失,EasyRecovery都能提供有效的解决方案。 该软件支持从各种存储介质恢复数据,…

霍金《时间简史》(A Brief History of Time)学习笔记(第五章)(下)

Chapter 5: Elementary Particles and the Forces of Nature Second Half (P81-90)

进程等待进程程序替换

在之前的进程状态一文中我们初步了解到了僵尸进程,我们都知道僵尸进程是一个已经运行完毕但然仍占用内存资源的进程,它的存在会浪费系统资源,我们必须想方设法将僵尸进程清理掉。 先来想一下为什么会存在僵尸进程,一个进程的回收…

pytest如何在类的方法之间共享变量?

在pytest中,setup_class是一个特殊的方法,它用于在类级别的测试开始之前设置一些初始化的状态。这个方法会在类中的任何测试方法执行之前只运行一次。 当你在setup_class中使用self来修改类属性时,你实际上是在修改类的一个实例属性。在Pyth…

人工智能 — 相机模型和镜头畸变

目录 一、相机模型1、相机与图像2、坐标系1、世界坐标系2、相机坐标系3、图像物理坐标系4、图像像素坐标系 3、相机成像4、世界坐标系到摄像机坐标系5、欧氏变换6、齐次坐标7、摄像机坐标系到图像物理坐标系8、图像物理坐标系到图像像素坐标系9、摄像机坐标系到图像像素坐标系1…