ICRA 2024:UC伯克利、斯坦福大学等共同开发机器人强化学习套件(SERL),20分钟学会装配电路板!

近年来,机器人强化学习技术领域取得显著的进展,例如四足行走,抓取,灵巧操控等,但大多数局限于实验室展示阶段。将机器人强化学习技术广泛应用到实际生产环境仍面临众多挑战,这在一定程度上限制了其在真实场景的应用范围。强化学习技术在实际应用的过程中,任需克服包括奖励机制设定、环境重置、样本效率提升及动作安全性保障等多重复杂的问题。业内专家强调,解决强化学习技术实际落地的诸多难题,与算法本身的持续创新同等重要。
面对这一挑战,来自加州大学伯克利、斯坦福大学、华盛顿大学以及谷歌的学者们共同开发了名为高效机器人强化学习套件(SERL)的开源软件框架,致力于推动强化学习技术在实际机器人应用中的广泛使用。

项目主页:https://serl-robot.github.io/
开源代码:https://github.com/rail-berkeley/serl
论文题目:SERL: A Software Suite for Sample-Efficient Robotic Reinforcement Learning

SERL 框架主要包含以下几个组件:

1、高效强化学习

在强化学习领域,智能体(如机器人)通过与环境的互动来掌握执行任务的方法。它通过尝试各种行为并根据行为结果获得奖励信号,从而学习出一套旨在最大化累积奖励的策略。SERL 采用 RLPD 算法,赋能机器人同时从实时互动和之前收集的离线数据中学习,大大缩短机器人掌握新技能需要的训练时间。

2、多样的奖励规定方法

SERL 提供了多种奖励规定方法,允许开发人员根据特定任务的需求定制奖励结构。例如,固定位置的安装任务可以按照机械手的位置制定奖励,更复杂的任务可以使用分类器或 VICE 学习一个准确的奖励机制。这种灵活性有助于精确指导机器人学习特定任务的最有效策略。

3、无重制功能

传统的机器人学习算法都需要定期重置环境,进行下一轮交互学习。在很多任务中这无法自动实现。SERL 提供的无重制强化学习功能同时训练前向 - 后向两个策略,为彼此提供环境重置。

4、机器人控制接口

SERL 提供了一系列 Franka 机械手任务的 Gym 环境接口作为标准示例,方便用户可以轻松地将 SERL 拓展到不同的机械臂上。

5、阻抗控制器

为了确保机器人可以在复杂的物理环境中安全精确地探索与操作,SERL 为 Franka 机械臂提供了特殊的阻抗控制器,在保证准确性的同时确保与外界物体接触后不产生过大的力矩。

通过这些技术和方法的结合,SERL 大大缩短了训练时间,同时保持了高成功率和鲁棒性,使机器人能够在短时间内学习完成复杂任务,并在现实世界中有效应用。
在这里插入图片描述

图 1、2: SERL 和行为克隆方法在各项任务中成功率和节拍数对比。在相似数据量的情况下,SERL 的成功率要比克隆的高出数倍 (最高 10 倍),节拍数也要快上至少两倍。

应用案例

1、PCB 元件组装:

在 PCB 板上装配穿孔元件是一项常见却又充满挑战的机器人任务。电子元件的引脚极易弯曲,而孔位与引脚之间的公差非常小,要求机器人在装配时既要精准又要轻柔。通过仅仅 21 分钟的自主学习,SERL 使机器人达到了 100% 的任务完成率。即便面临如电路板位置移动或视线部分被遮挡等未知的干扰,机器人也能稳定完成装配工作。

在这里插入图片描述

图 3、4、5:在执行电路板元件安装任务时,机器人能够应对在训练阶段未曾遇到的各种干扰,顺利完成任务。

2、电缆布线:

在许多机械和电子设备的组装过程中,我们需要将电缆沿着特定的路径精确地安装到位,这一任务对精度和适应性提出了很高的要求。由于柔性电缆在布线过程中容易产生形变,而且布线过程可能会受到各种干扰,比如电缆被意外移动或者夹持器位置的变化,这导致使用传统的非学习型方法难以应对。SERL 能够在短短 30 分钟内实现 100% 的成功率。即便是在夹持器位置与训练期间不同时,机器人也能够泛化其学习到的技能,适应新的布线挑战,确保布线工作的正确执行。

图 6、7、8:机器人无需更多的专项训练也能直接把线缆穿过与训练时位置不一样的夹子里。

3、物体抓取摆放操作:

在仓库管理或零售业中,机器人经常需要将物品从一个地方移动到另一个地方,这要求机器人能够识别并搬运特定的物品。强化学习的训练过程中,很难对欠驱动的物体进行自动的归位重置。利用 SERL 的无重置强化学习功能,机器人在 1 小时 45 分钟内同时学习两个 100/100 成功率的策略。用前向策略把物体从 A 箱放到 B 箱,再用后向策略把物体从 B 箱归为回 A 箱。

在这里插入图片描述

图 9、10、11:SERL 训练了两套策略,一个把物体从右边搬运到左边,一个从左边放回右边。机器人不仅在训练物体上达到 100% 成功率,就连没见过的物体也能智能搬运。
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/2799777.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

__proto__和protype的区别

__proto__和prototype是JavaScript中两个重要的概念,它们在对象原型链和继承中起着关键作用。下面将详细解释它们之间的区别: 定义和性质: prototype:这是每一个函数创建后都会拥有的一个属性,它指向函数的原型对象。这…

集合可视化:rainbow box与欧拉图

论文:A new diagram for amino acids: User study comparing rainbow boxes to Venn/Euler diagram 最近偶然看到了这篇论文,觉得很有意思,针对的任务是集合数据的可视化。 我们用示例来说明,比如图二的欧拉图,展示的…

安卓开发:挑战每天发布一个封装类02--Wav录音封装类AudioChannel 1.0

简介 库名称:AudioChannel 版本:1.0 由于项目需求录音并base64编码存到服务器中,就顺手改装了一个别人的封装类 原封装类地址:Android AudioRecord音频录制wav文件输出 - 简书 (jianshu.com) 描述:此封装类基于AudioRecord实现wav的音频…

2024年雾锁王国Enshrouded服务器搭建方法,最新教程

阿里云雾锁王国服务器搭建教程是基于计算巢服务,3分钟即可成功创建Enshrouded游戏服务器,阿里云8核32G雾锁王国专用游戏服务器90元1个月、271元3个月,阿里云服务器网aliyunfuwuqi.com亲自整理雾锁王国服务器详细搭建教程: 一、前…

MyBatis-Plus:通用分页实体封装

分页查询实体:PageQuery package com.example.demo.demos.model.query;import com.baomidou.mybatisplus.core.metadata.OrderItem; import com.baomidou.mybatisplus.extension.plugins.pagination.Page; import lombok.Data; import org.springframework.util.St…

设计模式浅析(六) ·命令模式

设计模式浅析(六) 命令模式 日常叨逼叨 java设计模式浅析,如果觉得对你有帮助,记得一键三连,谢谢各位观众老爷😁😁 命令模式 概念 命令模式(Command Pattern)是一种行为设计模式&#xff0c…

实战打靶集锦-025-HackInOS

文章目录 1. 主机发现2. 端口扫描3. 服务枚举4. 服务探查5. 提权5.1 枚举系统信息5.2 探索一下passwd5.3 枚举可执行文件5.4 查看capabilities位5.5 目录探索5.6 枚举定时任务5.7 Linpeas提权 靶机地址:https://download.vulnhub.com/hackinos/HackInOS.ova 1. 主机…

万界星空科技MES系统,实现数字化智能工厂

万界星空科技帮助制造型企业解决生产过程中遇到的生产过程不透明,防错成本高,追溯困难,品质不可控,人工效率低下,库存积压,交期延误等问题,从而达到“降本增效”的目标。打通各个信息孤岛&#…

Android进阶(二十九) 走近 IntentFilter

文章目录 一、什么是IntentFilter ?二、IntentFilter 如何过滤隐式意图?2.1 动作测试2.2 类别测试2.3 数据测试 一、什么是IntentFilter ? 如果一个 Intent 请求在一片数据上执行一个动作, Android 如何知道哪个应用程序&#xf…

力扣 面试题 05.06. 整数转换

思路: 牵扯到二进制数,基本上要考虑位运算符,相关知识可以见http://t.csdnimg.cn/fzts7 之前做过类似的题目,大致思路就是先用按位异或^找出不同位,再用n&(n-1)计算出不同位的个数&#x…

恒峰—高压森林应急消防泵:保障森林安全

在自然环境中,森林起着至关重要的作用,它们不仅为我们提供木材和清新的空气,还是众多生物的家园。然而,随着人类活动的增长,森林面临着越来越严重的火灾威胁。为了保护这些宝贵的资源,我们需要一种高效、可…

10.CSS3的calc函数

CSS3 的 calc 函数 经典真题 CSS 的计算属性知道吗? CSS3 中的 calc 函数 calc 是英文单词 calculate(计算)的缩写,是 CSS3 的一个新增的功能。 MDN 的解释为可以用在任何长度、数值、时间、角度、频率等处,语法如…

为全志D1开发板移植LVGL日历控件和显示天气

利用TCP封装HTTP包请求天气信息 Linux还真是逐步熟悉中,现在才了解到Linux即没有原生的GUI,也没有应用层协议栈,所以要实现HTTP应用,必须利用TCP然后自己封装HTTP数据包。本篇即记录封装HTTP数据包,到心知天气请求天气…

【Linux】再谈进程地址空间

目录 一、引入 二、物理内存和外设空间的交互 三、解决页表过大问题 一、引入 我们在往期的博客中有讲解过进程地址空间:【Linux】进程地址空间 但是在上述博客中我们只是对进程地址空间的左边部分详细进行了讲解,下面我们就来谈谈右边的部分&#…

git版本回退在eclipse和命令中的操作

一.背景 老程序员了,熟悉eclipsesvn,git用的不溜。近几年用了git,偶尔修改了某个文件希望放弃本次修改重新恢复到最新版本重新修改。或者回退到某个版本,再修改。记录一下Eclipse中的操作,和命令操作的情况。 二.Ecli…

操作系统导论-课后作业-ch19

1. 本书在第6章中有过介绍,gettimeofday函数最多精确到us,并且大致精确(并不完全精确),需要多迭代几次减少误差,循环次数太多也会导致结束时间小于开始时间(即回滚)的现象&#xff…

每日shell脚本之超级整合程序3.0

每日shell脚本之超级整合程序3.0 本期带来之前的升级版2.0整合脚本程序,学习工作小利器,同时模块化构建方便二次开发。 上图 上源码 #!/usr/bin/bash # *******************************************# # * CDDN : M乔木 # # * qq邮箱 …

社区分享|中华保险基于MeterSphere开展接口自动化测试

中华联合保险集团股份有限公司(以下简称为“中华保险”)始创于1986年,是全国唯一一家以“中华”冠名的国有控股保险公司。截至2022年12月底,中华保险总资产为1006.06亿元,在全国拥有超过2900个营业网点,员工…

06 分频器设计

分频器简介 实现分频一般有两种方法,一种方法是直接使用 PLL 进行分频,比如在 FPGA 或者 ASIC 设计中,都可以直接使用 PLL 进行分频。但是这种分频有时候受限于 PLL 本身的特性,无法得到频率很低的时钟信号,比如输入 …

Windows安装PHP及在VScode中配置插件,使用PHP输出HelloWorld

安装PHP PHP官网下载地址(8.3版本):PHP For Windows:二进制文件和源代码发布 点击下载.zip格式压缩包: 历史版本在Old archives中下载。推荐在Documentation download中下载官方文档,方便学习。 下载完成后在一个顺眼的地方解压压…