从PyTorch官方的一篇教程说开去(1 - 初心)

原文在此,喜欢读原汁原味的可以自行去跟,这是一个非常经典和有学习意义的例子,在此向老爷子们致敬 - 

https://pytorch.org/tutorials/intermediate/reinforcement_q_learning.html

开源文化好是好,但是“公地的悲哀”这点避不开,很多论文/教程的代码和环境配置,是存在问题的,有些源于依赖库的变迁(上梁不正,python语言自己都不承诺版本向下兼容),有些是以讹传讹,里外里浪费大家的很多时间。

当然,其实也是提醒大家多个心眼,不要只看文章如何 tree new bee,拿到代码先在环境中跑一跑,心里有数了再引用或者转载。

上图自证(图为本地,云上也验证过) - 

第一个问题是,为啥要学习强化学习?(这句话,放到小学考试中应该是病句,很遗憾,这就是咱们国内论文翻译的现状)

因为DeepMind(捎带Google Brain牛B

坦白的说,在2022年openAI横空出世以前10多年,人工智能一块G家才是真正的“遥遥领先”(收购DeepMind) ,你所听说的术语和工具基本只此一家,别无分号。

截至2021年,产品也是为天下先,流量感满满:

        - Google Brain,第一个能识别“猫”的AI,技术栈是监督学习(大约理解为,请一大堆兼职工对海量图片进行疯狂的标记,输出用来培养AI),公开直播在Youtube上面随机视频中找猫;

        这也是今天百度“萝卜快跑”的主要技术栈;

        - 2016,阿尔法go用围棋祭天,法力无边,技术栈是DQN,公开直播对垒世界冠军李世石,搞得我看了好几遍的《棋魂》看不进去了;

        - 2017,Tensorflow,业界CNN标杆,你可以理解为手机里的安卓,浏览器里的Chrome,也是我们本次的教程背后的库;(当然,马斯克的特斯拉不想让G家独大,选择了F家的PyTorch)

        - 2019,AlphaStar联合暴雪,技术栈是DQN,公开直播AI对垒星际争霸2,看完我直接卸载游戏(大家也可以去网上找Replay,感受一下);

        两位对手(下图,虽然不是韩国人,缺少点说服力) - 
        左)虫族选手 TLO,Liquid 战队,Aligulac 世界排名72 。要求虫族选手使用神族/星灵,有点强人所难。
         - 战绩 0:5 全败!
        右)星灵族选手MaNa,波兰第二,单族排名世界第 12,不分种族世界第35,实力在二线职业选手中属于顶尖。
         - 战绩 1:10 唯一胜局来自ai主动削弱!

        - 2019,(开始年份不确定)正式放弃Maven,也就是配合美军的项目;

        - 2021,AlphaFold,AI正式应用于科研第一线;

呃,年纪大了,一不小心就喜欢掉书袋,(¬︿̫̿¬☆),其实故事里面也有一根暗线就是埃隆马斯克(怎么总是你 : How old are you),不过毕竟我们不是纯怀旧帖子,八卦略去不提。

回到技(zhuang)术(bi),这篇教程使用了gymnasium环境(注意,不是gym,gym官方已经不维护,不推荐使用)里面的自带例程,Cate Pole,倒立摆,就是通过向左或向右移动小车来保持杆子的直立。能够在更久的时间或者更多的步数中屹立不倒,是本例的目标,也是最后评估的标准。

这里是直接取得了环境参数用于训练,并不谷歌,谷歌的玩法都是要直接游戏中,标准帧率截图,然后读图取得参数并用于训练。

深度学习的基础是CNN卷积神经网络,也就是把输入参数和输出参数之间,放置一个多层的,用来转换的神经网络。比如这个例子中,就是4个参数/神经输入,转为第一层128个神经,经由第二层的128个神经,最终变换为最后的2个参数输出。

深度学习还应用了其他方法/算法,典型的本例都有涉及,我在这个系列的文章中也都会依次展开,如 -

        1)梯度下降算法,

        2)折扣因子-贪婪算法,

        3)记忆锚(Replay Memory,基于抽帧回放),

        4)策略优化。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/3249293.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

Springboot项目远程部署gitee仓库(docker+Jenkins+maven+git)

创建一个Springboot项目,勾选web将该项目创建git本地仓库,再创建远程仓库推送上去 创建TestController RestController RequestMapping("/test") public class TestController { GetMapping("/hello") public String sayHelloJe…

Mybatis——Lombok

偷懒插件&#xff0c;能有效减少代码量&#xff0c;增加注释即可。 下载&#xff1a; 设置——插件——搜索Lombok——下载安装 导入依赖&#xff1a; <dependencies><dependency><groupId>org.projectlombok</groupId><artifactId>lombok<…

FastAPI 学习之路(六十)打造系统的日志输出

我们要搭建日志系统&#xff0c;可以使用loguru&#xff0c;很不错的一个开源日志系统 pip install loguru 我们在common创建log.py&#xff0c;使用方式也很简单 import os import timefrom loguru import logger# 日志的路径 log_path os.path.join(os.getcwd(), "log…

AJAX基本用法

1.axios 基本语法: axios({url: 目标资源地址 }).then((result) > {// 对服务器返回的数据做后续处理 })查询参数&#xff08;在params中设置&#xff09;&#xff1a; 查询参数通常是指在URL中传递给服务器以获取动态数据或指定请求条件的一部分。它们位于URL中问号(?)后…

Spire.PDF for .NET【文档操作】演示:如何在 C# 中切换 PDF 层的可见性

我们已经演示了如何使用 Spire.PDF在 C# 中向 PDF 文件添加多个图层以及在 PDF 中删除图层。我们还可以在 Spire.PDF 的帮助下在创建新页面图层时切换 PDF 图层的可见性。在本节中&#xff0c;我们将演示如何在 C# 中切换新 PDF 文档中图层的可见性。 Spire.PDF for .NET 是一…

ClickHouse 入门(二)【基础SQL操作】

1、ClickHouse 1.1、SQL 操作 这里只介绍一些和我们之前 MySQL 不同的语法&#xff1b; 1.1.1、Update 和 Delete ClickHouse 提供了 Delete 和 Update 的能力&#xff0c;这类操作被称为 Mutation 查询&#xff08;可变查询&#xff09;&#xff0c;它可以看 做 Alter 的一…

iOS ------ 编译链接

编译流程分析 编译可以分为四步&#xff1a; 预处理&#xff08;Prepressing)编译&#xff08;Compilation&#xff09;汇编 &#xff08;Assembly)链接&#xff08;Linking&#xff09; 预编译&#xff08;Prepressing&#xff09; 过程是源文件main.c和相关头文件被&#…

使用Redis的SETNX命令实现分布式锁

什么是分布式锁 分布式锁是一种用于在分布式系统中控制多个节点对共享资源进行访问的机制。在分布式系统中&#xff0c;由于多个节点可能同时访问和修改同一个资源&#xff0c;因此需要一种方法来确保在任意时刻只有一个节点能够对资源进行操作&#xff0c;以避免数据不一致或…

Kafka Producer之幂等性

文章目录 1. 启用幂等性2. 底层变化3. 数据不重复4. 数据有序 幂等性通过消耗时间和性能的方式&#xff0c;解决乱序和重复问题。 但是只能保证同一生产者在一个分区中的幂等性。 1. 启用幂等性 //创建producerHashMap<String, Object> config new HashMap<>();…

ELK kibana查询与过滤

ELK kibana查询与过滤 1、通过布尔操作符 AND 、 OR 和 NOT 来指定更多的搜索条件(注意&#xff1a;这AND、OR、NOT必须大写)。例如&#xff0c;搜索message包含服务层关键词并且日志级别为INFO的条目&#xff0c;您可以输入 message:“服务层” AND level:“INFO”。 2、要搜…

Spring Boot集成syslog快速入门Demo

1.什么syslog&#xff1f; Syslog-ng是由Balabit IT Security Ltd.维护的一套开源的Unix和类Unix系统的日志服务套件。它是一个灵活的、可伸缩的系统日志记录程序。对于服务器日志集中收集&#xff0c;使用它是一个不错的解决方案。syslog-ng (syslog-Next generation) 是sysl…

STM32全栈嵌入式人脸识别考勤系统:融合OpenCV、Qt和SQLite的解决方案

1. 项目概述 本项目旨在设计并实现一个基于STM32的全栈人脸识别考勤系统。该系统结合了嵌入式开发、计算机视觉和数据库技术&#xff0c;实现了自动人脸检测、识别和考勤记录功能。 主要特点: 使用STM32F4系列微控制器作为主控制器采用OpenCV进行人脸检测和识别Qt开发跨平台…

Pytorch学习笔记day3——用神经网络学习一组函数

好的&#xff0c;我们开始吧。首先第一个问题&#xff0c;神经网络的本质是什么&#xff1f;是古典主义的人类的神经元吗&#xff1f;绝对不是&#xff0c;他只是一个优化函数 y f θ ( x ) y f_{\theta}(x) yfθ​(x) 这和小学学到的线性函数拟合并无本质区别。只是其中参数…

汇编教程1

本教程主要教大家如何使用vscode插件编写汇编语言&#xff0c;这样更方便&#xff0c;不用在32位虚拟机中编写汇编语言&#xff0c;后续的汇编实验代码都是使用vscode编写&#xff0c;话不多说&#xff0c;开始教学 安装vscode 如果已经安装过vscode&#xff0c;可以跳过这一…

Django 请求和响应

1、请求 &#xff08;1&#xff09;get请求 用户直接在浏览器输入网址&#xff0c;参数直接在url中携带 http://127.0.0.1:8000/login/?a1&b%221243%22 &#xff08;2&#xff09;post请求 在html使用post,login.html <!DOCTYPE html> <html lang"en&…

操作系统发展简史(Unix/Linux 篇 + DOS/Windows 篇)+ Mac 与 Microsoft 之风云争霸

操作系统发展简史&#xff08;Unix/Linux 篇&#xff09; 说到操作系统&#xff0c;大家都不会陌生。我们天天都在接触操作系统 —— 用台式机或笔记本电脑&#xff0c;使用的是 windows 和 macOS 系统&#xff1b;用手机、平板电脑&#xff0c;则是 android&#xff08;安卓&…

el-select选择器修改背景颜色

<!--* FilePath: topSearch.vue* Author: 是十九呐* Date: 2024-07-18 09:46:03* LastEditTime: 2024-07-18 10:42:03 --> <template><div class"topSearch-container"><div class"search-item"><div class"item-name&quo…

Hadoop-36 HBase 3节点云服务器集群 HBase Shell 增删改查 全程多图详细 列族 row key value filter

点一下关注吧&#xff01;&#xff01;&#xff01;非常感谢&#xff01;&#xff01;持续更新&#xff01;&#xff01;&#xff01; 目前已经更新到了&#xff1a; HadoopHDFSMapReduceHiveFlumeSqoopZookeeperHBase 正在 章节内容 上一节我们完成了&#xff1a; 集群的…

内部类+图书管理系统

内部类图书管理系统 1. 实例内部类1.1 实例内部类的结构1.2 实例内部类的一些问题1.2.1 如何在main中创建实例内部类对象&#xff1f;1.2.2 内部类成员变量被static修饰问题&#xff1f;1.2.3 内部类和外部类变量重名的调用问题&#xff1f;1.2.4 外部类访问内部类变量的问题 2…

浅谈C嘎嘎入门基础

看到这篇文章的童鞋或许会有疑惑&#xff0c;这不是之前 已经出过了吗&#xff0c;是的但是之前那篇文章可能不太好理解&#xff0c;因此我再写一篇便于大家理解的文章 那么上一篇文章已经帮大家过渡到C嘎嘎了&#xff0c;那么这篇文章我们继续讲解C嘎嘎的知识点。 C嘎嘎中的引…