ns3-gym入门(三):在opengym基础上实现一个小小的demo

因为官方给的"opengym""opengym-2"这两个例子都很简单,所以自己改了一个demo,把reward-action-state相互影响的关系表现出来

一、准备工作

在ns3.35/scratch目录下创建一个文件夹:
(后续的运行指令后面都需要转移到这个文件夹路径下)

二、主要思路

  • Action:离散空间[0,1,2,3],使用ε-贪心策略选择
  • ExecuteActions:赋值x=action
  • Obs\State:基于action定义一组数,关于x的线性函数
  • Reward:对state中的所有数据进行处理,取平均数得到r

PS.发现一个问题,这个框架如果脱离了具体的网络环境其实并不好定义,因为这些要素相互依赖的关系非常抽象,尤其是state是通过全网状态搜集得到的,在这里没有定义具体的网络环境,所以暂时用全局变量来表示一下这种隐性关系

三、关键实现步骤

mygym.cc(定义了存储决策和状态的全局变量,增加了收集状态、执行动作、计算奖励的函数)
①全局变量

static float deci = 0.0; // 全局变量,用于存储决策
std::vector<float> state;// 全局变量,用于存储状态

②创建状态空间(只是初始化一个容器,定义好维度就行)

//初始化一般不用大改,建立一个存储空间就行
Ptr<OpenGymSpace>
MyGymEnv::GetObservationSpace()
{uint32_t nodeNum = 8;float low = 0.0;float high = 100.0;std::vector<uint32_t> shape = {nodeNum,};std::string dtype = TypeNameGet<uint32_t> ();Ptr<OpenGymBoxSpace> space = CreateObject<OpenGymBoxSpace>(low, high, shape, dtype);NS_LOG_UNCOND ("MyGetObservationSpace: " << space);return space;
}

③创建动作空间(离散)

// 离散空间[0,1,2,3]
Ptr<OpenGymSpace>
MyGymEnv::GetActionSpace()
{uint32_t nodeNum = 4;Ptr<OpenGymDiscreteSpace> space = CreateObject<OpenGymDiscreteSpace> (nodeNum);NS_LOG_UNCOND ("MyGetActionSpace: " << space);return space;
}

④执行选定的动作

// action存储到全局变量deci
bool
MyGymEnv::ExecuteActions(Ptr<OpenGymDataContainer> action)
{Ptr<OpenGymDiscreteContainer> discrete = DynamicCast<OpenGymDiscreteContainer>(action);NS_LOG_UNCOND ("MyExecuteActions: " << action);deci = discrete->GetValue();return true;
}

⑤收集网络状态

Ptr<OpenGymDataContainer>
MyGymEnv::GetObservation()
{uint32_t nodeNum =  8;std::vector<uint32_t> shape = {nodeNum,};Ptr<OpenGymBoxContainer<uint32_t> > box = CreateObject<OpenGymBoxContainer<uint32_t> >(shape);for (uint32_t i=0;i<nodeNum;i++){uint32_t value = GetValue(i);box->AddValue(value);}}// 将 box 的值放入全局变量 statestate.clear();for (uint32_t i = 0; i < nodeNum; i++) {state.push_back(box->GetValue(i)); // 获取 box 中的值并添加到 state 中}NS_LOG_UNCOND ("MyGetObservation: " << box);return box;
}
// 搜集网络状态的函数
float 
MyGymEnv::GetValue(uint32_t index)
{float value = deci*index;return value;
}

⑥根据状态计算奖励

// 对state进行处理
float
MyGymEnv::GetAverage( std::vector<float> state)
{uint32_t sum = 0;for (uint32_t value : state) {sum += value;}return static_cast<double>(sum) / state.size();
}
/*
Define reward function
*/
float
MyGymEnv::GetReward()
{float reward = GetAverage(state);NS_LOG_UNCOND ("MyGetReward: " << reward);return reward;
}

mygym.h(声明全局变量,添加自定义函数到private类)

extern std::vector<float> state;// 全局变量,用于存储状态
private:void ScheduleNextStateRead();float GetValue(uint32_t index);float GetAverage( std::vector<float> state);

sim.cc(这一块没有什么要改的,注意总仿真时间和仿真次数的关系,相当于实际的step受到两个地方的参数影响,另一个在创建环境时定义的isGameOver函数中)

  double simulationTime = 3; //seconds, 控制仿真次数的位置2double envStepTime = 0.1; //seconds, ns3gym env step time interval

test.py(这里主要的改动是使用了ε-贪心策略)

# Choose actionif np.random.rand( ) < epsilon:action = env.action_space.sample()print("random")else:for action in range(env.action_space.n):#离散动作空间的定义Q_value = estimate(action,ob_space)if Q_value > best_value:best_value = Q_valuebest_action = actionaction = best_actionprint("maximum Q")

简单模拟了一下Q值的估计(基于action估计reward)

def estimate(action,ob_space):state = []for i in range(ob_space.shape[0]):{state.append(action * i) }reward = np.mean(state)Q_value =rewardreturn Q_value

简单运行了一下:
ns3端:

python端

PS.要注意ns3-gym传递的数据类型可能无法直接用len()等函数,要去查看定义的具体数据类型

这个demo只是先按照我的理解大致实现了各个环节的衔接,但是reward对action的调整作用还没有体现出来,强化学习的精髓还没有融合进去,还有一些细节问题可能没有发现,下一个demo见

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/3245755.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

Excel办公技巧:制作二级联动下拉菜单

分享制作二级联动下拉菜单的方法&#xff0c;即使数据有增删&#xff0c;菜单也能自动更新&#xff01; 可以通过先定义名称&#xff0c;再结合数据验证&#xff0c;来做二级联动下拉菜单。 1. 准备数据 首先&#xff0c;我们需要准备好要进行二级联动下拉菜单的数据&#xff…

【单目3D检测】smoke(1):模型解析

SMOKE是纵目科技在2020年提出的单目3D检测新方法&#xff0c;论文展示了一种新的3D目标检测方法&#xff0c;该方法通过将单个关键点估计与回归3D变量相结合来预测每个检测到的目标3D bounding box。SMOKE延续了centernet的key-point做法&#xff0c;认为2d检测模块是多余的&am…

【经验分享】关于静态分析工具排查 Bug 的方法

文章目录 编译器的静态分析cppcheck安装 cppcheck运行 cppcheck 程序员的日常工作&#xff0c;不是摸鱼扯皮&#xff0c;就是在写 Bug。虽然这是一个梗&#xff0c;但也可以看出&#xff0c;程序员的日常一定绕不开 Bug。而花更少的时间修复软件中的 Bug&#xff0c;且不引入新…

Spring Web MVC入门(2)(请求2)

目录 1.传递JSON数据 传递JSON对象 2.获取URL中的参数PathVariable 3.上传文件RequestPart 4.获取Cookie/Session (1)获取Cookie 简洁获取Cookie (2)获取Session Sesson读取 简洁获取Session(1) 简洁获取Session(2) 5.获取Header 简洁获取Header 1.传递JSON数据 J…

Python中的数据结构:五彩斑斓的糖果盒

在Python编程的世界里&#xff0c;数据结构就像是一个个五彩斑斓的糖果盒&#xff0c;每一种糖果都有其独特的味道和形状。这些多姿多彩&#xff0c;形状和味道各异的糖果盒子包括了&#xff1a;List&#xff08;列表&#xff09;、Tuple&#xff08;元组&#xff09;、Diction…

深度学习落地实战:识别火车票信息

前言 大家好&#xff0c;我是机长 本专栏将持续收集整理市场上深度学习的相关项目&#xff0c;旨在为准备从事深度学习工作或相关科研活动的伙伴&#xff0c;储备、提升更多的实际开发经验&#xff0c;每个项目实例都可作为实际开发项目写入简历&#xff0c;且都附带完整的代…

本地多模态看图说话-llava

其中图片为bast64转码&#xff0c;方便json序列化。 其中模型llava为本地ollama运行的模型&#xff0c;如&#xff1a;ollama run llava 还有其它的模型如&#xff1a;llava-phi3&#xff0c;通过phi3微调过的版本。 实际测试下来&#xff0c;发现本地多模型的性能不佳&…

【数智化案例展】某省会城市——轨道交通线网云平台建设

‍ 逸迅科技案例 本项目案例由逸迅科技投递并参与数据猿与上海大数据联盟联合推出的《2024中国数智化转型升级创新服务企业》榜单/奖项”评选。 大数据产业创新服务媒体 ——聚焦数据 改变商业 本项目将打造一个先进的线网指挥中心大数据平台&#xff0c;它将作为这座城市轨道…

钡铼Profinet、EtherCAT、Modbus、MQTT、Ethernet/IP、OPC UA分布式IO系统BL20X系列耦合器

BL20X系列耦合器是钡铼技术开发的一款用于分布式I/O系统的设备&#xff0c;专为工业环境下的高速数据传输和远程设备控制而设计&#xff0c;支持多种工业以太网协议&#xff0c;包括Profinet、EtherCAT、Modbus、MQTT、Ethernet/IP和OPC UA等。如果您正在考虑部署BL20X系列耦合…

如何制定高效的媒体公关解决方案

传媒如春雨&#xff0c;润物细无声&#xff0c;大家好&#xff0c;我是51媒体网胡老师。 媒体公关解决方案是指企业或组织为提升品牌形象、塑造公众认知、应对危机事件等目的&#xff0c;通过媒体渠道制定并实施的一系列公关策略和行动计划。这一解决方案旨在通过有效的媒体沟…

4. JavaSE ——【移位运算符】

&#x1f4d6; 开场白 亲爱的读者&#xff0c;大家好&#xff01;我是一名正在学习编程的高校生。在这个博客里&#xff0c;我将和大家一起探讨编程技巧、分享实用工具&#xff0c;并交流学习心得。希望通过我的博客&#xff0c;你能学到有用的知识&#xff0c;提高自己的技能&…

智慧煤矿:AI视频智能监管解决方案引领行业新变革

随着科技的飞速发展&#xff0c;人工智能&#xff08;AI&#xff09;技术已经渗透到各个行业&#xff0c;为传统产业的转型升级提供了强大的动力。在煤矿行业中&#xff0c;安全监管一直是一个重要的议题。为了提高煤矿的安全生产水平&#xff0c;降低事故发生率&#xff0c;智…

6 款 SD 卡数据恢复软件,助您恢复丢失的文件

如果您经常使用摄像机、相机或某种类型的手机&#xff0c;您会发现您的数据和文件存储在 SD 卡上。这使得它成为设备中非常重要的一部分。但是&#xff0c;SD 卡相对容易损坏&#xff0c;这可能会导致您的文件和数据意外丢失。 此时&#xff0c;您需要采取一些措施来帮助您恢复…

springboot项目 导入 maven坐标 错误 Could not transfer artifact XXX

1.报错原因 当时导入的是 redis坐标 &#xff0c;导入jar 包报错&#xff08;当时是网速太慢了&#xff0c;一直卡着不动 就关了 idea 重新下载&#xff09;结果报错 之前的redis 项目都可以的&#xff0c;网上找了一下 都没解决 2.解决办法 既然说不能传输&#xff0c; 就说…

Python数据爬取(续)

如有需要阅读可在资源下载&#xff0c;因文章设计内容&#xff0c;官方大大审核无法直接通过 已上传至GitCode上&#xff0c;如感兴趣可观看

机器学习 | 深入理解激活函数

什么是激活函数&#xff1f; 在人工神经网络中&#xff0c;节点的激活函数定义了该节点或神经元对于给定输入或一组输入的输出。然后&#xff0c;将此输出用作下一个节点的输入&#xff0c;依此类推&#xff0c;直到找到原始问题的所需解决方案。 它将结果值映射到所需的范围…

【后端开发实习】用MongoDB和Redis实现消息队列搭建分布式邮件消息系统

用Redis实现消息队列并搭建分布式邮件消息系统 系统介绍Redis实现消息队列思路分析代码实现 MongoDB监听数据变化思路分析代码实现Mongoose测试连接监听mongodb数据变化 注意点 系统介绍 本次要实现的是一个能够实现实时监控Mongodb中数据变化的系统&#xff0c;要能够在数据发…

VGMShield:揭秘视频生成模型滥用的检测与追踪技术

人工智能咨询培训老师叶梓 转载标明出处 视频生成模型&#xff0c;如 Stable Video Diffusion 和 Videocrafter&#xff0c;已经能够生成合理且高分辨率的视频。但这些技术进步也带来了被恶意利用的风险&#xff0c;比如用于制造假新闻或进行政治宣传。因此&#xff0c;来自弗…

彩电上自带的推箱子游戏是什么编程语言开发的?

2000年左右的厦新彩电上&#xff0c;自带了推箱子、华容道游戏。界面如下&#xff1a; 在线版推箱子游戏&#xff0c;网址&#xff1a;https://www.tuixiangzi.cn/ BASIC&#xff0c;全称是Beginners All-purpose Symbolic Instruction Code&#xff0c;含义是初学者通用符号…

【杰理蓝牙开发】AC695x 按键扫描接口分析

【杰理蓝牙开发】AC695x 按键ADC接口分析 0. 个人简介 && 授权须知1. 按键扫描配置和按键消息处理1.1 参数说明1.2 按键事件说明2. 应用层处理3. 特殊按键需求3.1 特殊需求 1:组合键3.2 特殊需求 2:按键多击事件3.3 特殊需求 3:某些按键只响应单击事件0. 个人简介 &…