gem5学习(19):gem5内存系统——The gem5 Memory System

目录

一、Model Hierarchy

二、CPU

三、Data Cache Object

四、Tags & Data Block

五、MSHR and Write Buffer Queues

六、Memory Access Ordering

七、Coherent Bus Object

八、Simple Memory Object

九、Message Flow

1、Memory Access Ordering(read access)

2、Memory Access Ordering(write access)


官网教程:gem5: gem5_memory_system

这个教程描述了gem5中的内存子系统,重点关注CPU在进行简单内存事务(读取或写入)期间的程序流程。

一、Model Hierarchy

该教程中使用的模型包括两个乱序(O3)ARM v7 CPU,带有相应的L1数据缓存和简单内存。通过以下参数在gem5中运行来创建该模型:

configs/example/fs.py –-caches –-cpu-type=arm_detailed –-num-cpus=2

针对gem5的示例配置文件configs/example/fs.py的命令行参数。命令行指定了以下参数:

  • --caches:启用缓存子系统,包括L1指令缓存和L1数据缓存。
  • --cpu-type=arm_detailed:使用ARM详细模型的CPU类型,这是一种准确模拟ARM处理器行为的CPU模型。
  • --num-cpus=2:指定使用两个CPU进行模拟。

(总之,这行命令就是通过使用这些参数,运行模拟器,并使用示例配置文件fs.py来模拟具有缓存子系统的两个ARM处理器的行为。)

Gem5使用派生对象的模拟对象作为构建内存系统的基本块。它们通过端口连接,并建立了主/从层次结构。数据流从主端口发起,而响应消息和嗅探查询则出现在从端口上。(这个在前面的教程已经介绍过了,master port和slave port分别为主端口和从端口)

二、CPU

数据缓存对象(Data Cache object)实现了标准的缓存结构。

【其中比较陌生的MSHR,是指“Miss Status Holding Register”(缺失状态保存寄存器)。MSHR用于在缓存发生缺失(miss)时跟踪和处理缺失的数据。它类似于一个缓存的“等待区域”,用于存储等待从主存加载的数据块。当发生缺失时,MSHR负责发起内存请求,并在数据返回后将其传递给等待的CPU或缓存行。】

教程中并没有详细介绍有关O3 CPU的具体细节,大概讲了一些和模型相关的注意点:

1、读取访问(Read access)是通过将消息发送到指向DCache对象的端口来启动的。如果DCache拒绝该消息(因为被阻塞或忙碌),CPU将清空流水线,并在稍后重新尝试访问。接收到来自DCache的回复消息(ReadRep)后,访问完成。

2、写入访问(Write access)是通过将请求存储到存储缓冲区中,其上下文在每个时钟周期被清空并发送到DCache。DCache也可能拒绝该请求。当接收到DCache的写入回复(WriteRep)消息时,写入访问完成。

3、读取和写入访问的加载和存储缓冲区(Load & store buffers (for read and write access))不对活动内存访问的数量施加任何限制。因此,CPU模拟对象对CPU的内存访问请求的最大数量没有限制,而是受底层内存系统模型的限制。

4、分割内存访问(Split memory access)是在gem5中已经实现的。这意味着当一个内存访问请求涉及到多个连续的内存地址时,gem5可以将其分割为多个较小的子请求进行处理。通过分割内存访问,gem5可以更好地处理大型、连续的内存访问请求。这样可以提高内存系统的效率,并允许其他的处理任务在大型内存操作进行时继续进行,从而提高整体的系统性能。分割内存访问的实现确保了内存操作的正确性和一致性。

CPU发送的消息包含访问区域的内存类型(Normal、Device、Strongly Ordered和可缓存性)。然而,其余模型对内存类型采用了更简化的方法,因此并未使用这些信息。

三、Data Cache Object

数据缓存对象实现了标准的缓存结构:

Cached memory reads:匹配特定缓存标签(具有有效和读取标志)的缓存内存读取将在可配置的时间后完成(通过向CPU发送ReadResp)。否则,请求将转发到缺失状态和处理寄存器(MSHR)块。

Cached memory writes:匹配特定缓存标签(具有有效、读取和写入标志)的缓存内存写入将在相同可配置的时间后完成(通过向CPU发送WriteResp)。否则,请求将转发到缺失状态和处理寄存器(MSHR)块。

Uncached memory reads:未缓存的内存读取将转发到缺失状态和处理寄存器(MSHR)块。这表示需要从主存中读取数据,而不是从数据缓存中获取。MSHR是用于跟踪缺失状态的寄存器,它类似于一个缓冲区,用于存储等待从主存加载的数据块。当发生未缓存的内存读取时,该读取请求将被添加到MSHR中,gem5会向主存发送请求以获取所需的数据。一旦数据返回,gem5将通过向CPU发送ReadResp来完成未缓存的内存读取操作。

Uncached memory writes:未缓存的内存写入将转发到写入缓冲区(WriteBuffer)块。这意味着需要将数据写入主存,而不是仅在数据缓存中进行修改。写入缓冲区是一个专门用于暂存待写入主存的数据的缓冲区。当发生未缓存的内存写入时,该写入请求将被添加到写入缓冲区中。然后,gem5会周期性地将写入缓冲区中的数据上载到主存中,以确保数据的持久化。

Evicted (& dirty) cache lines:被替换(且脏)的缓存行将转发到写入缓冲区(WriteBuffer)块。gem5会将被替换的脏缓存行转发到写入缓冲区(WriteBuffer)块进行处理。当缓存行被替换并且被标记为脏时,gem5会将该脏缓存行数据添加到写入缓冲区中。然后,写入缓冲区的数据将周期性地写入主存,以确保脏数据的持久化。通过使用写入缓冲区,gem5可以将脏缓存行的写入操作与后续的主存写入操作解耦。

如果满足以下任何条件,则阻塞CPU对数据缓存的访问:

  • MSHR块已满(MSHR缓冲区的大小可配置)。
  • 写回块已满(块缓冲区的大小可配置)。
  • 针对同一内存缓存行的未完成内存访问数量达到可配置的阈值。

数据缓存处于阻塞状态时,无论是缓存命中还是缓存未命中,都会拒绝来自从端口(CPU)的请求。请注意,主端口上的传入消息(响应消息和嗅探请求)永远不会被拒绝。

对不可缓存内存区域的缓存命中(根据ARM ARM的不可预测行为)将使缓存行失效并从内存中获取数据。

四、Tags & Data Block

缓存行(在源代码中称为块)按照可配置的关联度和大小组织成集合。它们具有以下状态标志:

  • Valid(有效):表示缓存行中存储的数据是有效的,地址标签也是有效的。
  • Read(读取):在设置了该标志之前,不会接受读取请求。例如,当缓存行等待写入标志完成写入访问时,它是有效的但不可读取。
  • Write(写入):可以接受写入操作。带有写入标志的缓存行表示唯一状态 - 没有其他缓存存储器持有该副本。
  • Dirty(脏):当被替换时,需要执行写回(Writeback)操作。

如果地址标签匹配,并且设置了Valid和Read标志,读取访问将命中缓存行。如果地址标签匹配,并且设置了Valid、Read和Write标志,写入访问将命中缓存行。

五、MSHR and Write Buffer Queues

缺失状态和处理寄存器(MSHR)队列保存了CPU的未完成内存请求的列表,这些请求需要对较低内存级别进行读取访问。它们包括:

  • 缓存读取未命中(Cached Read misses)。
  • 缓存写入未命中(Cached Write misses)。
  • 未缓存的读取(Uncached reads)。

写入缓冲区队列保存了以下内存请求:

  • 未缓存的写入(Uncached writes)。
  • 来自被替换(且脏)的缓存行的写回(Writeback)【Writeback from evicted (& dirty) cache lines】。

每个内存请求都分配给相应的MSHR对象(上图中的读或写),该对象表示必须读取或写入的特定内存块(缓存行),以完成相应的命令。如上图所示,针对同一缓存行的缓存读取/写入具有共同的MSHR对象,并将通过单个内存访问完成。

块的大小(因此也是对较低内存的读写访问的大小)如下:

  • 对于缓存访问和写回,使用缓存行的大小;
  • 对于未缓存访问,根据CPU指令指定的大小。

一般来说,数据缓存模型区分了两种内存类型:

  • 普通缓存内存:始终被视为写回、读取和写入分配。
  • 普通未缓存、设备和强序类型被等同对待(视为未缓存内存)。

六、Memory Access Ordering

对于每个CPU读/写请求(按照它们在从属端口上出现的顺序),都会分配一个唯一的顺序号。MSHR对象的顺序号是从第一个分配的读/写请求中复制而来的。

这两个队列中的内存读取/写入将按照分配的顺序号依次执行。当这两个队列都不为空时,模型将从MSHR块执行内存读取,除非写入缓冲区已满。然而,它总是保持相同(或重叠)内存缓存行(块)上读取/写入的顺序。

总结一下:

  • 对于缓存内存的访问顺序不会被保留,除非它们针对同一缓存行。例如,访问#1、#5和#10将在同一个时钟周期内同时完成(仍然按顺序)。访问#5将在访问#3之前完成。
  • 所有未缓存内存写入的顺序都会被保留。Write#6始终在Write#13之前完成。
  • 所有未缓存内存读取的顺序都会被保留。Read#2始终在Read#8之前完成。
  • 未缓存访问的读取和写入的顺序不一定被保留,除非它们的访问区域重叠。因此,Write#6始终在Read#8之前完成(它们针对同一内存块)。然而,Write#13可能在Read#8之前完成。

七、Coherent Bus Object

一致性总线对象提供基本的Snoop协议支持:

所有从属端口上的请求都会转发到相应的主控端口。对于缓存内存区域的请求,也会转发到其他从属端口(作为Snoop请求)。

主控端口的回复会转发到相应的从属端口。

主控端口的Snoop请求会转发到所有从属端口。

从属端口的Snoop回复会转发到发出请求的端口。(请注意,Snoop请求的来源可以是从属端口或主控端口。)

在以下事件之后,总线会自行阻塞一段可配置的时间:

  • 将数据包发送(或发送失败)到从属端口。
  • 向主控端口发送回复消息。
  • 将一个从属端口的Snoop响应发送到另一个从属端口。

总线处于阻塞状态时,会拒绝以下传入消息:

  • 从属端口的请求。
  • 主控端口的回复。
  • 主控端口的Snoop请求。

八、Simple Memory Object

它永远不会阻塞从属端口上的访问。

内存读取/写入会立即生效。(读取或写入在收到请求时执行)。

回复消息会在可配置的一段时间后发送。

九、Message Flow

1、Memory Access Ordering(read access)

下图显示了命中具有有效和读取标志的数据缓存行的读取访问:

缓存未命中的读取访问将生成以下消息序列:

注意,总线对象从DCache2和Memory对象永远不会收到响应。它将完全相同的ReadReq数据包(消息)对象发送到内存和数据缓存。当数据缓存想要对Snoop请求进行回复时,它会使用MEM_INHIBIT标志标记该消息,告诉内存对象不要处理该消息。

2、Memory Access Ordering(write access)

下图显示了命中具有有效和写入标志的DCache1缓存行的写入访问:

接下来的图显示了命中具有有效但没有写入标志的DCache1缓存行的写入访问,这被视为写入未命中。DCache1发出UpgradeReq以获取写入权限。DCache2::snoopTiming将使命中的缓存行失效。请注意,UpgradeResp消息不携带数据。

下一个图显示了DCache中的写入未命中。ReadExReq使DCache2中的缓存行失效。ReadExResp携带内存缓存行的内容。

最后,还是有很多一知半解的零碎知识,先学完后再继续补充吧~

大年初一,祝大家新年快乐,龙年大吉!多发论文,篇篇顶刊顶会!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/2778369.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

【MySQL】MySQL表的增删改查(进阶)

MySQL表的增删改查(进阶) 1. 数据库约束1.1 约束类型1.2 NULL约束1.3 UNIQUE:唯一约束1.4 DEFAULT:默认值约束1.5 PRIMARY KEY:主键约束1.6 FOREIGN KEY:外键约束:1.7 CHECK约束(了解) 2. 表的设…

NTLM||LM算法lsasswinlogon进程

来填坑了,这篇blog我们就来讲一下mimikatz能抓到开机的密码的原理 1.lsass&&winlogon 不知道大家有没有好奇过,我们每次开机输入密码之后,电脑又怎么知道我们是否输入正确呢? :这就要的得益于我们的两个进程…

单片机的认识

单片机的定义 先简单理解为: 在一片集成电路芯片上集成了微处理器(CPU )存储器(ROM和RAM)、I/O 接口电路,构成单芯片微型计算机,即为单片机。 把组成微型计算机的控制器、运算器、存储器、输…

【开源】SpringBoot框架开发校园疫情防控管理系统

目录 一、摘要1.1 项目介绍1.2 项目录屏 二、功能模块2.1 学生2.2 老师2.3 学校管理部门 三、系统展示四、核心代码4.1 新增健康情况上报4.2 查询健康咨询4.3 新增离返校申请4.4 查询防疫物资4.5 查询防控宣传数据 五、免责说明 一、摘要 1.1 项目介绍 基于JAVAVueSpringBoot…

【linux温故】linux调度机制

假如你是设计者,你会设计怎样的调度机制呢? 时间片 最简单的,小学生都能想出来的一种,每个 ready task,按照一个固定的时间片轮流执行。 大家不要抢,挨个儿排队执行。执行完时间片,就排在后面…

RCS-YOLO复现

复现结果–Precision:0.941,Recall:0.945,AP 50 _{50} 50​:0.941,AP 50 : 95 _{50:95} 50:95​:0.693,误差在5个点内,可以接受 感想 第5篇完全复现的论文

Stable Diffusion 模型下载:Disney Pixar Cartoon Type A(迪士尼皮克斯动画片A类)

文章目录 模型介绍生成案例案例一案例二案例三案例四案例五案例六案例七案例八案例九案例十下载地址模型介绍 目前还没有一个好的皮克斯迪士尼风格的卡通模型,所以我决定自己制作一个。这是将皮克斯风格模型与我自己的Loras合并在一起,创建一个通用的3D西方卡通效果。在示例…

专业145+总分400+合肥工业大学833信号分析与处理综合考研经验电子信息通信,真题,大纲,参考书

今年专业课145总分400,我总结一下自己的专业课合肥工业大学833信号分析与处理和其他几门的复习经验。希望对大家复习有帮助。 我所用的教材是郑君里的《信号与系统》(第三版)和高西全、丁玉美的《数字信号处理》(第四版&#xff…

中文GPTS,字节中文扣子Coze使用全教程

字节出自己的GPTS了,名字英文名叫coze,中文名叫“扣子”。和OpenAI的GPTS类似。具有可定制性和完成特定任务的强大功能,它提供了一种新的GPT方式,可以让用户根据自己的需求定制化,并与其他用户共享。 国内用的是云雀大…

【闲谈】初识深度学习

在过去的十年中,深度学习彻底改变了我们处理数据和解决复杂问题的方式。从图像识别到自然语言处理,再到游戏玩法,深度学习的应用广泛且深入。本文将探讨深度学习的基础知识、关键技术以及最新的研究进展,为读者提供一个全面的视角…

Flink on k8s之historyServer

1.Flink HistoryServer用途 HistoryServer可以在Flink 作业终止运行(Flink集群关闭)之后,还可以查询已完成作业的统计信息。此外,它对外提供了 REST API,它接受 HTTP 请求并使用 JSON 数据进行响应。Flink 任务停止后&…

音视频/流媒体协议和编码汇总

一、流媒体协议 1. RTMP/RTMPT/RTMPS/RTMPE 等多变种 是应用层协议,使用TCP作为底层传输协议,并提供了低延迟、高带宽利用率和实时性的特点。 (1)RTMP协议是Adobe的私有协议,未完全公开 (2)一般传输的是 flv,f4v 格式流 2. RTP/RTCP/SRTP …

基础面试题整理7之Redis

1.redis持久化RDB、AOF RDB(Redis database) 在当前redis目录下生成一个dump.rdb文件,对redis数据进行备份 常用save、bgsave命令进行数据备份: save命令会阻塞其他redis命令,不会消耗额外的内存,与IO线程同步;bgsav…

云卷云舒:论超级数据库、算网数据库、智算数据库

笔者大胆提出一种“超级数据库”的概念设想。 一、超级能力 就像当初提出“超级计算机”一样,我们是否同样可以提出“超级数据库”的概念呢?当然不是不可以。 二、超级计算机 我们回忆一下“超级计算机”的发展之路,大致经过了如下几个环…

C++入门篇(4)—— 类与对象(1)

目录 1.类的引入 2.类的定义 3.类的访问限定符 4.类的作用域 5. 类对象的存储方式 6. this指针 6.1 this指针的引入 6.2 this指针的特性 6.3有意思的面试题 1.类的引入 C语言struct 结构体中只能定义变量,而C中可以定义函数。 struct Date {void Init(int…

VitePress-14- 配置-titleTemplate 的作用详解

作用描述 1、titleTemplate 是标题的后缀&#xff1b;2、可以自定义标题的后缀&#xff1b;3、可以自定义整个的标题以及后缀&#xff0c;语法如下&#xff1a; titleTemplate: :title 链接符号 自己定义的后缀 【:title】&#xff1a;从页面的第一个 <h1> 标题推断出的…

记录一次centos 使用selenium运行环境

这里写自定义目录标题 宝塔面板 安装 selenium安装google-chrome 宝塔面板 安装 selenium 安装google-chrome yum install https://dl.google.com/linux/direct/google-chrome-stable_current_x86_64.rpm 查看chrome版本 google-chrome --version 下载对应chrome版本的chro…

python实现基数排序

如果在给不同的整形数组排序的时候,一般会这样做,也就是先看最高位,如果最高位数值大的话也就意味着它的数值是最大的,而如果两个数字的最高位的数值是一样的,则继续比较次高位,这样依次去比较可以决定数字的排序。而对于基数排序来说,其思想是与以上的思想是不同的,基…

开源!免费!Hugging Face推出GPT商城

Hugging Face发布开源AI助手制造工具&#xff0c;与OpenAI的定制GPT形成竞争 Hugging Face今年1月31日推出一款开源AI代码库——Hugging Chat Assistants&#xff0c;允许用户轻松创建特定功能的定制AI聊天机器人。 不同于OpenAI的ChatGPT商城需要每月20美金成为会员才能使用…

【MySQL】字符串函数的学习

&#x1f308;个人主页: Aileen_0v0 &#x1f525;热门专栏: 华为鸿蒙系统学习|计算机网络|数据结构与算法 ​&#x1f4ab;个人格言:“没有罗马,那就自己创造罗马~” #mermaid-svg-J7VN4RbrBi51ozap {font-family:"trebuchet ms",verdana,arial,sans-serif;font-siz…