系统架构师--第1章计算机组成与体系结构-1.2 存储器系统

目录

1.2 存储器系统

1.2.1 主存储器

1.2.2 辅助存储器

1.2.3 Cache 存储器

(1)直接映像

(2)全相联映像

(3)组相联映像


1.2 存储器系统

存储器是用来存放程序和数据的部件,它是一个记忆装置,也是计算机能够实现“存储 程序控制”的基础。在计算机系统中,规模较大的存储器往往分成若干级,称为存储器系统。 传统的存储器系统一般分为高速缓冲存储器(Cache)、主存、辅存三级。主存可由 CPU 直接访问,存取速度快,但容量较小,一般用来存放当前正在执行的程序和数据。辅存设置 在主机外部,它的存储容量大,价格较低,但存取速度较慢,一般用来存放暂时不参与运行 的程序和数据,CPU 不可以直接访问辅存,辅存中的程序和数据在需要时才传送到主存, 因此它是主存的补充和后援。当 CPU 速度很高时,为了使访问存储器的速度能与 CPU 的 速度相匹配,又在主存和 CPU 间增设了一级 Cache。Cache 的存取速度比主存更快,但容 量更小,用来存放当前最急需处理的程序和数据,以便快速地向 CPU 提供指令和数据。因 此,计算机采用多级存储器体系,确保能够获得尽可能高的存取速率,同时保持较低的成本。 多层级的存储体系之所以能用低投入换来较高的存取速率,得益于局部性原理。局部性 原理是指程序在执行时呈现出局部性规律,即在一较短的时间内,程序的执行仅局限于某个 部分。相应地,它所访问的存储空间也仅局限于某个区域。程序局部性包括时间局部性和空 间局部性,时间局部性是指程序中的某条指令一旦执行,不久以后该指令可能再次执行。产 生时间局部性的典型原因是由于程序中存在着大量的循环操作;空间局部性是指一旦程序访 问了某个存储单元,不久以后,其附近的存储单元也将被访问,即程序在一段时间内所访问 的地址可能集中在一定的范围内,其典型情况是程序顺序执行。

存储器中数据常用的存取方式有顺序存取、直接存取、随机存取和相联存取四种。

(1)顺序存取:存储器的数据以记录的形式进行组织。对数据的访问必须按特定的线 性顺序进行。磁带存储器采用顺序存取的方式。

(2)直接存取:与顺序存取相似,直接存取也使用一个共享的读写装置对所有的数据 进行访问。但是,每个数据块都拥有唯一的地址标识,读写装置可以直接移动到目的数据块 所在位置进行访问。存取时间也是可变的。磁盘存储器采用直接存取的方式。

(3)随机存取:存储器的每一个可寻址单元都具有自己唯一的地址和读写装置,系统 可以在相同的时间内对任意一个存储单元的数据进行访问,而与先前的访问序列无关。主存 储器采用随机存取的方式。

(4)相联存取:相联存取也是一种随机存取的形式,但是选择某一单元进行读写是取 决于其内容而不是其地址。与普通的随机存取方式一样,每个单元都有自己的读写装置,读 写时间也是一个常数。使用相联存取方式,可以对所有的存储单元的特定位进行比较,选择 符合条件的单元进行访问。为了提高地址映射的速度,Cache 采取相联存取的方式。

1.2.1 主存储器

主存用来存放计算机运行期间所需要的程序和数据,CPU 可直接随机地进行读/写。主 存具有一定容量,存取速度较高。由于 CPU 要频繁地访问主存,所以主存的性能在很大程 度上影响了整个计算机系统的性能。根据工艺和技术不同,主存可分为随机存取存储器和只 读存储器。

1.随机存取存储器

随机存取存储器(RandomAccessMemory,RAM)既可以写入也可以读出,但断电后信 息无法保存,因此只能用于暂存数据。

RAM 又可分为 DRAM(DynamicRAM,动态 RAM) 和 SRAM(StaticRAM,静态 RAM)两种,DRAM 的信息会随时间逐渐消失,因此需要定时 对其进行刷新维持信息不丢失;SRAM 在不断电的情况下信息能够一直保持而不会丢失。 DRAM 的密度大于 SRAM 且更加便宜,但 SRAM 速度快,电路简单(不需要刷新电路), 然而容量小,价格高。

2.只读存储器

只读存储器(ReadOnlyMemory,ROM)可以看作 RAM 的一种特殊形式,其特点是: 存储器的内容只能随机读出而不能写入。这类存储器常用来存放那些不需要改变的信息。由 于信息一旦写入存储器就固定不变了,即使断电,写入的内容也不会丢失,所以又称为固定 存储器。ROM 一般用于存放系统程序 BIOS(BasicInputOutputSystem,基本输入输出系统)。

3.内存编址方法

在计算机系统中,存储器中每个单元的位数是相同且固定的,称为存储器编址单位(也 就是每个内存地址可以存储多少bit的信息,addbyxxk)。

不同的计算机,存储器编址的方式不同,主要有字编址和字节编址。

内存一般以字节(8 位)为单位,或者以字为单位(字的长度可大可小,例如16 位或 者32 位等,在这类试题中,一般会给出字的大小)。

例如,内存地址从 AC000H 到 C7FFFH,则共有 C7FFFFH-AC000H=1BFFFH(还需要+1) 个 地址单元(转换为十进制后,为 112KB)。如果该内存地址按字(16bit)编址,则共有 112KB*16 位(容量)。假设该内存由 28 片存储器芯片构成,已知构成此内存的芯片每片有 16KB 个存 储单元,则该芯片每个存储单元存储(112KB*16)/(28*16KB)=4位。

1.2.2 辅助存储器

1.磁带存储器是一种顺序存取的设备,其特点包括:存取时间较长,但存储容量大,便 于携带,价格便宜。磁带应用的场景越来越少,目前主要用于资料的归档保存。

2.硬盘存储器在硬盘中,信息分布呈以下层次:记录面、圆柱面、磁道和扇区,如图 1-2 所示。

一台硬盘驱动器中有多个磁盘片,每个盘片有两个记录面,每个记录面对应一个磁头, 所以记录面号就是磁头号,如图 1-2(a)所示。所有的磁头安装在一个公用的传动设备或 支架上,磁头一致地沿盘面径向移动,单个磁头不能单独地移动。在记录面上,一条条磁道 形成一组同心圆,最外圈的磁道为 0 号,往内则磁道号逐步增加,如图 1-2(b)所示。在 一个盘组中,各记录面上相同编号(位置)的各磁道构成一个柱面,如图 1-2(c)所示。

若每个磁盘片有 m 个磁道,则该硬盘共有 m 个柱面。引入柱面的概念是为了提高硬 盘的存储速度。当主机要存入一个较大的文件时,若一条磁道存不完,就需要存放在几条磁 道上。这时,应首先将一个文件尽可能地存放在同一柱面中。如果仍存放不完,再存入相邻 的柱面内。

通常将一条磁道划分为若干个段,每个段称为一个扇区或扇段,每个扇区存放一个定长 信息块(例如,512 个字节),如图 1-2(b)所示。一条磁道划分多少扇区,每个扇区可存 放多少字节,一般由操作系统决定。磁道上的扇区编号从 1 开始,不像磁头或柱面编号从 0 开始。

在磁盘上进行信息的读写时,首先需要定位到目标磁道,这个过程称之为寻道,寻道所 消耗的时间称为寻道时间,定位到目标磁道后,需要定位到目标扇区,此过程通过旋转盘片 完成,平均旋转半圈可到目标位置。

故磁盘访问时间为:

磁盘访问时间(存取时间) = 寻道时间+旋转延迟时间

1.2.3 Cache 存储器

Cache 的功能是提高 CPU 数据输入输出的速率,突破所谓的“冯•诺依曼瓶颈”,即 CPU 与存储系统间数据传送带宽限制。高速存储器能以极高的速率进行数据访问,但因其价格高 昂,如果计算机的内存完全由这种高速存储器组成,则会大大增加计算机的成本。通常在 CPU 和内存之间设置小容量的 Cache。Cache 容量小但速度快,内存速度较低但容量大, 通过优化调度算法,系统的性能会大大改善,仿佛其存储系统容量与内存相当而访问速度近 似 Cache。 Cache 通常采用相联存储器(ContentAddressableMemory,CAM)。CAM 是一种基于数 据内容进行访问的存储设备。当对其写入数据时,CAM 能够自动选择一个未用的空单元进 行存储;当要读出数据时,不是给出其存储单元的地址,而是直接给出该数据或者该数据的 一部分内容,CAM 对所有存储单元中的数据同时进行比较,并标记符合条件的所有数据以 供读取。由于比较是同时、并行进行的,所以,这种基于数据内容进行读写的机制,其速度 比基于地址进行读写的方式要快很多。

1.Cache 基本原理

使用 Cache 改善系统性能的依据是程序的局部性原理。根据程序的局部性原理,最近 的、未来要用的指令和数据大多局限于正在用的指令和数据,或是存放在与这些指令和数据 位置上邻近的单元中。这样,就可以把目前常用或将要用到的信息预先放在 Cache 中。当 CPU 需要读取数据时,首先在 Cache 中查找是否有所需内容,如果有,则直接从 Cache 中 读取;若没有,再从内存中读取该数据,然后同时送往 CPU 和 Cache。如果 CPU 需要访 问的内容大多都能在 Cache 中找到(称为访问命中),则可以大大提高系统性能。

如果以 h 代表对 Cache 的访问命中率(“1-h”称为失效率,或者称为未命中率),t1 表 示 cache 的周期时间,t2 表示内存的周期时间,以读操作为例,使用“Cache+主存储器” 的系统的平均周期为 t3。

则: t3 =t1′h+t2′(1-h)

系统的平均存储周期与命中率有很密切的关系,命中率的提高即使很小也能导致性能上 的较大改善。

例如,设某计算机主存的读/写时间为 l00ns,有一个指令和数据合一的 Cache,已知该 Cache 的读/写时间为 10ns,取指令的命中率为 98%,取数的命中率为 95%。在执行某类 程序时,约有 1/5 指令需要存/取一个操作数。假设指令流水线在任何时候都不阻塞,则设 置 Cache 后,每条指令的平均访存时间约为:

(2%′100ns+98%′10ns) + 1/5′(5%′100ns+95%′10ns) =14.7ns

2.映射机制

当 CPU 发出访存请求后,存储器地址先被送到 Cache 控制器以确定所需数据是否已 在 Cache 中,若命中则直接对 Cache 进行访问。这个过程称为 Cache 的地址映射(映像)。 在 Cache 的地址映射中,主存和 Cache 将均分成容量相同的块(页)。

常见的映射方法有 直接映射、全相联映射和组相联映射。

(1)直接映像

直接映像方式以随机存取存储器作为 Cache 存储器,硬件电路较简单。在进行映像时, 主存地址被分成三个部分,从高到低依次为:区号、页号以及页内地址,如图 1-3 所示。

在本例中,内存容量为 1GB,Cache 容量为 8MB,页面的大小为 512KB。直接映像中, 先分区,再分页。一个区的大小就是 Cache 容量的大小,所以一共分:1GB/8MB=128 个区, 区号 7 位。每个区分:8MB/512KB=16 个页,所以页号为 4 位。

在直接映像方式中,每个主存页只能复制到某一固定的 Cache 页中,如图 1-4 所示。 直接映像方式的映像规律是:主存中每个区的第 0 页,只能进入到 Cache 的第 0 页。即: 若当前时刻 Cache 中 0 号页已被占据,而 1-15 号页空闲,现在要将 1 区第 0 页(即内 存的 16 页)调入 Cache 是会发生冲突的。所以直接映像的块冲突率非常高。

在 Cache 中,为每一个页设立一个 Cache 标记,该标记用于识别当前的 Cache 块来 自于哪个内存页。直接映像中,由于每个区的 N 号页,都必须进入到 Cache 的 N 号页, 所以只需要记录区号即可。所以此时标记位的长度是 7 位。

直接映像方式的优点是比较容易实现,缺点是不够灵活,有可能使 Cache 的存储空间 得不到充分利用。

(2)全相联映像

全相联映像使用相联存储器组成的 Cache 存储器。在全相联映像方式中,主存的每一 页可以映像到 Cache 的任一页。如果淘汰 Cache 中某一页的内容,则可调入任一主存页的 内容,因而较直接映像方式灵活。

在全相联映像方式中,主存地址分为两个部分,分别为地址部分(主存页标记)和数据 部分(页内地址)。数据部分用于存放数据,而地址部分则存放该数据的存储器地址。如图 1-5 所示。

当进行映像时,在我们给定的例子中,当程序访存时,则高 11 位给出主存页号,低 19 位给出页内地址。因为每个 Cache页可映像到2048个主存页中的任一页,所以每页的 Cache 标记也需要 11 位,以表明它现在所映像的主存页号。因此,Cache 标记信息位数增 加,比较逻辑成本随之增加。

在全相联映像方式中,主存地址不能直接提取 Cache 页号,而是需要将主存页标记与 Cache 各页的标记逐个比较,直到找到标记符合的页(访问 Cache 命中),或者全部比较完 后仍无符合的标记(访问 Cache 失败)。因此这种映像方式速度很慢,失掉了高速缓存的作 用,这是全相联映像方式的最大缺点。如果让主存页标记与各 Cache 标记同时比较,则成 本又太高。

全相联映像方式因比较器电路难于设计和实现,只适用于小容量 Cache。

(3)组相联映像

组相联映像(页组映像)介于直接映像和全相联映像之间,是这两种映像的一种折衷方 案。全相联映像方式以页为单位,可自由映像,没有固定的对应关系。直接映像方式中,主 存分组,主存组内的各页与 Cache 的页之间采取的是固定的映像关系,但各组均可映像到 Cache 中。在组相联映像方式中,主存与 Cache 都分组,主存中一个组内的页数与 Cache 的 分组数相同,如图 1-7 所示。

在图1-7给出的例子中,主存分128个区,每个区8个组,每个组2个页。组相联映像 方式的主存地址组织如图1-8所示。

组相联映像的规则是:主存中的组与 Cache 的组形成直接映像关系,而每个组内的页 是全相联映像关系。如主存1区0页,他在 0组中,所以只能进入Cache的0组中,至于 进入到Cache的0组0页,还是0组1页,并无强制要求,可任意放置。

在组相联映像中,Cache 中每一页的标记位长度为8位,因为此时除了要记录区号,还 得记录组号,即区号7位加组号1位等于8位。

容易看出,如果Cache中每组只有一页,则组相联映像方式就变成了直接映像方式。如 果Cache 中每组页数为16页(即Cache只分一组),则就是全相联映像。因此,在具体设计 组相联映像时,可以根据设计目标选取某一折衷值。

在组相联映像中,由于Cache中每组有若干可供选择的页,因而它在映像定位方面较直 接映像方式灵活;每组页数有限,因此付出的代价不是很大,可以根据设计目标选择组内页 数。

为保障性能,内存与 Cache 之间的映射往往采用硬件完成,所以 Cache 对于程序员而言是透明的,程序员编程时,完全不用考虑 Cache。

3.替换算法

当Cache 产生了一次访问未命中之后,相应的数据应同时读入CPU和Cache。但是当 Cache 已存满数据后,新数据必须替换(淘汰)Cache中的某些旧数据。最常用的替换算法 有以下三种: (1)随机算法。

这是最简单的替换算法。随机法完全不管 Cache 块过去、现在及将来 的使用情况,简单地根据一个随机数,选择一块替换掉。

(2)先进先出(FirstInandFirstOut,FIFO)算法。按调入 Cache 的先后决定淘汰的顺 序,即在需要更新时,将最先进入 Cache 的块作为被替换的块。这种方法要求为每块做一 记录,记下它们进入 Cache 的先后次序。这种方法容易实现,而且系统开销小。其缺点是 可能会把一些需要经常使用的程序块(如循环程序)替换掉。

(3)近期最少使用(LeastRecentlyUsed,LRU)算法。LRU 算法是把 CPU 近期最少使 用的块作为被替换的块。这种替换方法需要随时记录 Cache 中各块的使用情况,以便确定 哪个块是近期最少使用的块。LRU 算法相对合理,但实现起来比较复杂,系统开销较大。 通常需要对每一块设置一个称为“年龄计数器”的硬件或软件计数器,用以记录其被使用的 情况。

4.写操作

因为需要保证缓存在 Cache 中的数据与内存中的内容一致,相对读操作而言,Cache 的 写操作比较复杂,常用的有以下几种方法。

(1)写直达(writethrough)。当要写 Cache 时,数据同时写回内存,有时也称为写通。 当某一块需要替换时,也不必把这一块写回到主存中去,新调入的块可以立即把这一块覆盖 掉。这种方法实现简单,而且能随时保持主存数据的正确性,但可能增加多次不必要的主存 写入,会降低存取速度。

(2)写回(writeback)。CPU 修改 Cache 的某一块后,相应的数据并不立即写入内存 单元,而是当该块从 cache 中被淘汰时,才把数据写回到内存中。在采用这种更新策略的 cache 块表中,一般有一个标志位,当一块中的任何一个单元被修改时,标志位被置“1”。 在需要替换掉这一块时,如果标志位为“1”,则必须先把这一块写回到主存中去之后,才能 再调入新的块;如果标志位为“0”,则这一块不必写回主存,只要用新调入的块覆盖掉这一 块即可。这种方法的优点是操作速度快,缺点是因主存中的字块未随时修改而有可能出错。

(3)标记法。对 Cache 中的每一个数据设置一个有效位。当数据进入 Cache 后,有 效位置“1”;而当 CPU 要对该数据进行修改时,数据只需写入内存并同时将该有效位置“0”。 当要从 Cache 中读取数据时需要测试其有效位,若为“l”则直接从 Cache 中取数,否则, 从内存中取数。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/3281619.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

Vue - CSS基础学习

一、元素及属性 CSS 是为 web 内容添加样式的代码。 style标签 1.语法 1.除了选择器部分,每个规则集都应该包含在成对的大括号里({})。 2.在每个声明里要用冒号(:)将属性与属性值分隔开。 3.在每个规则集里要用分号…

Android Studio运行报错:module java.base dose not “opens java.io“ to unnamed module

今天第一次使用Android Studio运行一个安卓工程,报如图错误,应该是环境问题。 解决: 右上角的设置图标->settings->Buid,Execution,Deployment->Build Tools->Gradle->Gradle JDK->选择本地环境的java_home jdk(怎么安装…

SEQ 4. 转录本蛋白编码能力预测软件(CPAT)

简 介 深度转录组测序能够检测数千个新的转录本。这一发现大而“隐藏”的转录组重新激活了对能够快速区分编码和非编码 RNA 的方法的需求。在这里提出了一种新的无比对方法,编码潜在评估工具( CPAT) ,可以快速识别来自大量候选转录本的编码和非编码转…

公司里的IT是什么?

公司里的IT是什么? 文章目录 公司里的IT是什么?1、公司里的IT2、IT技术3、IT行业4、IT行业常见证书 如果对你有帮助,就点赞收藏把!(。・ω・。)ノ♡ 前段时间,在公…

【C语言】指针基础知识理解【续】

1. ⼆级指针 指针变量也是变量,是变量就有地址,那指针变量的地址存放在哪⾥?这就是 ⼆级指针 。 1.1 引入二级指针 由于一级指针已经很熟悉,这里就不再赘述,这里我们重点探讨二级指针 下面先简单使用一个二级指针看…

TPAMI 2024 | 全新框架!深度学习可解释度量学习!

TPAMI 2024 | 全新框架!深度学习可解释度量学习! DIML: Deep Interpretable Metric Learning via Structural Matching 题目:DIML: 通过结构匹配的深度可解释度量学习 作者:Wenliang Zhao, Yongming Rao, Jie Zhou , and Jiwen…

C++笔试强训10

文章目录 一、选择题1-5题6-10题 二、编程题题目一题目二 一、选择题 1-5题 前面做过很多次了,记住就好,不在赘述,选C。 内联函数经常使用的场景包括: 小型函数:当函数体非常小,只包含几条语句时&#xf…

【C++】模板的特化

文章目录 概念函数模板特化类模板特化全特化偏特化 概念 通常情况下,使用模板可以实现一些与类型无关的代码,但是有一些类型需要特殊处理,否则可能会得到一些错误的结果。 比如,在比较两个数的大小时,如果传入两个变量…

手动上电电路(电路收藏)

SW1按下 V1栅极对地 V1通 Vout给Mcu工作 GPIO2 高电平 V2通 SW1松开 V1栅极依然通过V2对地 维持V1通 Vout。再次按下SW1 GPIO1 对地 使Mcu收到中断 将GPIO2 输出低电平 V2关 松开SW1 V1栅极悬空 V1断开 Vout被截断

产品思维之什么是好的设计?

点击下方“JavaEdge”,选择“设为星标” 第一时间关注技术干货! 免责声明~ 任何文章不要过度深思! 万事万物都经不起审视,因为世上没有同样的成长环境,也没有同样的认知水平,更「没有适用于所有人的解决方案…

原生微信小程序wxml2canvas生成海报并包保存至本地

Wxml2Canvas是什么? Wxml2Canvas 是一个用于微信小程序开发的工具库,主要用途是将小程序页面的内容绘制成图片,以便生成海报或保存分享图片到相册等功能。具体用途包括: ①海报生成功能:允许开发者将当前页面的特定部…

【机器学习】决策边界的基本概念以及如何在逻辑回归中找到决策边界

引言 在机器学习中,决策边界是分类算法用来区分不同类别数据点的线、面或超平面。这些边界通常是模型的预测规则,用于将特征空间中的点分配到不同的类别。决策边界可以是线性的,也可以是非线性的,取决于数据的分布和所使用的分类算…

鸿蒙 HarmonyOS NEXT端云一体化开发-云数据库篇

一、概述 云数据库是一款基于对象模型的数据库,采用存储区、对象类型和对象三级结构。 数据模型 存储区 存储区是一个独立的数据存储区域,多个数据存储区之间相互独立,每个存储区拥有完全相同的对象类型定义 --类似于关系型数据库中的da…

ECMA6Script学习笔记(五)

【摘要】 本文是对自己学习ES6的学习笔记回顾,后面是概要: 本文介绍了ES6中的对象创建和拷贝方法。对象创建方面,ES6通过class关键字支持了面向对象的语法糖,包括属性设置、getter和setter方法、构造器、静态方法以及私有属性的定义。同时,展…

专业做护眼灯的有哪些品牌?五款市面主流护眼灯专业测评

专业做护眼灯的有哪些品牌?市面上出现的品牌毫不夸张的说,真的算得上是琳琅满目,而且每一个品牌都在说自己的产品才是最值得的,这种情况下来,很多人一时之间根本就不知道要选择哪一款比较好。而且还有一些还会买到低劣…

vue基础知识总结(2)--- axios的使用

一.下载Vue3: 选择自己想要下载的项目文件夹,cmd回车打开命令栏,执行 : cnpm init vuelatest 然后等待一会就可以创建一个项目,并更改项目名: √ 请输入项目名称: ... vue-project 之后按照…

华为仓颉语言测试申请

1. 申请网址 HarmonyOS NEXT仓颉语言开发者预览版 Beta招募- 华为开发者联盟 点击立即报名登录华为账号 勾选选项 , 点击同意 按要求填写信息即可 2. 申请通过后官方会通过邮件的方式发送相关下载途径 , 根据文档进行下载即可 package Cangmain(): Int64 {println("你…

AI技术修复奥运珍贵历史影像,《永不失色的她》再现百年奥运女性光彩

Greatness of HER ! AI致敬 , 了不起的「她」。 7月25日,在国际奥委会和各方力量的支持下,阿里云以AI技术修复奥运珍贵历史影像,让百年奥运女性的伟大光彩被看见,并在巴黎推出《永不失色的她》全球首映礼。 国际奥委会…

Graph Contrastive Learning via Interventional View Generation

发表于:WWW24 推荐指数: #paper/⭐⭐ 框架与动机: 整体框架 动机: 如上四个: b.HLCL 生成随机增强视图,并分别用高通过滤器和低通过滤器过滤 c.生成同配异配视图,都用低通过滤器 d.生成同配视图异配视图,同配视图用低通过滤器,异配视图用高通过滤器 通过图d,我们可以得出:d&g…

基于Material studio拉伸-断裂过程的Perl脚本

在材料科学的研究中,拉伸-断裂过程一直是科学家们探索的焦点。这一过程涉及复杂的力学行为和材料内部微观结构的变化,对于理解材料的性能至关重要。然而,传统的实验方法不仅耗时耗力,而且难以捕捉到微观尺度上的所有细节。 为了满…