Cache学习(3):Cache地址映射(直接映射缓存组相连缓存全相连缓存)

1 Cache的与存储地址的映射

以一个Cache Size 为 128 Bytes 并且Cache Line是 16 Bytes的Cache为例。首先把这个Cache想象成一个数组,数组总共8个元素,每个元素大小是 16 Bytes,如下图:

image-20231123010312213

现在考虑一个问题,CPU从0x0654地址读取一个字节,由于Cache大小相对于主存来说,是非常小的。所以Cache只能缓存主存中极小一部分数据。如何根据地址在有限大小的Cache中查找数据呢?现在硬件采取的做法是对地址进行散列(可以理解成地址取模操作)。分为如下多种映射方式,他们各有优劣,同时也有着继承与发展的关系

1.1 直接映射缓存(Direct Mapped Cache)

1.1.1 地址映射方式

在前文中讲解了详细的地址映射关系,这里仅做简单的回顾

image-20231126110101981

上面的例子中,直接映射缓存的地址映射分配方式如下:

  • Cache Size是128 Byte
  • Cache Line size是16 Byte-----offset:4bit
  • 共计8个Cache Line-------------index:3bit
  • 假设地址宽度是16 bit-----------tag:9bits

根据直接映射缓存的工作方式,可以计算出不同主存地址段和对应的Cache

地址段Cahce Line Index
0x0000-0x000F,0x0080-0x008F,…0
0x0010-0x001F,0x0090-0x009F,…1
0x0020-0x002F,0x00A0-0x00AF,…2
0x0030-0x003F,0x00B0-0x00BF,…3
0x0040-0x004F,0x00C0-0x00CF,…4
0x0050-0x005F,0x00D0-0x00DF,…5
0x0060-0x006F,0x00E0-0x00EF,…6
0x0070-0x007F,0x00F0-0x00FF,…7

可以看到,地址0x0000-0x007F地址(0x0000-0x000F~0x0070-0x007F)处对应的数据可以覆盖整个Cache。0x0080-0x00FF地址的数据也同样是覆盖整个Cache。

image-20231126112711045

1.1.2 直接映射缓存的优缺点

优点:

  • 优点1:直接映射缓存在硬件设计上会更加简单
  • 优点2:因为优点1,所以成本上也会较低

缺点:

  • 容易出现Cache颠簸(Cache thrashing)

针对这个问题,在后面的文章中引入多路组相连缓存优化规避这一问题。(首先介绍学习两路组相连缓存)

1.2 两路组相连缓存(Two-way Set Associative Cache)

1.2.1 地址映射方式

依然使用本章的例子(Cache Size 128 Bytes ,Cache Line 16 Byte),引入新的概念路(Way),将Cache平均分成多份,每一份就是一路。因此,两路组相连缓存就是将Cache平均分成2份,每份64 Bytes。将所有索引一样的Cache Line组合在一起称之为组(下图中用绿色的框表示)。所以当Way=2时候,Set=4(Set*Way = Cache Line Count)。如下图所示。

image-20231126123440587

  • Cache Size是128 Byte
  • Cache Line size是16 Byte-----Offset:4bit(与直接映射缓存相同,因为Cache Line Size 没有变)
  • 共计4个Set----------------------Index:2bit(因为被平均分成了2 Way,每一个Set有2个Cache Line,共计4个Set,只需要2bit即可完成索引)
  • 假设地址宽度是16 bit-----------Tag:10bits(索引处少了一位,所以tag处需要多1 bit)

依然假设从地址0x0654地址读取一个字节数据。在上述例子中,会有如下操作:

  • 根据Index=01找到第2行Cache Line,第2行对应2个Cache Line,分别对应Way 0和Way 1。因此Index也可以称作Set Index(组索引)。
  • 将Set Index=01的组内的所有Cache Line对应的tag取出来和地址中的tag部分对比,如果其中一个相等就意味着命中。

因此,两路组相连缓存较直接映射缓存最大的差异就是:

  • 某一地址数据可以存储于对应组内的2个Cache Line,而直接映射缓存一个地址只对应一个固定的Cache Line

1.2.2 两路组相连缓存的优缺点

**缺点:**硬件成本相对于直接映射缓存更高:因为其每次比较tag的时候,开销更大。根据Set Index索引到对应组之后,由于组内有两个Cache Line,所以也会对应的有两个Tag。

  • 在硬件实现角度,增加了逻辑复杂性,某些硬件可能会做并行比较,虽然增加比较速度,但进一步增加了硬件设计复杂度)。
  • 比较两个tag,也会有更大的开销,速度可能会有所下降

**优点:**有助于降低Cache颠簸可能性。

根据两路组相连缓存的工作方式,可以画出主存地址0x0000-0x00FF地址对应的Cache分布图。同时在问题“程序试图依次访问地址0x0000、0x0080、0x0100”中比较两者Cache性能。

  • 直接映射缓存:0x0000、0x0080、0x0100地址中index部分是一样的。因此,这3个地址对应的Cache Line是同一个。当分别访问三个地址的时候都会发生Cache缺失,然后数据会发生替换从主存中加载数据。出现Cache颠簸(Cache thrashing)。

  • 两路组相连缓存:0x0000、0x0080、0x0100地址中index部分也是一样的。因此,这3个地址会对应到相同的组,但是由于有两个Way,在第一个数据0x0000加载进来的情况下放置在Way 0,再访问第二个数据0x0080,也不会替换,仅是将他放在Way1 中。避免了Cache颠簸。

    • 好处1:不至于每一次有数据访问都需要发生数据替换(虽然在访问第三个数据的时候还是需要替换,但是随着Way的数量增多,可能存下的数据更多)
    • 好处2:一个组中存了若干个数据,后面可能会继续使用

因此,当Cache size一定的情况下,组相连缓存对性能的提升最差情况下也和直接映射缓存一样,在大部分情况下组相连缓存效果比直接映射缓存好。同时,其降低了Cache颠簸的频率。从某种程度上来说,直接映射缓存是组相连缓存的一种特殊情况,每个组只有一个Cache Line而已。因此,直接映射缓存也可以称作单路组相连缓存。

image-20231126113917369

1.3 全相连缓存(Full associative Cache)

1.3.1 地址映射方式

组相连的另一个极端情况,将Way的数量扩大至最大,这就是全向相连缓存,即为所有的Cache Line都在一个组内。这种缓存就是全相连缓存。

image-20231126123456580

  • Cache Size是128 Byte
  • Cache Line size是16 Byte-----Offset:4bit(与直接映射缓存相同,因为Cache Line Size 没有变)
  • 仅有1个Set----------------------Index:0bit(因为被平均分成了8 Way,每一个Set有8个Cache Line,所有的Cache Line都在1个Set内,因此地址中不需要set index部分。因为,只有一个组让你选择,不需要设置索引即可完成定位。)
  • 假设地址宽度是16 bit-----------Tag:12bits(索引处少了3位,所以tag处需要多3 bit)

1.3.2 全相连缓存优缺点

缺点:

需要根据地址中的tag部分和唯一组内的所有的Cache Line对应的tag进行比较(硬件上可能并行比较也可能串行比较)。哪个tag比较相等,就意味着命中某个Cache Line。因此,在全相连缓存中,任意地址的数据可以缓存在任意的Cache Line中。但是硬件成本上也是更高。

优点:

可以最大程度的降低Cache颠簸的频率。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/194364.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Vue3 + Scss 实现主题切换效果

Vue3 Scss 实现主题切换效果 先给大家看一下主题切换的效果: 像这样的效果实现起来并不难,只是比较麻烦,目前我知道的有两种方式可以实现,分别是 CSS 变量、样式文件切换,下面是该效果的核心实现方法 CSS变量 给…

3D数字孪生场景编辑器

在线工具推荐: 3D数字孪生场景编辑器 - GLTF/GLB材质纹理编辑器 - 3D模型在线转换 - Three.js AI自动纹理开发包 - YOLO 虚幻合成数据生成器 - 三维模型预览图生成器 数字孪生的强大功能来自于将真实世界的资产与真实世界的数据联系起来,因此您可以…

95.STL-遍历算法 for_each

算法概述: 算法主要是由头文件 <algorithm> <functional> <numeric> 组成。 <algorithm> 是所有STL头文件中最大的一个&#xff0c;范围涉及到比较、 交换、查找、遍历操作、复制、修改等等 <numeric> 体积很小&#xff0c;只包括几个在序列上面…

激光线提取

在做单线激光三维重建&#xff0c;和多线激光三维重建的时候都会设计到激光线提取算法的实现&#xff0c;如何保持高速和高精度是关键 &#xff0c;最近优化了steger中心线提取算法&#xff0c;通过并行化实现在cpu版本可以做到2m,GPU版本可以做到0.6ms左右&#xff0c;完全可…

华为智能手表独立导航,一呼即应轻松畅行

PetalMaps 手表独立导航&#xff0c;一声令下唤醒导航&#xff0c;打造了智慧的语音交互唤醒体验功能。导航时&#xff0c;语音播报、变道震动提醒功能&#xff0c;让您尽情体验腕上导航乐趣&#xff0c;同时又能安全抵达目的地。

pinpoint链路跟踪运用及日志logback配置

本文将讲述pinpoint的安装&#xff0c;使用及与java logback 日志的集成。 介绍 是什么 是一款 APM监控工具(Application Performance Management/应用性能管理)基于java编写用于 大规模分布式系统 的监控&#xff0c;是 分析 大规模分布式系统 的平台基于google Dapper开发&…

路径规划之A*算法

系列文章目录 路径规划之Dijkstra算法 路径规划之Best-First Search算法 路径规划之A*算法 路径规划之A*算法 系列文章目录前言一、前期准备1.1 算法对比1.2 数学式方法1.3 启发式方法 二、A*算法2.1 起源2.2 思想2.3 启发式函数2.4 过程2.5 案例查看 前言 之前提过Dijkstra算…

vue3中readonly和shallowReadonly

readonly: 深度只读数据 获取一个对象 (响应式或纯对象) 或 ref 并返回原始代理的只读代理。 只读代理是深层的&#xff1a;访问的任何嵌套 property 也是只读的。 shallowReadonly 浅只读数据 创建一个代理&#xff0c;使其自身的 property 为只读&#xff0c;但不执行…

文件权限中 chmod、u+x、u、r、w、x分别代表什么

Linux系统中的每个文件和目录都有访问许可权限&#xff0c;如下面所示&#xff1a; 要说清楚问题&#xff0c;我们截取一些内容&#xff1a; ypyubuntu:~$ ls -l drwxr-xr-- 2 ypy ypy 4096 Nov 30 18:33 Desktop/ drwxr-xr-- 2 ypy ypy 4096 Nov 30 18:33 Documen…

视频没有字幕怎么办,怎么给视频增加字幕

文章目录 视频没有字幕怎么办&#xff0c;怎么给视频增加字幕前言软件准备制作字幕1. 导入视频2. 将视频拖拽到轨道3. 生成字幕4. 导出字幕 字幕实时翻译1. 播放视频2. 显示字幕设置3. 双语字幕显示 总结 视频没有字幕怎么办&#xff0c;怎么给视频增加字幕 前言 有时候下载的…

第二节HarmonyOS DevEco Studio创建项目以及界面认识

一、创建项目 如果你是首次打开DevEco Studio&#xff0c;那么首先会进入欢迎页。 在欢迎页中单击Create Project&#xff0c;进入项目创建页面。 选择‘Application’&#xff0c;然后选择‘Empty Ability’&#xff0c;单击‘Next’进入工程配置页。 配置页中&#xff0c;详…

Mysql的分库分表

一、单Mysql节点 假如一主一从 为什么不能无限读&#xff1f; 瓶颈分析&#xff1a; 资源限制&#xff1a; 如CPU、内存、磁盘I/O、网络带宽等。随着读请求的增加&#xff0c;服务器的负载将会增加&#xff0c;甚至可能导致系统崩溃。 连接数限制&#xff1a; MySQL有最大连…

Docker:深入解析Nexus技术构建可靠的软件仓库管理系统

1、简述 在现代软件开发中&#xff0c;有效的软件仓库管理是确保项目成功的关键一环。Nexus Repository Manager作为一种流行的仓库管理系统&#xff0c;为开发人员提供了强大的工具&#xff0c;用于存储、检索和管理软件构建。本文将深入解析Nexus技术&#xff0c;探讨其关键…

GPIO的使用--操作PF09 PF10 PF08实现呼吸灯、跑马灯、警报闪烁灯

先来个呼吸灯演示 呼吸灯 目录 一、GPIO的介绍 1.含义 2.控制原理 3.控制流程 二、LED控制 1.呼吸灯 操作代码 烧录结果 2.蜂鸣器红绿灯交替 操作代码 3.红绿灯交替闪烁 操作代码 一、GPIO的介绍 1.含义 GPIO(general porpose intput output),通用输入输出端口。…

应用密码学期末复习(2)

目录 第二章 2.1数论与密码基础-数论基本概念 2.1.1几个基本概念 2.1.2辗转相除法 2.1.3解一次周余式 2.2密码基础-单表密码 2.2.1单表密码体制 2.2.2单表密码的统计分析 2.3密码基础-多表密码 2.4密码基础-置换密码 第二章 2.1数论与密码基础-数论基本概念 2.1.1几…

window关于下载anaconda 2023年以后的版本,jupyter notebook闪退,没有内核的问题

这种问题的解决办法&#xff1a; 下载anaconda较早版本&#xff0c;比如我下载的是&#xff1a;2022年5月的版本。 下载之后&#xff0c;打开jupyter好像也会没有内核和闪退。 下面解决步骤&#xff1a; 1.注意&#xff1a;打开anaconda powershell prompt 2.重点来了&#xf…

IDEA 2022.1 同一个 spring boot main类运行多个实例

普通的 Java 项目 运行多个实例是非常简单的&#xff0c;直接点击 run 多次即可&#xff0c;但在 spring boot 中默认情况下&#xff0c;是不允许把同一个 web 项目改完端口后多次运行的&#xff0c;如下会显示让你先停止当前实例后再启动&#xff1a; 开启运行多个实例的的方法…

Redis面试题:哨兵模式相关问题,以及脑裂问题

目录 面试官&#xff1a;怎么保证Redis的高并发高可用 面试官&#xff1a;你们使用redis是单点还是集群&#xff0c;哪种集群 面试官&#xff1a;redis集群脑裂&#xff0c;该怎么解决呢&#xff1f; 面试官&#xff1a;怎么保证Redis的高并发高可用 候选人&#xff1a;首先…

WordPress:构建强大的网站和博客的完美选择

WordPress&#xff1a;构建强大的网站和博客的完美选择 一、WordPress 简介1.1 WordPress 介绍1.2 WordPress 优势 二、部署LNMP环境2.1 前提条件2.2 关闭防火墙和SELinux2.3 安装Nginx2.4 安装MySQL2.5 安装PHP2.6 配置Nginx2.7 配置MySQL2.8 配置PHP2.9 测试访问LNMP平台 三、…

【九章斩题录】Leetcode:面试题 01.03. URL化(C/C++)

精品题解 &#x1f525; 《九章斩题录》 &#x1f448; 猛戳订阅 面试题 01.03. URL化 &#x1f4da; 题目&#xff1a;URL化。编写一种方法&#xff0c;将字符串中的空格全部替换为%20。假定该字符串尾部有足够的空间存放新增字符&#xff0c;并且知道字符串的“真实”长度。…