CPU三级缓存技术解析|电子爱好者

admin管理员组
文章数量:1598842

CPU三级缓存技术解析
cpu存取数据
cpu存取数据大致可以认为是下图的流程（此处图比较简单）

cpu拿到需要的内存地址，之后这个地址会被mmu转换成真正的物理地址，接下来会去查接下来查L1 cache，L1 cache不命中查L2 cache，L2 cache不命中查L3 cache，L3 cache不能命中查内存。
其实现在查到内存还算完，现在有了虚拟内存，内存其实也是一层cache，是磁盘的cache，也就是说查内存也有可能不会命中，因为内存中的数据可能被虚拟内存系统放到磁盘中了，如果内存也不能命中就要查磁盘。
为什么需要cache
程序局部性原理
如果访问内存中的一个数据A，那么很有可能接下来再次访问到，同时还很有可能访问与数据A相邻的数据B，这分别叫做时间局部性和空间局部性。
cpu cache 有多快
根据摩尔定律，CPU 的访问速度每 18 个月就会翻倍，相当于每年增⻓ 60% 左右，内存的速度当然也会不断增⻓，但是增⻓的速度远小于 CPU，平均每年只增⻓ 7% 左右。于是，CPU 与内存的访问性能的差距不断拉大。
为了弥补 CPU 与内存两者之间的性能差异，就在 CPU 内部引入了 CPU Cache，也称高速缓存。
CPU Cache 通常分为大小不等的三级缓存，分别是 L1 Cache、L2 Cache 和 L3 Cache。其中L3是多个核心共享的。
程序执行时，会先将内存中的数据加载到共享的 L3 Cache 中，再加载到每个核心独有的 L2 Cache，最后进入到最快的 L1 Cache，之后才会被 CPU 读取。之间的层级关系，如下图。

越靠近 CPU 核心的缓存其访问速度越快

cpu cache 读取过程
CPU Cache 的数据是从内存中读取过来的，以一小块一小块读取数据的，而不是按照单个数组元素来
读取数据的，在 CPU Cache 中的，这样一小块一小块的数据，称为 Cache Line(缓存块)。
可以在linux机器下执行一下命令查询L1cache的大小，单位是字节
#查看cache line 大小
cat /sys/devices/system/cpu/cpu0/cache/index0/coherency_line_size
#查看各级缓存大小 inde0-3分别是 L1数据缓存 L1指令缓存 L2数据缓存 L3数据缓存
cat /sys/devices/system/cpu/cpu0/cache/index0/size
比如，有一个 int array[100] 的数组，当载入 array[0] 时，由于这个数组元素的大小在内存只占 4 字节，不足 64 字节，CPU 就会顺序加载数组元素到 array[15] ，意味着 array[0]~array[15] 数组元素都会被缓存在 CPU Cache 中了，因此当下次访问这些数组元素时，会直接从 CPU Cache 读取，而不用再从内存中读取，大大提高了 CPU 读取数据的性能。
如何写出让cpu跑的更快的代码
其实，这个问题定义为如何提高cpu缓存利用率更好
大家可以看下如下代码哪个执行效率更高
func main() {
n := 100
x := 0
arr := createArray(n)
//var arr [][]int
t := time.Now().UnixNano()
for i := 0; i < n; i++ {
for j := 0; j < n; j++ {
x = arr[i][j]
}
}

t1 := time.Now().UnixNano()
for i := 0; i < n; i++ {
for j := 0; j < n; j++ {
x = arr[j][i]
}
}
fmt.Println(x)

}

//创建二维数组
func createArray(n int) [][]int {
var arr [][]int

for i := 0; i < n; i++ {
var tmp []int
for j := 0; j < n; j++ {
tmp = append(tmp, i+j)
}
arr = append(arr, tmp)
}

return arr
}

/**
经过测试，形式一 array[i][j] 执行时间比形式二 array[j][i] 快好几倍。
之所以有这么大的差距，是因为二维数组 array 所占用的内存是连续的，比如⻓度 N 的指是 2 的话，那么内存中的数组元素的布局顺序是这样的:
array[0][0] array[0][1] array[1][0] array[1][1]
形式一用 array[i][j] 访问数组元素的顺序，正是和内存中数组元素存放的顺序一致。当 CPU 访问 array[0][0] 时，由于该数据不在 Cache 中，
于是会「顺序」把跟随其后的 3 个元素从内存中加载到 CPU Cache，这样当 CPU 访问后面的 3 个数组元素时，就能在 CPU Cache 中成功地找到数据，
这意味着缓存命中率很高，缓存命中的数据不需要访问内存，这便大大提高了代码的性能。
而如果用形式二的 array[j][i] 来访问，则访问的顺序就是:
array[0][0] array[1][0] array[0][1] array[1][1]
可以看到，访问的方式跳跃式的，而不是顺序的，那么如果 N 的数值很大，那么操作 array[j][i] 时，是没办法把 array[j+1][i] 也读入到
CPU Cache 中的，既然 array[j+1][i] 没有读取到 CPU Cache，那么就需要从内存读取该数据元素了。很明显，这种不连续性、跳跃式访问数据元素
的方式，可能不能充分利用到了 CPU Cache 的特性，从而代码的性能不高。那访问 array[0][0] 元素时，CPU 具体会一次从内存中加载多少元素到
CPU Cache 呢?这个问题，在前面也提到过，这跟 CPU Cache Line 有关，表示 CPU Cache 一次性能加载数据的大小，可以在 Linux 里通过
coherency_line_size 配置查看大小，通常是 64 个字节。
*/
cpu cache的结构
CPU Cache 是由很多个 Cache Line 组成的，CPU Line 是 CPU 从内存读取数据的基本单位，而 CPU Line 是由各种标志(Tag)+ 数据块(Data Block)组成

cpu cache数据的写入
事实上，数据不止有读取还有写入，如果数据写入cache之后，内存和cache的数据就不同了，需要把cache同步到内存中。
问题的关键就在于在什么时机去把数据写到内存？一般来讲有以下两种策略
写直达
保持内存与 Cache 一致性最简单的方式是，把数据同时写入内存和 Cache 中，这种方法称为写直达 (Write Through)。

在这个方法里，写入前会先判断数据是否已经在 CPU Cache 里面了:
如果数据已经在 Cache 里面，先将数据更新到 Cache 里面，再写入到内存里面; 如果数据没有在 Cache 里面，就直接把数据更新到内存里面。
写直达法很直观，也很简单，但是问题明显，无论数据在不在 Cache 里面，每次写操作都会写回到内存，这样写操作将会花费大量的时间，无疑性能会受到很大的影响。
写回
由于写直达的机制会有性能问题，所以产生了写回(Write Back)的方法
在写回机制中，当发生写操作时，新的数据仅仅被写入 Cache Block 里，只有当修改过的 Cache Block 「被替换」时才需要写到内存中，减少了数据写回内存的频率，这样便可以提高系统的性能。

如果当发生写操作时，数据已经在 CPU Cache 里的话，则把数据更新到 CPU Cache 里，同时标记 CPU Cache 里的这个 Cache Block 为脏(Dirty)的，这个脏的标记代表这个时候， CPU Cache 里面的这个 Cache Block 的数据和内存是不一致的，这种情况是不用把数据写到内存里的;
如果当发生写操作时，数据所对应的 Cache Block 里存放的是「别的内存地址的数据」的话，就要检查这个 Cache Block 里的数据有没有被标记为脏的，如果是脏的话，就要把这个 Cache Block 里的数据写回到内存，然后再把当前要写入的数据，写入到这个 Cache Block 里，同时标记为脏的;如果 Cache Block 里面的数据没有被标记为脏，则就直接将数据写入到这个 Cache Block 里，然后再把这个 Cache Block 标记为脏的就好了。
可以发现写回这个方法，在把数据写入到 Cache 的时候，只有在缓存不命中，同时数据对应的 Cache 中的 Cache Block 为脏标记的情况下，才会将数据写到内存中，而在缓存命中的情况下，则在写入后 Cache 后，只需把该数据对应的 Cache Block 标记为脏即可，而不用写到内存里。
这样的好处是，如果大量的操作都能够命中缓存，那么大部分时间里 CPU 都不需要读写内存，自然性能相比写直达会高很多。
缓存一致性问题
现在的CPU都是多核的，由于L1/L2cache是各个核心独有的，那么会带来多核心的缓存一致性问题，如果不能保证缓存一致性问题就会造成错误的结果
那缓存一致性的问题具体是怎么发生的呢？以一个含有两个核心的 CP

本文标签：缓存技术 CPU

版权声明：本文标题：CPU三级缓存技术解析内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.elefans.com/dianzi/1728314412a1153390.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

CPU三级缓存技术解析

更多相关文章

2017-2018-1 20155332 20155213 实验四 木马及远程控制技术

2017-2018-1 20155232 20155215《信息安全技术》实验四—— 木马及远程控制技术

改变未来的8种可怕技术

使用Aspose技术将ExcelWord转换为PDF

【技术】Spring Boot 将 Word 转换为 PDF 2.0 版本

【NLP】python中英文关键词抽取技术总结

Java学习技术总结_Java基础学习下

Android技术知识点：如何通过 Android Studio 和 Google Play 服务使用可下载字体

虚拟化技术 、 Win系统安装

docker容器CPU周期限制———cpu-period、--cpu-quota（绝对的值）

无线局域网技术安全发展

Android高级面试题汇总——高级开发技术面试题（1）

Android蜗牛睡眠技术文档,蜗牛睡眠app 问题提问集中贴&amp; 常见问题汇总

Technical debt (技术负债技术债)

【科普向】什么是CPU、什么是GPU？本机Win11的CPU和GPU配置如何 | Python 面试题：解释 Python 中的装饰器是什么，并举例说明如何使用装饰器

操作系统对CPU的虚拟化——进程的抽象、进程相关API以及进程的受限执行

技术方案：网吧无盘存储解决方案（转）

容器技术——Cgroup

CPU三级缓存技术解析

Linux缓存相关知识整理(史上最全!!)

发表评论

推荐文章

access和wps哪个一样_wps word和office的区别

photoshop cs6 安装过程 0920

乌镇夜宴——程序员的江湖

ifconfig 详解

对于像antzip这样的垃圾软件如何清除干净的个人方法

热门文章

Navi.Soft31.产品.微信聊天(永久免费)

西部移动硬盘怎么恢复数据？4种详细且实用的方法

JWT strings must contain exactly 2 period characters. Found: 0（JWT字符串必须正好包含2个句点字符。找到：0）

mathematica建模学习系列1

GNU GRUB菜单无法进入WIN10修复

电脑黑屏只有鼠标异常处理-----已解决

惠普系列原厂系统恢复工具：重塑您的笔记本体验

KillApps v1.48.1 — 一键关闭后台应用，节省内存和电量

操作系统02

如何用用计算机名访问共享打印机,局域网怎么连接共享打印机共享

最新文章

Java中condition的用法_Java多线程编程中使用Condition类操作锁的方法详解

condition实现生产者和消费者

Java 入门指南：Java 并发编程 —— Condition 灵活管理线程间的同步

麒麟系统配置审计服务提示condition failed

Spring.通用条件类Condition

深入剖析基于并发AQS的(独占锁)重入锁(ReetrantLock)及其Condition实现原理

C++同步机制之条件变量（std::condition_variable）

C++ 多线程同步condition_variable_any的用法

详解ReentrantLock之Condition原理

c++11 多线程支持 条件变量（condition_variable_any）（一）

condition的await是否会释放线程占有的reentrantLock

并发编程 — Condition 使用及原理详解

【多线程系列】Race Condition的产生和解决

Python 多线程编程-03-threading 模块 - Condition

C++条件变量condition_variable

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

2017-2018-1 20155332 20155213 实验四木马及远程控制技术

虚拟化技术、 Win系统安装

Android蜗牛睡眠技术文档,蜗牛睡眠app 问题提问集中贴& 常见问题汇总

c++11 多线程支持条件变量（condition_variable_any）（一）

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载