存内计算——发展史与近期成果

存内计算的概念早在上个世纪就已经被提出,但当时的人们寄希望于通过优化处理器设计以及工艺制程的升级,来获得性能和能效比的提升,存内计算的研究仅停留在理论阶段。随着大数据时代的到来,存内计算由于其结构特点以及摩尔定律的“失效”,被认为是提升处理器能效和性能以及加速神经网络运算的新出路。接下来我们将从存内计算的源头出发,介绍它的发展史与近期取得的成果。

一、存内计算构想

存内计算这个概念早在1969年就有人提出。当时,斯坦福研究所Kautz等人发表的一篇《Cellular Logic-in-Memory Arrays》首次将存储和逻辑整合,提出“logic-in-memory”方案[1],文中提出设计出一种细胞逻辑存储器(CLIM)阵列,在这一阵列中的基本门和连接方式可以通过“编程”来实现所需的逻辑操作,也即最早的“存储-逻辑一体”。如下图1为文中设计的一种“存储-逻辑一体”阵列及其实现的逻辑功能。

图 1 一种“存储-逻辑一体”阵列[1]

紧接着在1970年,来自斯坦福大学Stone等人发表论文,设计了支持逻辑运算的存储计算架构。但总的来说,在上世纪七八十年代,处理器的性能瓶颈、存储墙、功耗墙等问题并不突出,牵制计算性能的是不够强劲的处理器,并且由于彼时摩尔定律还未“失效”,人们更期望通过工艺制程的升级获取能效比的提升,因此人们更多关注的是如何提升CPU性能,并没有在存内计算架构上做更多的文章与更深的研究

1997年,加州大学伯克利分校Patterson等人将处理器集成在DRAM上,实现了存储与计算的结合,但在这一时期,存内计算也仅仅停留在尖端实验室的理论研究阶段,并没有落地市场实际应用。

近年来,随着大数据、人工智能等应用的兴起以及摩尔定律的“失效”,英伟达、三星等世界知名的IC企业与高效都已将目光转向存内计算,并已有广泛布局和应用落地,目前,存内计算已成为“兵家必争之地”,在AI时代如何实现性能、算力、功耗的突破?存内计算,或许是一个可靠的答案。

二、近代的存内计算

2010年后,大数据驱动应用发展迅猛,数据量呈现指数级暴增[2]。Nvidia的首席科学家Bill Dally在2015年的主题为“Nvidia's Path to Exascale”的演讲中指出,DRAM与CPU之间的数据传输耗能是单纯双精度浮点数加法耗能的1000倍[3],数据传输带来的能耗成为此时计算能耗的主体部分,成为牵制大数据量计算能效的新瓶颈。

与此同时,新型存储器件迅猛发展,包括3D堆叠的存储器件,如HMC/HBM3D XPoint;以及交叉栅栏式(crossbar)结构的非易失性存储器件,如RRAMPCM。这样的非易失性存储器和传统DRAM结构相比,具有存储密度高和静态功耗低的优点,同时其特殊的物理结构为存储和计算相结合提供了支持[2]。

因此,研究者们考虑赋予内存一定的计算能力,从而减少数据移动,降低计算机系统运行能耗,存内计算在2010年后重新被研究者重视。

2010年,惠普实验室Williams教授团队用忆阻器实现简单布尔逻辑功能。新型存储器的快速发展为存内计算奠定了技术基础。随着深度学习热潮的到来,存内计算由于其结构特点,被认为具有加速深度学习运算的能力,高校开始了存内计算的相关研究,国外开始出现以存内计算为卖点的处理器制造公司,如Mythic。2010年至2015年,可以认为是存内计算的技术积累阶段。

2016年至2020年,学术界在存内计算各个领域的研究取得进展。2016年,郭昕婕博士(现知存科技首席科学家)在美国加州大学圣塔芭芭拉分校(UCSB)谢源教授团队,研发出全球第一个3层神经网络的浮栅存内计算深度学习芯片(PRIME架构),首次验证了基于浮栅晶体管的存内计算在深度学习应用中的效用。相较于传统冯诺伊曼架构的传统方案,PRIME可以实现功耗降低约20倍、速度提升约50倍,引起产业界广泛关注。随着人工智能等大数据应用的兴起,存算一体技术得到国内外学术界与产业界的广泛研究与应用。随后,诸如PRIME、ISAAC等基于乘累加的存内计算架构以及基于逻辑操作、搜索操作的存内计算相关研究被提出[2]。

在2017年微处理器顶级年会(Micro 2017)上,包括英伟达、英特尔、微软、三星、加州大学圣塔芭芭拉分校等都推出了他们的存内计算系统原型[5]。也就是在2017年,郭昕婕就进一步攻下7层神经网络的浮栅存内计算深度学习芯片,同年归国联合创立知存科技,是国内最早成立的存内计算芯片公司。

2018年的集成电路领域顶会ISSCC专门用了一个议程来研讨存内计算相关话题;到2019年,电子器件领域的顶级会议IEDM上关于存内计算的研讨议程则变成了三个,相关论文也达到二十余篇;2020年的ISSCC上存内计算的论文也上升至七篇[6],足见存内计算在学术界的地位正在不断提升,相关学术成果为后续存内计算产品的井喷奠定了坚实的基础。九天睿芯、后摩智能国内AI芯片公司在此期间成立,并开始技术积累。

图 2 PRIME架构示意图[4]

2021年开始,存内计算相关产品逐步落地。包括三星、海力士、TSMC在内的国际巨头以及Mythic等公司经过技术沉淀,已经开始试产存内计算芯片,三星展示了基于HBM2-PIM技术的存内计算芯片、海力士展示了GDDR6-AiM的样品,TSMC展示了其在SRAM、ReRAM、PCM、STT-MRAM等多种器件上实现存内计算的探索成果。存内计算产业化初见成果,越来越多的存内计算产品落地。美国处理器公司Mythic推出M1076处理器,采用模拟存内计算方案,存储介质为Flash,在40nm制程工艺下实现25TOPS的算力与3W的功耗;2022年国内知存科技推出首款量产存内计算SOC芯片WTM2101,采用模拟存算计算范式,以Flash为介质,在40nm成熟工艺下以2.6x3.2mm²极小封装实现了50Gops的高算力,功耗低至5uA.已商用至智能可穿戴设备中2023年后摩智能推出鸿途H30芯片,采用数字存算计算范式,以SRAM为介质,实现256TOPS的算力与35W的功耗[8]。

图 3 后摩鸿途H30芯片示意图[8]

在高校科研方面,清华大学集成电路学院教授吴华强、副教授高滨团队基于存内计算计算范式,研制出全球首颗全系统集成的、支持高效片上学习的忆阻器(RRAM)存内计算芯片。该研究成果以面向边缘学习的全集成类脑忆阻器芯片为题在线发表在《Science》上[9]。北京大学集成电路学院与人工智能研究院黄如院士课题组基于存内计算技术,提出高效的ADC架构SRAM存内计算加速引擎,并在ISSCC 2022上发表文章[10]。

三、存内计算发展方向

现如今存内计算技术已经具有非常广阔的应用场景和广泛的发展方向,下面简单列举部分存内计算技术的研究热点

(1)视频实时处理

视频实时处理是存内计算技术的一大应用方面,移动端设备(手机、无人机、手持设备)受限于散热,传统视觉芯片无法支持高标准的实时处理。存内计算技术的高带宽、高算力等特点,使得其在新型视觉芯片的研发上具有天然优势。在研究成果方面,国内知存科技推出WTM-8系列产品芯片,这是针对视频增强处理的一款高性能低功耗的移动设备计算AI视觉芯片,采用第二代3D存内计算架构,为全球首款存内计算视觉芯片,已完成投片即将量产,具备高算力、低功耗、高能效、低成本的核心优势,应用于高性能成像和空间计算[11]。

图 4 WTM-8系列芯片示意图[11]

(2)感存算技术

感存算技术实际上就是在存内计算技术中加上了传感,感存算一体架构为集传感、储存和运算为一体的架构,解决冯诺依曼架构的数据搬运的功耗瓶颈的同时与传感结合提升整体效率。在科研成果方面,中国工程院罗毅院士研究团队在中国工程院院刊Engineering》2022年第7期发表《感存算一体化智能视觉芯片的展望》一文,总结了感存算一体化智能成像系统中使用的两种不同类型的架构[12]。

图 5铁电光伏传感器(左)及感存算一体神经网络电路(右)示意图

(3)类脑计算技术

类脑计算,顾名思义是像“人脑”一样思考,借鉴生物大脑的信息处理方式,以神经元与神经突触为基本单元,从结构与功能等方面模拟生物神经系统,进而构建“人造超级大脑”的新型计算形态。在科研成果方面,2019年8月1日,清华大学类脑计算研究中心施路平教授团队研发出世界首款异构融合类脑计算芯片,在《Nature》杂志上发表相关论文《面向人工通用智能的异构“天机芯”芯片架构》[13]。

除了以上研究热点,存内计算技术还有很多其他的研究应用方面,比如AI加速卡、3D存内计算芯片设计等。当然,存内计算技术还有很多可能的研究应用亟待发现,期待存内计算真正全面走入我们生活中的一天

四、存内计算的产业落地

存算一体技术作为解决冯诺依曼架构下存储墙问题的重要方案,吸引了国内外众多企业的研发投入,其中知存科技成为这一领域的引领者之一

在全球范围内,存算一体技术的研究和实践正由传统芯片巨头如三星电子、SK海力士、台积电、美光、IBM、英特尔等主导。SK海力士也展示了其基于GDDR的存内计算产品,大幅提高了计算速度并降低了功耗。其他如台积电、美光、IBM、英特尔等也都在存内计算领域取得了积极进展,探索将存储与计算紧密结合的创新方案。

在国内,新兴AI和存储企业的蓬勃发展也为存算一体技术注入了新的活力。知存科技作为其中一员,在存内计算芯片的研发和推广方面处于领先地位。他们的WTM2101基于nor flash存储介质,40nm的制程实现了超低功耗以及高算力。特别适用于智能语音和智能健康等领域。该公司不仅在技术上取得了突破,2023年1月还获得了2亿元的B2轮融资,显示了市场对其发展的认可和期待。

知存科技的成就不仅在于技术上的创新,更在于其成功将存算一体技术落地并投入量产。这种领先地位使得知存科技成为国内存算一体领域的重要代表之一,为未来的技术发展和产业进步贡献着不可或缺的力量。

    与此同时,全球首个存内计算社区创立,涵盖最丰富的存内计算内容,以存内计算技术为核心,绝无仅有存内技术开源内容,囊括云/边/端侧商业化应用解析以及新技术趋势洞察等, 邀请业内大咖定期举办线下存内workshop,实战演练体验前沿架构;从理论到实践,做为最佳窗口,存内计算让你触手可及。传送门:https://bbs.csdn.net/forums/computinginmemory?category=10003;

社区最新活动存内计算大使招募中,享受社区资源倾斜,打造属于你的个人品牌,点击下方一键加入

https://bbs.csdn.net/topics/617915760

在这里插入图片描述

五、资料来源

[1] W. H. Kautz, “Cellular Logic-in-Memory Arrays,” IEEE Trans. Comput., vol. C–18, no. 8, pp. 719–727, Aug. 1969.

[2] 毛海宇,舒继武,李飞等.内存计算研究进展[J].中国科学:信息科学,2021,51(02):173-205.

[3] in memory computing 存内计算是学术圈自娱自乐还是真有价值? - 知乎 (zhihu.com)

[4] Chi P, Li S, Xu C, et al. Prime: A novel processing-in-memory architecture for neural network computation in reram-based main memory[J]. ACM SIGARCH Computer Architecture News, 2016, 44(3): 27-39.

[5] 陈巍:存算一体技术是什么?发展史、优势、应用方向、主要介质 - 知乎 (zhihu.com)

[6] 存内计算,走在爆发的边缘 – 澎湃新闻 (thepaper.cn)

[7] 沉寂近30年后火了!存内计算如何打破AI算力瓶颈? - 知乎(zhihu.com)

[8] 后摩智能官网 (houmoai.com)

[9] 再添“芯”动能!清华团队发布最新Science-北京信息科学与技术国家研究中心 (tsinghua.edu.cn)

[10] 类脑智能芯片研究中心黄如院士 — 燕博南助理教授课题组在“存内计算AI芯片”领域取得重要研究成果-北京大学人工智能研究院 (pku.edu.cn)

[11] 知存科技官网 (witintech.com).

[12] Pan W, Zheng J, Wang L, et al. A future perspective on in-sensor computing[J]. Engineering, 2022, 14(7): 7797.

[13] 让自行车真正“自行” “天机芯”面向无限未来-清华大学官网 (tsinghua.edu.cn)

[14] 知存科技助力AI应用落地

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/362184.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

机器学习 低代码 ML:PyCaret 的使用

✅作者简介:人工智能专业本科在读,喜欢计算机与编程,写博客记录自己的学习历程。 🍎个人主页:小嗷犬的个人主页 🍊个人网站:小嗷犬的技术小站 🥭个人信条:为天地立心&…

大数加法-----蓝桥杯

题目描述 以字符串的形式读入两个数字&#xff0c;编写一个函数计算它们的和&#xff0c;以字符串形式返回。 数据范围: s.length,tlength < 100000&#xff0c;字符串仅由0~9构成要求: 时间复杂度 O(n)。 结构示例1&#xff1a; 结果示例2&#xff1a; 代码展示&#xff…

在中国,大多数做机器视觉工程师的人的出路是什么?

工程师一直号称是靠技术吃饭&#xff0c;越老越吃香。显然我们机器视觉工程师归属于工程师。 可是这种是一种低级趣味的思维力度。 试问现在程序员难道不是越老越吃香吗&#xff1f; 律师难道不是吗&#xff1f; 银行家难道不是吗&#xff1f; 现在整体经济下滑情况&#xff0…

C++ 菱形继承和虚拟菱形继承

菱形继承和虚拟菱形继承 菱形继承1. 概念2. 产生的问题 虚拟菱形继承1.1 使用1.2 原理 菱形继承 1. 概念 菱形继承是多继承的一个特殊情况&#xff0c;多继承是指一个子类类继承了两个或以上的直接父类&#xff0c;而菱形继承问题的产生是因为该子类的父类&#xff0c;继承了…

超好看的前端特效HTML特效、CSS特效、JS特效(第一期)

超好看的前端特效 1. 粒子组成文字动画特效 文件组成&#xff1a; base.css import url(https://fonts.googleapis.com/css?familyAbrilFatface|Raleway:300,400,900);.coidea-header {position: fixed;display: block;width: 96%;width: calc( 100% - 32px );height: 40px;m…

面试题:Feign第一次调用为什么会很慢?

文章目录 前言Ribbon是如何进行负载的RibbonClientConfigurationZoneAwareLoadBalancerRibbon负载均衡策略Ribbon-eager-load&#xff08;饥饿加载&#xff09;模式开启Ribbon饥饿加载总结 前言 首先要了解 Feign 是如何进行远程调用的&#xff0c;这里面包括&#xff0c;注册…

Fiddler修改https请求与响应 bug修复变灰了选不了等 Fiddle对夜神模拟器抓包设置

不要修改别人的东西&#xff0c;不要修改别人的东西&#xff0c;不要修改别人的东西 只用于自己的网站&#xff0c;自己安全调试。 fiddler修改https请求 1、打到要改的请求 2、替换请求内容 3、开启捕获。操作产生请求。 4、fiddler里查看请求或响应数据 &#xff0c;确认成…

ubuntu20配置mysql8

首先更新软件包索引运行 sudo apt update命令。然后运行 sudo apt install mysql-server安装MySQL服务器。 安装完成后&#xff0c;MySQL服务将作为systemd服务自动启动。你可以运行 sudo systemctl status mysql命令验证MySQL服务器是否正在运行。 连接MySQL 当MySQL安装…

操作系统基础:进程同步【下】

&#x1f308;个人主页&#xff1a;godspeed_lucip &#x1f525; 系列专栏&#xff1a;OS从基础到进阶 1 进程同步⛵1.1 吸烟者问题✈️1.1.1 问题描述✈️1.1.2 问题分析1.1.2.1 关系分析&#xff08;确定同步、互斥关系&#xff09;1.1.2.2 整理思路&#xff08;确定PV操作的…

Golang语言异常机制解析:错误策略与优雅处理

前些天发现了一个巨牛的人工智能学习网站&#xff0c;通俗易懂&#xff0c;风趣幽默&#xff0c;忍不住分享一下给大家。点击跳转到网站https://www.captainbed.cn/kitie。 前言 作为开发者来说&#xff0c;我们没办法保证程序在运行过程中永远不会出现异常&#xff0c;对于异常…

K8S网络

一、介绍 k8s不提供网络通信&#xff0c;提供了CNI接口(Container Network Interface&#xff0c;容器网络接口)&#xff0c;由CNI插件实现完成。 1.1 Pod通信 1.1.1 同一节点Pod通信 Pod通过虚拟Ethernet接口对&#xff08;Veth Pair&#xff09;与外部通信&#xff0c;Veth…

Unity_颜色空间GammaLinear

Unity_颜色空间Gamma&Linear Unity颜色空间的选择对于效果的影响具体有多大&#xff1f; 在ProjectSetting -> Player -> OtherSetting -> Rendering设置下的颜色空间选项卡选择颜色空间进行设置&#xff1a; 太深奥的解释一时半会看不懂&#xff0c;找见一个粗…

jsp 样衣申请与归还管理系统Myeclipse开发mysql数据库web结构java编程计算机网页项目

一、源码特点 JSP 样衣申请与归还管理系统是一套完善的java web信息管理系统&#xff0c;对理解JSP java编程开发语言有帮助&#xff0c;系统具有完整的源代码和数据库&#xff0c;系统主要采用B/S模式开发。开发环境 为TOMCAT7.0,Myeclipse8.5开发&#xff0c;数据库为My…

地理空间分析10——空间数据分析中的地理编码与Python

目录 写在开头1. 地理编码基础1.1 地理编码的基本原理1.1.1 坐标系统1.1.2 地名解析1.1.3 编码算法1.2 Python中使用地理编码的基础知识1.2.1 百度地图API1.2.2 高德地图API1.2.3 腾讯地图API1.3 Python中实现代码2. 逆地理编码2.1 利用Python进行逆地理编码2.1.1 获取高德地图…

地毯填补问题

地毯填补问题 题目描述 相传在一个古老的阿拉伯国家里&#xff0c;有一座宫殿。宫殿里有个四四方方的格子迷宫&#xff0c;国王选择驸马的方法非常特殊&#xff0c;也非常简单&#xff1a;公主就站在其中一个方格子上&#xff0c;只要谁能用地毯将除公主站立的地方外的所有地…

使用最大边界相关算法处理文章自动摘要

一、需求背景 对于博客或者文章来说&#xff0c;摘要是普遍性的需求。但是我们不可能让作者自己手动填写摘要或者直接暴力截取文章的部分段落作为摘要&#xff0c;这样既不符合逻辑又不具有代表性&#xff0c;那么&#xff0c;是否有相关的算法或者数学理论能够完成这个需求呢&…

python给word插入脚注

1.需求 最近因为工作需要&#xff0c;需要给大量文本的脚注插入内容&#xff0c;我就写了个小程序。 2.实现 下面程序是我已经给所有脚注插入了两次文本“幸福”&#xff0c;给脚注2到4再插入文本“幸福” from win32com import clientdef add_text_to_specific_footnotes(…

汽车销量可视化分析

目录 一.分析的背景、目的、意义 1、背景 2、目的 3、意义 二.数据来源 三.图表分析 1、汽车品牌销量柱状图 2、中国汽车销量柱状图 3、汽车销量前10排行柱状图 4、汽车厂商销量折线图 ​编辑5、汽车销量词云图 6、汽车车型销量 7、汽车价格分布雷达图 8、汽车分…

【FAS Survey】《Deep learning for face anti-spoofing: A Survey》

PAMI-2022 最新成果&#xff1a;https://github.com/ZitongYu/DeepFAS 文章目录 1 Introduction & Background1.1 Face Spoofing Attacks1.2 Datasets for Face Anti-Spoofing1.3 Evaluation Metrics1.4 Evaluation Protocols 2 Deep FAS with Commercial RGB Camera2.1 H…

MFC 对话框架构

目录 Win32对话框回顾 对话框架构 无模式对话框架构程序执行过程 Win32对话框回顾 MFC框架中都是无模式对话框&#xff0c;不会阻塞&#xff0c;先回顾一下无模式对话框的创建&#xff1a; 添加对话框资源查找资源&#xff0c;FindResource加载资源&#xff0c;LoadResour…
最新文章