人工智能时代下的存算一体硬件架构发展-张鑫博士

2020-12-15

技术进步使得计算的成本降低,使其几乎可以包含在任何东西中。因此,我们现在生活在一个被计算设备包围的世界。它们为我们在 Google 上的搜索提供动力、连接我们在 Facebook 上的朋友、回答我们在 Siri 上的问题,并在 Youtube上为我们提供娱乐;它们遍布我们家中的所有设备,所有家用电器,汽车,工作场所,甚至是我们互相发送的卡片中。我们已经习惯了计算变得更快、更便宜和功耗更低,我们只是假设这种情况会继续下去。当前,眼镜 [1] 和智能手表 [2] 甚至都已经嵌入了智能手机的功能 [3] 。


尽管扩展计算性能从来都不是一件容易的事,但在过去的十年中,许多因素使得扩展性能变得越来越困难,并且导致功耗成为性能的主要约束。社会信息化快速发展带来的数据量越来越大、计算速率要求越来越高的现实挑战着现代计算机的计算能力。随着摩尔定律遭遇危机 [4] 、并行计算的并行度存在极限等问题,硬件架构不能一股脑扎进计算量一大就扩展 CPU、存储量一大就堆砌内存的传统思维,陷入对过去架构的严重依赖。我们可以大胆思考是不是高效服务了人类计算需求的存储和计算分离的冯氏架构本身就不匹配当代的人工智能(AI)等先进技术,只是科技人员强大的迭代优化能力令其性能持续提升到今天的高度。存算一体是一种试图通过设计在内存中直接进行计算的系统来消除困扰当前冯氏架构中计算和存储分离的能量密集和耗时的数据移动的方法,日益增大的存储墙剪刀差、占比越来越严重的访存功耗、人工智能应用对数据访问的大需求等方面的原因将导致存算一体的发展成为一种必然趋势 [5] 。


存算一体需要融合处理器和存储器,但现阶段处理器与主流存储器的制造工艺不同,如果要在处理器上实现存储器的功能,可能会降低存储器的存储密度;反之,在存储器上实现处理器的功能,则可能会影响处理器的运行速度,这个矛盾暂时无法得到很好的解决。新兴的一些可微缩至纳米级尺寸的非易失性存储器件(也被称为忆阻器)的出现带来了曙光 [6,7] ,虽然其工艺标准还不成熟,但很多专家认为其具备对存储和计算的天然融合特性,是构建计算存储一体化的最佳器件[8] 。


如图 1 所示,传统的计算架构面临着包括热墙(Heat wall)、存储墙(Memorywall)和摩尔定律(Moore’s law)终结等严峻挑战。而忆阻器技术的发展可能提供一种替代途径,使混合记忆逻辑集成、生物启发计算和有效的可重构存算一体计算系统成为可能 [9] 。图中 CMOS(complementary metal-oxide-semiconductor)为金属氧化物 半导体,GPU(graphics processing unit)为图形处理单元,CPU(centralprocessing unit)为中央处理单元。GPU 和 CPU 均为采用 CMOS 技术设计的基于存算分离冯氏架构的传统计算单元。

image.png

图 1  面向未来计算解决方案的竞赛 [9]


基于新型非易失性器件(如阻变存储器 RRAM [6,10] 和相变存储器 PCM [7,11] 等)的交叉点阵列结构天然的为模拟的矩阵向量乘法(AI 技术中的核心运算)提供了硬件加速器,从而为克服现有的基于冯氏架构的计算方法的局限性提供了一种有前景的方法 [12] 。研究表明,通过内存中的模拟数据存储和物理计算(基尔霍夫定

律和欧姆定律),基于交叉点阵列的模拟电路可以一步求解矩阵向量乘法(Matrix-vector multiplication, MVM),以及线性方程组和矩阵特征向量等广泛的代数问题,而无需耗时耗能的迭代操作 [5, 13] 。图 2 阐述了交叉点阵列中的矩阵向量乘法概念,其中 V j 为施加到第 j 列的电压,j=1, 2, 3..., N , N 为交叉点阵列的总列数。每一单元被所施加电压诱导的电流汇入接地的行,第 i 行产生的总电流为其中 G ij 为第 i 行第 j 列单元的电导值。式(1)为电导矩阵 G ij 和电压向量 V j 的模拟乘积,从而实现基于硬件的 MVM 操作。与传统计算机中耗时耗力的数字乘法累加操作不同,受益于欧姆定律和基尔霍夫定律,交叉点阵列中的模拟 MVM 只需一步即可完成 [5] ,具有非常大的优势和应用潜力。虽然无需迭代对于快速计算来说是一个非常吸引人的特性,并且适用于在很多情况下必须在短时间内解决、具有低能量预算和足够容错能力的线性代数问题,但目前实现方案的稳定性和精度还无法与高精度数字计算机的稳定性和浮点解的精度相比。而低精度规整数特的人工神经网络计算刚好适宜于采用模拟 MVM 实现,从神经形态计算应用出发,有了落地场景之后,通过技术迭代,实现未来与数字计算相比拟的精度和稳定性计算能力,并具有更高地能效。

image.png

图 图 2  交叉点阵列中的模拟计算示意图 [5]


总体来看,提升存储和计算能力,将一直成为重要的发展方向。新兴非易失性器件的出现以及忆阻器技术的发展,使得存算一体架构已经成为未来提升计算能力的主要方向。有研究表明,于忆阻器的交叉点阵列芯片能够在实验室测试完成图像识别任务,具有相对于传统存算分离架构更低的功耗和更高的速度等优势 [14] 。未来,计算存储趋于融合之大势,不过真正实现、甚至广泛商用,仍需时日 [8] 。

参考文献:

[1] http://www.google.com/glass/start/

[2] https://getpebble.com

[3] Horowitz, M. Computing’s energy problem (and what we can do about it). 2014 IEEE Int.Solid-State Circuits Conf. Digest Tech. Papers (ISSCC)

[4] Waldrop M M. The chips are down for Moore’s law. Nature, 2016, 530(7589): 144-147.

[5] Lelmini D, et al. In-memory computing with resistive switching devices. Nat. Electron.,2018, 1(6): 333-343.

[6] Dmitri B , Strukov, Gregory S , et al. The missing memristor found. Nature, 2008, 453:80-83.

[7] Sebastian A, et al. Crystal growth within a phase change memory cell. NatureCommunications, 2014, 5(4314): 1-9.

[8] http://www.sangfor.net/about/source-news-product-news/1852.html

[9] Zidan M A , Strachan J P , Lu W D. The future of electronics based on memristive systems.Nature Electronics, 2018, 1(1):22-29.

[10] Li C, et al. Analogue signal and image processing with large memristor crossbars. Nat.Electron., 2018, 1(1): 52-59.

[11] Ding K K, et al. Phase-change heterostructure enables ultralow noise and drift for memoryoperation. Science, 2019, 366(6462): 210-+.

[12] 林钰登等. 基于新型忆阻器的存内计算. 微纳电子与智能制造,2019, 1(2): 35-46.

[13] Sun Z, et al. Solving matrix equations in one step with cross-point resistive arrays. PNAS,2019, 116(10): 4123-4128.

[14] Yao P , Wu H , Gao B , et al. Fully hardware-implemented memristor convolutional neuralnetwork. Nature, 2020, 577: 641-646.