冯诺依曼架构，过时了吗？_财经频道

（原标题：冯诺依曼架构，过时了吗？）

如果您希望可以时常见面，欢迎标星收藏哦~

来源：内容编译自IBM，谢谢。

众所周知，人工智能计算耗能巨大。部分原因是需要处理的数据量巨大。训练通常需要数十亿或数万亿条信息来创建具有数十亿个参数的模型。但这并不是全部原因——这也与大多数计算机芯片的构造方式有关。

现代计算机处理器在执行通常需要处理的离散计算方面非常高效。虽然当它们必须等待数据在内存和计算之间来回移动时，它们的效率会急剧下降，但它们的设计目的是快速切换到一些不相关的任务。但对于人工智能计算来说，几乎所有任务都是相互关联的，因此当处理器陷入等待状态时，通常没有多少其他工作可以做，IBM 研究科学家 Geoffrey Burr 说。

在这种情况下，处理器会遇到所谓的冯·诺依曼瓶颈，即数据传输速度慢于计算速度时发生的滞后。这是冯·诺依曼架构的结果，过去六十年来几乎每个处理器都采用这种架构，其中处理器的内存和计算单元是分开的，通过总线连接。这种设置具有优势，包括灵活性、对不同工作负载的适应性以及轻松扩展系统和升级组件的能力。这使得这种架构非常适合传统计算，而且它不会很快消失。

但对于操作简单、数量众多且高度可预测的人工智能计算而言，传统处理器在等待模型权重从内存中来回传输时，最终无法发挥其全部能力。因此行业专家使用各种策略来打破冯·诺依曼瓶颈并增强人工智能计算能力。

为什么存在冯诺依曼瓶颈？

冯·诺依曼瓶颈以数学家和物理学家约翰·冯·诺依曼的名字命名，他于 1945 年首次提出了存储程序计算机构想的草稿。在那篇论文中，他描述了一种计算机，它有处理单元、控制单元、存储数据和指令的内存、外部存储器以及输入/输出机制。他的描述中没有提到任何具体的硬件——可能是为了避免与他担任顾问的美国陆军产生安全审查问题。然而，几乎没有任何科学发现是由一个人完成的，冯·诺依曼架构也不例外。冯·诺依曼的工作基于 J. Presper Eckert 和 John Mauchly 的工作，他们发明了世界上第一台数字计算机电子数字积分计算机 (ENIAC)。自那篇论文发表以来，冯·诺依曼架构已成为常态。

IBM 研究科学家 Manuel Le Gallo-Bourdeau 表示：“冯·诺依曼架构非常灵活，这是它的主要优势。这就是它最初被采用的原因，也是它至今仍是主流架构的原因。”

离散内存和计算单元意味着您可以单独设计它们，并按您想要的方式配置它们。从历史上看，这使得设计计算系统变得更加容易，因为可以根据应用程序选择和配对最佳组件。

即使是与处理器集成在单个芯片中的缓存，也可以单独升级。“我确信，当你设计新的缓存时，处理器会受到影响，但这并不像将它们结合在一起那么困难，”Le Gallo-Bourdeau 说。“它们仍然是分开的。这允许在设计缓存时与处理器分开，有一定的自由度。”

冯·诺依曼瓶颈如何降低效率

对于 AI 计算而言，冯·诺依曼瓶颈会造成双重效率问题：需要移动的模型参数（或权重）的数量，以及它们需要移动多远。IBM 研究科学家 Hsinyu (Sidney) Tsai 表示，模型权重越多意味着存储量越大，这通常意味着存储距离越远。“由于模型权重的数量非常大，您无法长时间保存它们，因此您需要不断丢弃和重新加载，”她说。

AI 运行时的主要能源消耗用于数据传输——将模型权重从内存传输到计算。相比之下，计算所消耗的能源较少。例如，在深度学习模型中，运算几乎都是相对简单的矩阵向量乘法问题。Tsai 表示，计算能源仍占现代 AI 工作负载的 10% 左右，因此不可忽略。她补充道：“与传统工作负载不同，计算能源不再主导能源消耗和延迟。”

Le Gallo-Bourdeau 表示，大约十年前，冯·诺依曼瓶颈问题并不严重，因为处理器和内存效率不高，至少与传输数据所耗费的能量相比是这样。但多年来，数据传输效率并没有像处理和内存那样提高那么多，所以现在处理器可以更快地完成计算，而当数据跨越冯·诺依曼瓶颈时，处理器处于闲置状态。

内存距离处理器越远，移动它所需的能量就越多。从基本的物理层面上讲，铜线充电以传播 1，放电以传播 0。充电和放电所消耗的能量与电线的长度成正比，因此电线越长，消耗的能量就越多。这也意味着更大的延迟，因为电线越长，电荷消散或传播所需的时间就越长。

不可否认的是，每次数据传输的时间和能源成本都很低，但每次你想通过大型语言模型传播数据时，你需要从内存中加载多达数十亿个权重。这可能意味着使用一个或多个其他 GPU 的 DRAM，因为一个 GPU 没有足够的内存来存储它们。将它们下载到处理器后，它会执行计算并将结果发送到另一个内存位置进行进一步处理。

除了消除冯·诺依曼瓶颈之外，还有一个解决方案就是缩短这一距离。“整个行业都在努力尝试改善数据本地化，”蔡说。IBM 研究部门的科学家最近宣布了这样一种方法：用于共封装光学器件的聚合物光波导。该模块将光纤的速度和带宽密度带到了芯片的边缘，增强了其连接性，并大大减少了模型训练时间和能源成本。

然而，在目前可用的硬件条件下，所有这些数据传输的结果是，训练一个 LLM 很容易需要几个月的时间，消耗的能量比美国一个普通家庭在这段时间内消耗的能量还要多。而且人工智能在模型训练后仍需要能量。推理也有类似的计算要求，这意味着冯·诺依曼瓶颈以类似的方式减慢了它的速度。

图示：a. 在传统计算系统中，当对数据 D 执行操作 f 时，必须将 D 移入处理单元，从而导致延迟和能耗的大幅增加。b. 在内存计算的情况下，f(D) 利用存储设备的物理属性在计算存储单元内执行，从而无需将 D 移至处理单元。计算任务在存储器阵列及其外围电路的范围内执行，尽管无需解密各个存储器元件的内容。基于电荷的存储器技术（例如 SRAM、DRAM 和闪存）和基于电阻的存储器技术（例如 RRAM、PCM 和 STT-MRAM）都可以作为这种计算存储单元的元素。

突破瓶颈

Le Gallo-Bourdeau 表示，在大多数情况下，模型权重是固定的，AI 计算以内存为中心，而不是计算繁重。“你有一组固定的突触权重，你只需要通过它们传播数据。”

这种特性使他和他的同事能够进行模拟内存计算，将内存与处理集成在一起，使用物理定律来存储权重。这些方法之一是相变存储器 (PCM)，它将模型权重存储在硫属化物玻璃的电阻率中，通过施加电流来改变电阻率。

Le Gallo-Bourdeau 表示：“这样，我们就可以减少数据传输所消耗的能量，并缓解冯·诺依曼瓶颈。”不过，内存计算并不是解决冯·诺依曼瓶颈的唯一方法。

值得注意的是，在冯·诺依曼硬件上训练的模型可以在非冯·诺依曼设备上运行。事实上，对于模拟内存计算来说，这一点至关重要。PCM 设备的耐用性不足以让其权重反复改变，因此它们用于部署在传统 GPU 上训练过的模型。耐用性是 SRAM 内存在近内存或内存计算中的比较优势，因为它可以无限重写。

为什么冯·诺依曼计算不会消失

虽然冯·诺依曼架构会成为 AI 计算的瓶颈，但对于其他应用来说，它却非常适合。当然，它会在模型训练和推理中造成问题，但冯·诺依曼架构非常适合处理计算机图形或其他计算量大的过程。当需要 32 位或 64 位浮点精度时，内存计算的低精度无法胜任这项任务。

“对于通用计算而言，没有什么比冯·诺依曼架构更强大的了，”伯尔说。在这种情况下，字节要么是操作，要么是操作数，它们在总线上从内存移动到处理器。“就像一家多功能熟食店，有人可能会点一些萨拉米香肠或意大利辣香肠或这个或那个，但你可以在它们之间切换，因为你手头有合适的配料，你可以轻松地连续做六个三明治。”另一方面，专用计算可能涉及一个订单的 5,000 个金枪鱼三明治——就像人工智能计算一样，它会传递静态模型权重。

Le Gallo-Bourdeau 表示，尽管科学家和工程师们正在努力寻找消除冯·诺依曼瓶颈的新方法，但专家们一致认为，未来可能会同时采用这两种硬件架构。“合理的方法是混合使用冯·诺依曼和非冯·诺依曼处理器，让它们各自处理自己最擅长的操作。”

https://research.ibm.com/blog/why-von-neumann-architecture-is-impeding-the-power-of-ai-computing

半导体精品公众号推荐

专注半导体领域更多原创内容

关注全球半导体产业动向与趋势

*免责声明：本文由作者原创。文章内容系作者个人观点，半导体行业观察转载仅为了传达一种不同的观点，不代表半导体行业观察对该观点赞同或支持，如果有任何异议，欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第4035期内容，欢迎关注。

『半导体第一垂直媒体』

实时专业原创深度

公众号ID：icbank

喜欢我们的内容就点“在看”分享给小伙伴哦