(原标题:一颗“神奇”的芯片)
如果您希望可以时常见面,欢迎标星收藏哦~
来源:内容编译自chipsandcheese,谢谢。
最近,以色列芯片独角兽 NextSilicon 推出了一款新型超级计算机芯片 Maverick-2,定位为 Nvidia 同类产品的直接竞争对手。目前,只有少数几家公司涉足该领域,而 NextSilicon 是其中的一家领先初创公司。据 Calcalist 了解,该公司的新芯片已获得数千万美元的订单。
据 NextSilicon 介绍,Maverick-2 既不是 FPGA,也不是 GPU,而是不同的东西,是一款智能计算加速器 (ICA),引入了智能软件定义的硬件加速,可提供实时适应性。该技术旨在为 HPC、AI 和矢量数据库应用提供卓越的性能和效率。
据报道,Maverick-2 重新定义了加速器架构,突破了基于 80 年前的冯·诺依曼架构的传统固定 GPU 设计的限制。它使用先进的遥测技术和 NextSilicon 的专利算法,根据应用程序的独特需求实时动态调整加速。这种适应性可使组织实现比传统 GPU 性能高出 4 倍以上的每瓦性能和比高端 CPU 性能高出 20 倍以上的每瓦性能,同时将运营成本降低一半以上。
Maverick-2 ICA 旨在专注于 HPC 和 AI 环境中大部分时间运行的关键代码和工作流程。其自优化架构可实现即时、可扩展的性能改进。这是通过创建针对每个应用程序的性能需求量身定制的软件定义处理器核心来实现的,然后在加速器硬件上执行。在应用程序运行时,遥测数据会被输入到 NextSilicon 的智能算法中,以实时不断自我优化性能、功耗和利用率。结果是,对于要求最苛刻的 HPC 应用程序,其性能在规模上是高效的,同时功耗比传统 GPU 低 50-80%。
Intersect360 Research 高级分析师 Steve Conway 表示:“传统的 CPU 和 GPU 架构通常受到高延迟管道和有限的可扩展性的限制。显然,我们需要减少 HPC 和 AI 基础设施中的能源浪费和不必要的计算。NextSilicon 通过 Maverick-2 解决了这些重要问题,这是一种专为满足 HPC 和 AI 的独特需求而构建的新型架构。Maverick-2 旨在打破采用和从传统架构迁移的障碍。”
多年来,替代加速器一直试图挑战传统 GPU 和 CPU 的主导地位,但它们往往难以克服应用程序移植的复杂性和供应商特定框架,从而造成锁定。NextSilicon 的 Maverick-2 ICA 是第一个通过功能强大、用户友好的软件套件突破这些障碍的产品。它原生支持 C/C++、FORTRAN、OpenMP 和 Kokkos 等流行语言,允许许多应用程序无需修改即可在 Maverick-2 上运行。这种软件兼容性和易用性节省了数月的开发工作量,从而缩短了科学和洞察的时间。NextSilicon 致力于为客户应用程序提供全面支持,并计划即将集成 CUDA、HIP/ROCm 和领先的 AI 框架。
Maverick-2 不仅解决了当今 HPC 商业和研究计算挑战,还融入了 NextSilicon 独特的知识产权,以应对不断发展和未来的工作负载。其智能灵活的架构旨在轻松适应融合 HPC-AI 工作负载、矢量数据库应用、AI 模型的突破以及新兴的代理和生成 AI 应用的新用例。
Penguin Solutions 首席技术官 Phil Pokorny 表示:“我们很高兴支持 Maverick-2 智能计算加速器的推出,以及其推动 HPC 市场性能和效率达到新水平的潜力。”“在 Penguin,我们擅长将前沿理念转化为成果——速度更快,规模更大,使我们的客户能够应对最苛刻的工作负载。Maverick-2 的智能软件定义方法补充了我们提供的广泛技术,为组织提供了优化其基础设施并在 HPC 和 AI 方面取得突破性成果的强大选择。随着应用程序复杂性的增加,像 Maverick-2 这样的创新为我们的客户开辟了新的可能性,以加速科学和商业进步。”
NextSilicon 创始人兼首席执行官 Elad Raz 表示:“我很高兴宣布推出 Maverick-2 智能计算加速器,这是计算领域的一项突破性创新。Maverick-2 代表了首创的解决方案,它无缝结合了先进的软件和硬件,以优化在世界上最大的高性能计算系统上运行的最复杂的科学代码。随着我们对更快、更高效的应用程序的需求不断增长,Maverick-2 开启了以前被认为不可能实现的可能性。我要向我们的客户和员工表示最深切的感谢,感谢他们坚定不移的支持和承诺。我们对未来令人难以置信的进步感到兴奋。”
Maverick-2 ICA 目前正在向数十家客户发货,并将于 2025 年初开始批量发货,以满足大量积压订单。NextSilicon 支持各种组织,从美国能源部到领先的学术研究机构,以及金融服务、能源、制造业和生命科学垂直领域的商业客户。现在可以通过合作伙伴 Penguin Solutions 和 Dell Technologies 为新客户提供早期采用者计划。
最近,chipsandcheese采访了这家厂商,让我们看一下,一窥背后的秘密。
George Cozma:请谈谈 NextSilicon,以及为什么您选择 HPC,因为 AI 如今风靡一时。
Elad Raz:所以我们是下一代计算,从加速计算部分开始。我们拥有独特的架构,可以运行任何大规模并行计算。我们决定瞄准超级计算行业,因为这是一个巨大的市场,也是一个服务不足的市场。超级计算是一个 500 亿美元的市场,其中包括存储、互连和所有基础设施。如果你只计算销售的计算芯片、CPU、GPU 和其他加速器的数量,每年就有 200 亿美元。所以这是一个巨大的市场,你可以列出数百个 AI 专用的加速器和 GPU,所以我认为作为一个需要筹集数亿美元的人,最好先展示收入,我认为 HPC 是一个很大的市场。所以我们决定从 HPC 行业开始。
George Cozma:太棒了。说到你们的新芯片 Maverick 2,它有两个 100 千兆以太网端口。我们看到很多关于 400 千兆和即将推出的 800 千兆的新闻头条;100 千兆似乎不多。为什么呢?
Elad Raz:所以你需要了解超级计算的工作原理,与机器学习硬件芯片无关。因为在 AI 芯片中,HBM 中的快速内存数量有限,它们位于芯片的边缘。而且 HBM 的容量有限。你可以在一个芯片上放置 2 TB 的超高速内存。现在 Maverick 2 有 192 GB。有些芯片可以达到 288 GB,这个容量很大。但对于 3500 亿个参数,例如,假设 FP16,你需要 700 GB。所以你可以把整个重量放在一个芯片上。你需要几个。然后它们需要在缩减过程中相互通信。所以互连速度非常快。
我之前的公司被 Mellanox 收购了。所以我一生中的大部分时间都在做互连。超级计算、Infiniband、以太网、Infiniband 上的 RDMA、RoCE、融合以太网上的 RDMA。这非常难。所以你需要考虑产品的方式不是,嘿,你有一个芯片和一个互连解决方案。每个人都会使用你的基于以太网的互连,并开始在其上做 RDMA。这不会发生。但它将服务于金融行业。所以在金融领域,你有高频交易、风险管理,优化点是延迟而不是吞吐量。我们不需要 800 千兆。我们需要的是让数据包非常快地进入处理器核心并将其发送出去。所以到目前为止,我所说的一切都是如何逐步建立一家公司。去 HPC 公司,创造收入,然后转向其他垂直行业。这也是我们对互连的看法。
George Cozma:那么说到芯片的互连供电,我向你保证,我会利用这个技术取得一些进展,你认为这个芯片的 PCIe 总线带宽是多少?
Elad Raz:是的。PCIe 是有限的。PCIe Gen 5 有 16 个通道,速度为每秒 64 GB。这远远不足以输入和输出数据。PCIe Gen 6 的速度将是它的两倍。而且有 112 Gbps 通道,速度不是每秒千兆位。是的,你可以达到每秒 256 GB,但需要一些开销。再说一次,你的 Apple M1 有 500 GB。M1 有 400 GB。现在有了 M4,它上升到每秒 500 多 GB。每秒 550 GB。所以你的笔记本电脑比 PCIe 拥有更多的内存带宽。因此,加速计算的目标是划分工作负载,一些计算将在主机上进行,本地化在主机内存中,而大多数时间你想留在设备上,在芯片上。好的。所以很明显,你想把最新和最好的假设从 CPU 端支持,CXL,PCIe。但我们的架构不受 PCE 的约束,因为我们有这种智能算法,可以找出什么是重要的,并将其放在芯片上。现在,一旦它在芯片上定位,你就会留在芯片上。
George Cozma:说到芯片,从 HBM 到芯片的带宽高达每秒 6.4 TB。您究竟如何使用所有这些带宽?那么这些带宽究竟能实现什么呢?
Elad Raz:当然。曾经有过在 CPU 上添加 HBM(而不是 DDR)的实验。用户很快意识到他们无法使 HBM 带宽饱和,因为如果你仔细想想,假设 CPU 可以每个时钟周期向内存发出加载或恢复命令,并且你已经对所有内容进行了矢量化,并且获得了 512 位,那么也许你可以使 HBM 饱和,对吧?通常,CPU 正在进行计算,你会丢失未命中数据。因此,这就像 64、96 个内核在 HBM 上并行工作,每个 1 到 16 个时钟周期都如此。你无法为它们提供最新的 HBM,对吧?我们有不同的架构。它不是处理器内核。它是硬件加速器,可以发出这些宽内存块并向 HBM 提供数据。
George Cozma:那么说到您的架构,从内存系统来看,这是一个肯定或否定的问题,您的 SRAM 是否分布在所有不同的核心之间?
Elad Raz:是的。
George Cozma:因为它看起来就是这个样子 指着墙上的一张die照片。
Elad Raz:是的,那些是 SRAM。
George Cozma:所以如果你有这个 SRAM,并且它正在移动所有这些数据,因为它是一个空间架构,那么 NOC 是什么,片上网络是什么,它需要多少带宽来移动所有这些数据,比如说如果这个核心 指向芯片左上象限的处理器单元 需要访问该内存通道 指向芯片右下角的 HBM PHY?
Elad Raz:所以我们称之为——请原谅我使用像垃圾因素这样的语言,因为你不希望核心的一侧与另一侧通信。你想让一切都保持本地化。如果你看到这里,那些 NOC 屏障,它们实际上是两者之间的屏障。你会受到惩罚,导致这些瓷砖相互接触。好的。所以有一个惩罚。
而损失是以延迟而不是吞吐量来衡量的。我们设计了一个 NOC,您可以获得完整的吞吐量。但即便如此,您也不想四处走动。是的,我当然会实现。现在大多数专业架构都运行领域特定语言,对吧?例如,您需要为 AMD 编写 ROCm 或为 Nvidia 编写 CUDA。而 AI 初创公司,每个都有自己的语言,这很好。您可以在这些加速器中看到的事情之一就是内存的工作方式。您不能使用 C++ 或全时架构的原因是它不是缓存一致的。好吗?因此,在语言内部,有一个共享内存的概念,这是 CUDA 中的名称。在 LLVM 中,它是地址空间,地址空间 3,也就是说,这是一个本地化内存。处理器代码,与之对话。如果您想访问另一个,您需要执行 DMA 并移动数据。显然我们有这个功能,因为我们可以运行 CUDA、ROCm 和其他。但是如果你运行 C++ 代码会发生什么?
智能计算机架构的最后一点是,你可以在运行时优化这些功能并本地化数据,这样这些数据流图中的每一个都可以相互通信,并且数据将保持本地化。是的,如果你偶尔有一个地址命令发送到另一个芯片,那么你就会有延迟损失。但总的来说这并不重要。
George Cozma:现在,正如您所讨论的程序和数据,它们是一种具有空间架构的已知量,只是试图将程序装入芯片,从历史上看,这非常困难,因为您永远没有足够的 SRAM 来容纳整个程序。您如何尝试解决无法容纳整个程序的问题——因为程序是数据,您无法容纳所有程序,而您要处理数据,您如何解决这个问题?
Elad Raz:是的。所以我们有了可能流和不可能流的概念。可能流是大多数时候发生的计算内核。那些是循环。循环不存储在内存中。它们不存储在 SRAM 或 HBM 中。它们不是处理器代码。我这里没有指令、提取用法和复杂的分支预测。它们就像根本没有分支预测器一样。有一个数据流。而且我有限制——我们不想进入架构内部。所以现在,我们只是保持它——我的意思是,想象一个 FPGA,但就像用于软件的 FPGA,类似的东西。它的工作方式是——重新配置正在改变每个计算图旁边的不同 ALU。然后你像函数图一样在芯片内部蚀刻。然后你在数据处理时提取数据。每个时钟,都有新数据输入,新数据输出。所以在编译器代码中有一个概念,同一个程序,多个数据(SPMD)。
例如,您确实有一些函数,没有共享矢量化指令的概念。没有非常长的指令状态,因为数据流上可以有很多类型。我的意思是,它只是不同而已。这就像一个思维混乱,因为您需要以不同的方式思考它。它正在旋转计算架构,并说这是执行大规模并行应用程序的正确方法。我们能够破解它。
George Cozma:太棒了。那么我们的最后一个问题,或者说我的最后一个问题是,您最喜欢哪种奶酪?
Elad Raz:好吧,我先说说我最讨厌的奶酪,那就是意大利乳清干酪。我妻子很喜欢。有一次她直接把它塞进我嘴里,我不喜欢。但我最喜欢味道很臭的奶酪,蓝奶酪。例如,丹麦蓝奶酪就是我最喜欢的。
https://chipsandcheese.com/p/nextsilicon-putting-hpc-first
半导体精品公众号推荐
专注半导体领域更多原创内容
关注全球半导体产业动向与趋势
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第3961期内容,欢迎关注。
『半导体第一垂直媒体』
实时 专业 原创 深度
公众号ID:icbank
喜欢我们的内容就点“在看”分享给小伙伴哦