(原标题:Jim Keller的RISC-V工作站实测)
公众号记得加星标,第一时间看推送不会错过。
提到人工智能基础设施,Tenstorrent 可能不是人们首先想到的名字。但与众多争夺风险投资和英伟达市场份额的人工智能芯片初创公司不同,Tenstorrent 的芯片实际上已经走出了实验室。
如果您有点特立独行,想要打破常规,Tenstorrent 的组件和系统随时可供任何有需要的人使用。事实上,您或许会惊讶地发现,该公司已经推出了三代基于 RISC-V 的加速器,旨在为开源社区积蓄力量。
他们的理念是提供性能合理的加速器,能够高效地从单卡扩展到 32 芯片系统甚至更大,而成本仅为 AMD 或 Nvidia 同类 GPU 设备的成本的一小部分。
El Reg近日有幸亲身体验了这家初创公司迄今为止最强大的系统之一——一台售价 11,999 美元的液冷式 AI 工作站Blackhole QuietBox。这台重达 80 磅(36 公斤)的机器本质上是这家芯片初创公司即将推出的 Blackhole Galaxy 服务器的精简版,后者预计将于明年发布。它的设计用途是作为开发平台,用于学习架构、移植现有代码库以及优化模型内核,然后再将其部署到生产系统中。
而且,由于这台机器使用了与Tenstorrent Galaxy服务器相同的芯片、内存和互连技术,理论上,其性能可以无缝扩展到整个系统——这在目前大多数AI工作站中并不常见。当然,你也可以在配置类似的工作站中塞入四块RTX 5000 ADA或Radeon Pro AI R9700显卡,从而获得与QuietBox相近的性能,但这些系统的性能特征与你的代码最终运行的GB200机架或MI350服务器截然不同。
这就是英伟达定期推出DGX Station这类产品的原因之一,这些产品将数据中心级产品中使用的CPU和GPU塞进更适合办公环境的机箱中。话虽如此,我们完全预期英伟达下一代基于Blackwell Ultra的DGX Station的售价将是Tenstorrent QuietBox售价的数倍。
如果你正在寻找一款能够运行本地AI推理或对中小规模模型进行微调的工具,那么Tenstorrent的QuietBox可能并不适合你。我们预计这种情况会有所改变,但就目前而言,该公司的软件栈对于大多数本地AI爱好者来说还不够完善。
然而,对于有兴趣探索 Tenstorrent 的硬件架构和软件栈的机器学习软件开发人员,或者那些希望在生产中部署这家初创公司芯片的开发人员来说,像 Blackhole QuietBox 这样的系统提供了一个相对低成本的切入点,可以进入该公司基于 RISC-V 的加速器生态系统。
TT-QuietBox 开箱
Tenstorrent 的 QuietBox 不仅设计精美,外观也同样引人注目。这台机器运行安静,但它那醒目的蓝条纹涂装却绝非如此。Tenstorrent 打造出这样一款极具辨识度的机器,值得满分好评。
QuietBox,无论是我们这里看到的黑洞版,还是较早的基于虫洞的版本,都采用了定制机箱,散热器位置和前置水箱让我们想起了 Lian Li 的O11 Dynamic机箱。
机箱内部就像一个烟囱,底部通过一个 400 毫米的散热器吸入冷空气,顶部则通过另一个 400 毫米的散热器排出。这听起来可能有点夸张,但这些散热器要承载近 1200 瓦的加速器功率,更不用说 CPU、系统内存和存储设备产生的热量也需要散发出去。
这种设计方案仅需四个 Noctua 200 毫米风扇即可完成整机散热,既名副其实地保持了高性能,又有效控制了噪音水平。而这正是该系统的设计初衷。Tenstorrent 希望为用户打造一款高性能计算平台,让他们乐于将其摆放在桌面上。
它的确很安静,但并非完全无声。风扇噪音从轻柔的嗡嗡声到类似桌面电暖器的声音不等,考虑到QuietBox的内部构造,这样的描述可谓恰如其分。在我们的测试中,加速器的温度从未超过70摄氏度,但这主要是因为所有1300多瓦的热量都散发到了房间里。
在散热器之间夹着一块来自华擎机架的 Epyc 服务器主板,它为加速器提供连接,并提供几个 10 千兆以太网连接,用于本地网络访问。
Tenstorrent 没有选择像 Intel Xeon-W 或 AMD Threadripper 这样的典型工作站 CPU,而是选择了 Zen 架构的 Epyc Siena 8124P。这款 125 瓦的芯片拥有 16 个 Zen4C 核心——“C”代表紧凑——在负载下最高可睿频至 3 GHz。
CPU 由 8 条 64 GB DDR5 4800 RDIMM 内存条供电(其中 6 个通道中的 1 个通道以每通道 2 条 DIMM 内存条的模式运行),总容量为 512 GB,内存带宽略高于 200 GB/s。
在CPU散热板下方,我们可以看到QuietBox的主要亮点:四颗Tenstorrent Blackhole P150加速器。这些芯片加起来拥有超过3 petaFLOPS的FP8密集运算性能。
我们在 2024 年的 HotChips 大会上仔细研究了 Tenstorrent 的Blackhole 架构,简而言之,每个 300 瓦的芯片都集成了 752 个“迷你”RISC-V 处理器核心,这些核心构成了芯片的 140 个 Tensix 处理器核心 (T) 到内存 (D)、PCIe (P) 和以太网 (E) 控制器的一切。
该芯片还配备了16个SiFive公司的Intelligence x280核心,这些核心除了能够处理难以并行化的操作外,还能运行Linux系统。我们未能对此进行测试,但理论上这应该能让Blackhole作为一台独立计算机运行。
该芯片的Tensix核心协同工作,可提供约774万亿次浮点运算/秒(TFLOPS)的密集FP8计算能力,或使用Tenstorrent的四位或八位块浮点数据类型时提供387万亿次浮点运算/秒(TFLOPS)的计算能力。这种计算能力与32GB的GDDR6显存相匹配,可提供512GB/s的内存带宽。系统中共有四个这样的芯片。但是,正如您将看到的,实际利用如此高的性能和带宽却并非易事。
如果您觉得花近 12,000 美元购买像 QuietBox 这样的完整系统有点超出您的预算,Tenstorrent 也出售售价 1,399 美元的风冷(主动式和被动式)版本显卡。或者,如果您只需要一张显卡,可以选择售价 999 美元的更便宜、性能稍低的版本,该版本不具备芯片间联网功能,内存也只有 28 GB。
规模化
P150 并非依赖 PCIe 5.0 或 Nvidia 的 NVLink 等专有互连技术,而是为每张显卡配备了四个 QSFP-DD 插槽,可通过以太网为系统中的其他显卡提供 800 Gbps 的高速连接。或者说,某种程度上来说,它并非标准的以太网接口。Tenstorrent 警告称,这些接口仅用于芯片间的通信,不能直接连接到交换机。
通常以太网的速度不足以满足扩展网络的需求,但是,每个 P150 加速器的总带宽为 3,200 Gbps,其互连带宽几乎与 Nvidia H100 相当(400 GB/s 对 450 GB/s)。
对于 QuietBox,Tenstorrent 建议采用如下图所示的 2D 环形拓扑结构,并使用系统附带的八根 0.5 米长的直连铜缆。
这些线缆设计简洁优雅,但价格不菲,每根售价约 200 美元。我们不禁想到,如果采用 NVLink 式桥接连接器,成本可能会更低。不过,QSFP-DD 接口意味着这些网卡可以轻松扩展到 8 块、16 块甚至更多。想把几块 QuietBox 网卡连接起来?完全没问题。
更重要的是,该架构意味着在 P150 或 QuietBox 上开发的任何代码都可以通过不同程度的流水线、张量、数据和/或专家并行性直接应用于更大的集群。
事实上,如果你仔细观察P150的核心布局,你会发现芯片的14个以太网核心中只有8个处于激活状态。我们推测,未来版本的芯片将支持更大的拓扑结构。例如,Tenstorrent的Blackhole Galaxy就将32个加速器排列成4x8的网状结构。
Blackhole Galaxy 预计将提供约 25 petaFLOPS 的密集型 FP8 性能、1TB 的 GDDR6 显存以及 16TB/s 的总带宽。为了便于理解,配备八个 GPU 的 DGX H100 的密集型 FP8 性能略低于 16 petaFLOPS,拥有 640GB 的 HBM3e 显存,但内存带宽为 26.8TB/s。Nvidia 的 Blackwell 和 AMD 的 MI350 系列系统则处于另一个级别,价格也与之相符。
但这指的是单个节点。Tenstorrent 的互连架构意味着它可以扩展到机架甚至更大规模。在机架级配置中,我们可以设想一个包含 192 个加速器的系统。如果再添加一些光收发器来增强传输距离,理论上该平台可以扩展到多个机架,容纳数千个加速器。
这正是这家初创公司所说的“Blackhole 无限可扩展性”的真正含义。事实上,它的架构更接近谷歌和亚马逊构建 TPU 和Trainium 集群的方式,
初始设置
QuietBox 的设置与配置普通台式机或工作站略有不同。
首先,它没有独立显卡——至少不是传统意义上的独立显卡。取而代之的是,您可以选择使用主板集成显卡(通过附带的VGA转HDMI适配器),或者使用系统的IPMI接口通过网络进行远程控制。
此外,还需要按照下图所示连接加速器线路。
一切准备就绪后,我们就可以启动系统了。Tenstorrent 指出,首次启动可能需要 10 分钟以上。这对于 Epyc 系统来说是正常的,尤其是那些配备大容量内存的系统,但这可能会让新手措手不及,因此 Tenstorrent 的提醒是合理的。
这台机器出厂预装了Ubuntu Desktop 22.04 LTS操作系统。由于我们知道与系统的所有交互都将通过终端进行,因此我们选择安装OpenSSH,以便可以通过网络远程访问它。
Tenstorrent 提供了一个自动安装脚本,确保所有依赖项都已安装,设备固件完全更新,并且连接网卡的以太网网状网络正常工作。
该脚本主要涉及回答几个“是/否”问题,其中大部分问题您都会回答“是”。遗憾的是,在我们最初的设置中,最近对软件包命名的更改导致脚本出错。
事实证明,这预示着 Tenstorrent 其余软件栈的发展方向。
总之,重启后(又花了大约八分钟),我们运行了 Tenstorrent 的诊断工具tt-smi,并确认所有卡都已正确检测到。
四张显卡都如预期显示,但显然 `tt-smi` 对我们的 Blackhole 显卡识别不太准确。除了被识别为 Tenstorrent 的被动散热 P150b 芯片外,TT-SMI 的许多字段要么空白要么缺失。这有点令人不安,但显然这是正常现象,无需担心。
模型演示
Blackhole 不是 GPU。这意味着你不能像往常一样直接在 Ollama 或 Llama.cpp 之类的程序中启动模型。好在 Tenstorrent 的入门指南提供了许多演示,其中包括在 TT-Inference-Server 中运行 LLM 的示例。
这个过程相当简单直接,而且借助几个方便的辅助脚本,可以自动选择合适的硬件型号和标志。
整个过程大约耗时 45 分钟左右。大部分等待时间都花在了下载大约 140 GB 的模型文件以及将其转换为 Tenstorrent 硬件使用的 4 位和 8 位块浮点数据类型上。
最终,我们得到了一个与 OpenAI 兼容的 API 端点,我们可以将其指向前端(例如 Open WebUI),并开始向系统发出指令。
由于 LLM 推理是此类硬件的主要用例之一,因此很高兴看到 Tenstorrent 将 TT-Inference-Server 的文档放在了最重要的位置,即使其性能尚未完全达到要求。
除了 LLM 服务演示之外,Tenstorrent 还提供了一个容器化环境,用于运行 `tt-metallium-demos` 来启动模型演示。
这省去了下载和处理运行所需依赖项的繁琐过程。经过一番努力,我们成功运行了多种模型,包括 ResNet50、BERT、稳定扩散 1.4 以及 Boltz 2 结构生物学基础模型(该模型旨在预测蛋白质结构和结合特性)。
遗憾的是,要找到这些演示程序,需要费力地在 Tenstorrent 的 TT-Metal GitHub 代码库中查找。即使找到了,能否运行也全凭运气,而且也没有任何文档可以帮助我们弄清楚原因。
我们非常希望看到更多像 Tenstorrent 的 LLM 服务指南这样的操作手册和教程,用于流行的 genAI 工作负载,例如图像生成、文本和图像分类、目标检测、语音转录和微调等等。
新用户不应该为了运行演示程序而费力地搜索 GitHub 代码库或解读代码注释。几个简单易懂的教程就能极大地吸引开发者和学生的兴趣。这也能让 Tenstorrent 有机会突出其硬件的优势,鉴于软件栈整体尚不成熟,这些优势并不总是显而易见的。
Tenstorrent的软件理念
过去几年里,有一点已经变得非常清楚:如果你的 GPU 或 AI ASIC 在纸面上看起来多么出色,如果没有人能够或愿意对其进行编程,那么这一切都毫无意义。
针对这一挑战,Tenstorrent采取了多管齐下的策略。首先,其软件栈完全开源。其次,它正在开发类似于Nvidia CUDA的底层API接口,以及用于运行现有PyTorch、JAX或Onnx模型的高级编译器。
这使得 Tenstorrent 与许多人工智能芯片初创公司截然不同,这些初创公司起初可能也渴望拥有如此全面的软件堆栈,但最终交付的却只不过是一个 LLM 推理服务器或 API 服务。
Tenstorrent 软件栈的最底层是其底层内核环境 (TT-LLK),它几乎与在裸机上进行编程一样接近。
再上一层是 TT-Metalium(简称 TT-Metal),它提供了一个底层 API,用于用 C 或 C++ 为 Tenstorrent 硬件编写自定义内核。您可以将 TT-Metal 看作是 Nvidia 的 CUDA 或 AMD 的 HIP 的同类产品。但是,尽管 TT-Metal 提供了对硬件特性的底层访问,但它也带来了一种新的编程模式。
TT-Metal 之上是 TT-NN,这是一个向用户公开受支持的神经网络操作的库,无需用户深入了解底层硬件。这些库既兼容标准 Python 也兼容 C++,并为运行 AI 模型提供了一个更高级别的程序环境。
据我们所知,Tenstorrent 的大部分模型实现都基于 TT-Metal 和 TT-NN 框架。例如,Tenstorrent 的 Transformers 和 vLLM 实现都运行在 TT-NN 之上。
毫无疑问,这些层面的编程复杂性是导致添加对新模型的支持耗时如此之久的原因,因为每个模型都需要手动编写自定义内核。
这些挑战并非TensorRent独有。这也是PyTorch、TensorFlow和JAX近年来如此流行的原因之一。它们为加速计算提供了一个与硬件无关的抽象层。
然而,由于 Blackhole 与现代 GPU 完全不同,使用这些相同的框架意味着 Tenstorrent 需要一个编译器。
该公司正在开发一种名为 Forge 的基于多级中间表示 (TT-MLIR) 的编译器。其理念是,TT-Forge 可以将 PyTorch、JAX 或其他模型转换为中间表示。然后,TT-Metal 可以使用这种中间表示为底层硬件编译兼容的内核。
Forge目前处于测试阶段,显然正在积极开发中。如果一切顺利,TT-MLIR和Forge将使用户无需手动编写自定义内核来支持新模型。正如我们从类似项目中看到的那样,其性能可能不如面向TT-NN或TT-Metal,但对于扩大Tenstorrent的潜在市场而言,这将大有裨益。
人工智能性能
目前市面上的 Tenstorrent Blackhole 加速器,包括 QuietBox,都是开发套件,这使得性能比较有些棘手。这些硬件的目的并非直接与 Nvidia 或 AMD 的 GPU 竞争(至少目前如此),而是为了让用户能够为 Tenstorrent 硬件编写软件。
这家初创公司的软件栈发展迅猛,性能提升的成果几乎每天都会提交到 GitHub。正如我们之前看到的 AMD ROCm 6.0 库一样,软件对推理和训练性能的影响远大于硬件本身。AMD 在短短一年半的时间里,就将MI300X 的推理性能提升了三倍。我们完全相信,随着时间的推移,Tenstorrent 也能带来类似的性能提升。
但这意味着我们在此分享的任何基准测试结果都将过时。因此,以下数据应被视为截至 2025 年 11 月 Blackhole P150 和 QuietBox 性能的快照,而非这些加速器最终性能的定论。
LLM推理性能
对于黑洞加速器,我们使用TT-Transformers库和 Tenstorrent 的vLLM 分支测试了 LLM 的性能。我们也尝试了 TT-Inference-Server,但发现它与使用 vLLM 相比并没有明显的优势。
对于大多数 LLM 推理工作负载,Tenstorrent 使用 4 位或 8 位块浮点数据类型,这与 OCP 的 MXFP4 和 MXFP8 或 Nvidia 的 NVFP4 非常相似,我们之前在这里探讨过。
遗憾的是,这些数据类型的实现并非标准实现。我们不能直接从 Hugging Face 中提取 NVFP4 量化数据并期望它能正常运行。相反,我们需要对更高精度的模型进行量化,才能在 QuietBox 的 P150 处理器上运行。在人工智能领域,量化是指将模型权重从一个精度压缩到另一个精度,从而缩小模型的精度。
Tenstorrent 使用的 FP8、BF16、BFP8 和 BFP4 的具体组合因型号而异,以平衡性能和准确性。
为了保持一致性,我们选择将测试模型(包括 Llama 3.1 8B 和 Llama 3.3 70B)量化为 BFP8。在实际应用中,我们建议坚持使用 Tenstorrent 的默认设置。
如果您好奇的话,我们使用的是 Llama 而不是更新、功能更强大的型号,例如 gpt-oss-20B 或 120B。原因很简单:在支持的 LLM 型号中,这两款 Llama 型号似乎是针对 Blackhole 进行优化最好的。
Batch 1 的表现
我们首先对 P150 在单路、双路和四路张量并行配置下的单batch性能进行了测试。
张量并行是一种将模型权重和推理工作负载分配到多个加速器上的方法。它通常比流水线并行具有更好的扩展性,同时比数据并行更节省内存。
左侧分别以蓝色和绿色显示了解码和预填充的性能。如果您不熟悉,解码性能代表硬件生成令牌的速度,而预填充性能则衡量处理提示所需的时间。
在右侧,我们以图表的形式展示了推理引擎如何高效地利用显卡的内存带宽,以达到其理论峰值性能的百分比。
即使batch处理量更大,性能也远低于预期。在批量处理 32 时,结果显示,从单卡增加到双卡,以及从双卡增加到四卡,端到端延迟分别降低了约 25%。同时,从单张 P150 增加到两张,整体吞吐量提升了 36%,从两张增加到四张,吞吐量提升了 27%。
我们在在线服务基准测试中也观察到了类似的扩展性。四卡配置能够处理的请求数量是单张 P150 的 1.78 倍,而双卡配置的性能则大致介于两者之间。
假设每秒处理四个请求,那么运行类似尺寸模型的 QuietBox 每小时应该能够处理超过 14,000 个请求,同时保持合理的响应速度 (TTFT) 和交互性。性能并不算差,只是不到我们对同级别硬件预期性能的一半。
两次测试中相对均匀的间距令人欣慰,但性能却远非如此。考虑到连接这些显卡的带宽高达 12.8 Tbps,我们原本预期性能会有更好的扩展性。
为了更直观地理解这些性能数据,我们测试发现,单张 P150 的性能几乎与 Nvidia DGX Spark 完全相同。根据速度和数据流来看,Blackhole 显卡在 FP8 模式下进行 LLM 服务时,性能应该能达到后者的 2-3 倍。
令人费解的是,Tenstorrent 自己的文档显示,从 8 芯片的 Wormhole QuietBox 升级到 32 芯片的 Galaxy 节点时,其上一代加速器的解码性能实际上呈现超线性增长。同时,对于预填充,从 8 个加速器升级到 32 个加速器后,提示符处理时间缩短了大约三分之二。这表明,缺乏优化限制了 P150 和 QuietBox 发挥其全部潜力。
理解Blackhole那半生不熟的表演
那么,Tenstorrent 最新加速器的表现为何如此令人失望呢?据我们观察,问题在于我们测试的所有型号似乎都使用了为其早期 Wormhole 加速器编写的内核。
这些型号向前兼容 Blackhole,这意味着它们可以运行,但无法利用新芯片更高的核心数量。
Wormhole 拥有 80 个 Tensix 核心,但在 N150 和 N300 芯片上,实际启用的只有 72 个或 128 个(每个 ASIC 64 个)。我们猜测,这是为了最大限度地提高兼容性,因此大多数型号最终都针对 64 个 Tensix 核心进行了优化。不幸的是,这意味着当在 Blackhole 上运行为 Wormhole 编写的内核时,芯片的 140 个 Tensix 核心中有 76 个最终处于闲置状态。
内核优化不足似乎也是 Blackhole 生成令牌速度远低于预期的原因。内核没有针对额外的内存带宽进行优化,因此无法有效利用。我们观察到的解码性能表明,该卡的带宽被人为限制在了 288 GB/s,而这恰好是 Wormhole 的带宽上限。
如果我们的判断没错,这确实是 Tenstorrent 错失的一次良机。我们明白这有点像先有鸡还是先有蛋的问题。如果没有相应的硬件,就无法编写内核。但即便只有一个优化过的型号,也足以展现 Blackhole 的架构改进。
相反,我们得到的这款加速器,在测试中似乎只是在性能上比上一代产品略有改进,但功耗却大约是上一代产品的两倍。
由此我们明显感觉到,为了尽快将产品推向市场,Tenstorrent 的营销团队可能抢在了软件工程师之前。
总结
借助 Blackhole QuietBox,Tenstorrent 为其最新一代加速器构建了一个功能强大、运行安静且价格相对实惠的开发平台。
从纸面参数来看,该系统搭载的四颗 Blackhole P150 芯片有望在计算能力、内存和带宽之间取得良好的平衡,同时还能做到同价位 GPU 无法企及的扩展性。NVLink 在消费级和工作站平台上的应用早已过时,而 PCIe 的扩展能力也终究有限。凭借每颗芯片 3.2 Tbps 的带宽,Tenstorrent 打造的这个平台应该能够提供与其上一代 Wormhole 显卡相同的线性扩展能力。
虽然有些人会对这台机器 11,999 美元的价格感到犹豫,但要想在性能、内存和网络方面与之接近,至少也要花费这么多钱,甚至更多。
Tenstorrent 面临的更大问题是,尽管那些竞争平台的扩展性不如 Tenstorrent,但由于其软件栈更加成熟,因此仍然更有用,也更有价值。
开源社区(可以说是 P150 和 QuietBox 的目标市场)能够并且正在帮助解决这个问题,但是,如果没有明确的例子来证明 Blackhole 架构的潜力,就很难推销它。
想象一下,如果英伟达发布了一款性能提升三倍、内存带宽几乎翻倍的新GPU,但要充分利用它的性能,就意味着要重写代码库,而且没有任何保证能够真正实现宣称的性能提升。这要求太高了。然而,这基本上就是我们现在在使用Blackhole时所面临的情况。
缺乏针对 LLM 推理(当今世界上最重要的,或者至少是需求最高的工作负载)的优化内核,这是一个特别不可原谅的错误,Tenstorrent 不应该浪费时间去解决这个问题。
即使只有一个优化模型,例如 OpenAI 的 gpt-oss,也能极大地增强人们的信心,更重要的是,还能为 Blackhole 架构积累动力。
关于软件方面,我们也希望Tenstorrent能够更好地整合其文档。目前,该公司的文档分散在多个专用网站上,或者埋没在数十个索引不完善的GitHub代码库中。
我们尤其认为,Tenstorrent 可以通过增加“入门指南”的数量和提高其质量而受益匪浅。如果 Tenstorrent 软件团队的成员需要一些灵感,不妨参考一下Nvidia 为 DGX Spark 提供的文档。
潜在客户知道的可以在 Tenstorrent 硬件上运行和执行的功能越多,公司就能越快地为产品建立势头,销售加速器和核心 IP 也会越容易。
基于Tenstorrent Blackhole架构的生产服务器尚未开始发货,因此这家初创公司仍有时间对其软件平台进行精细打磨,使其更加完善。
(来 源 : 内容编译自theregister )
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第4240期内容,欢迎关注。
加星标第一时间看推送,小号防走丢
求推荐
