(原标题:一颗野心勃勃的GPU)
公众号记得加星标??,第一时间看推送不会错过。
在GPU领域,长期以来几乎只看得到英伟达、AMD、英特尔三家巨头,尤其是英伟达,凭借其强大生态、技术积累和品牌影响力,牢牢掌控着高端游戏与专业图形市场。从RTX 20、30 系列的光线追踪,到RTX 40 系列的AI加速,无一不是工业级性能与软件生态的综合体现。
然而,就是在这样一片巨头横行的红海中,出现了一家初创公司:Bolt Graphics。他们的目标不是花里胡哨地跟风,而是用一块叫做 Zeus 的新型GPU,直指路径追踪的终极可能。有人说这是“挑战英伟达最强显卡的”尝试,那笔者想说,这不仅仅是挑战,更像是“另辟蹊径”,从不同的维度重新定义“GPU”的未来。
为何路径追踪成为突破口
过去十年,游戏画质最大的质变来自实时光线追踪(RT)。在阴影、反射、全局光照等场景中,它让游戏世界更接近真实。但RT本质仍是对可见线路的近似,以局部采样实现“足够好”的效果。许多游戏开发者在灯光设计中牺牲了物理真实性,换来性能与效率。
路径追踪(Path Tracing),则是彻底不同的路线。从场景出发,探测出在任意波段传播的所有光线路径。即便是烟雾、毛发、次表面散射,它也能一并涵盖。其通过精确采样得到无噪点结果,解决了几何锯齿、高频纹理振铃、摩尔纹等走样问题。尽管计算成本高,但输出效果的细腻度和动态范围表现,使其向真正物理精确的渲染迈出了重要一步。
对于视觉精度有极端要求的人来说,路径追踪是真正的“无妥协画质”。但它的计算量极其庞大:传统方式下实时路径追踪所需算力,是普通GPU的十数倍甚至百倍。
路径追踪的早期形式源于 Jim Kajiya 1986 年的开创性论文《渲染方程》。这篇 SIGGRAPH 论文堪称所有渲染研究的源头 ——Kajiya 正式定义了一个积分方程,涵盖了现代渲染理论的全部内容。该方程整合了光在物体间反射的所有可能路径及能量贡献,统一了漫反射、镜面反射和焦散效应,摒弃了 “光源与几何分离” 的观念,提出所有几何都能反射和发射能量,由此终结了点光源概念,要求包括光源在内的所有几何都具备物理面积。
通过将材料属性明确分为漫反射和镜面反射成分,为开发高级双向反射分布函数(BRDF)描述材料奠定了基础,同时淘汰了以往的环境光项。为阐释其统一渲染理念,Kajiya 实现了一个暴力路径追踪器来求解该积分方程。当时他的理念远超时代,渲染一张 512×512 像素、每像素 40 次采样的图像需 20 小时。他还提出了重要性采样概念,以及如何用层次 k-d 树加速计算。
1997 年,Eric Veach 在博士论文《稳健蒙特卡洛光传输模拟方法》中,为图形行业提供了大量理论和技术,推动路径追踪的实际应用。 metropolis 光传输和双向路径追踪技术,让渲染研究者得以开发渐进式求解器,通过高效采样光路实现无噪点结果。再加上通用可编程 GPU 的普及,计算能力大幅提升,加速了相关计算。
如今,路径追踪持续发展,在多个行业得到应用。
为了得到电影级画面,比如4K、60 FPS的路径追踪渲染,迪士尼、皮克斯等机构仍然依赖CPU农场,以每帧上千小时的渲染时间来换取观感。这一点,可以从诸多公开资料看到:例如,一部动画电影中某个城市街区的场景渲染甚至耗尽了当年64GB的服务器内存,折算下来连256个CPU核心也得跑上小时级别。
对此,初创公司Bolt的做法是:“我们就做那个终极路径追踪GPU”。而不是在现有架构基础上打补丁。他们放弃传统光栅化图形流水线,选择从芯片底层出发,定制一整条路径追踪算力通道。
一家专注于光追技术的公司
据了解,Bolt成立背景比较低调,其团队以来自图形、渲染、计算架构领域的工程师为主,大多来自英伟达、AMD、Intel,以及电影制作公司背景。这些工程师意识到尽管光追技术火了,但路径追踪的“极致潜力”仍未被触及。
他们自称的使命是“重新设计GPU,为架构师、玩家、艺术家和研究人员提供改变世界的工具”。这个定义非常宏大,也非常清晰:目标清晰、定位极端——高性能路径追踪、可视化与HPC兼容性。
目前Bolt公布了三种计划中的Zeus版本,分别是“单芯片” Zeus 1c,TDP 约 120W,基于 RISC-V 自定义乱序标量 + 向量单元,采用小容量高速 LPDDR5X + 大容量 DDR5。路径追踪性能约 77 亿射线/秒,支持 INT8、INT16、AV1 等加速功能,核心设计以高密度路径追踪加速单元为主,不做张量计算。
而“双芯粒” Zeus 2c则集成两颗计算和两颗 IO 芯粒,芯粒间带宽高达 768GB/s,功耗翻倍性能翻倍,更适合专业工作站,LPDDR5X 焊死,DDR5 可定制,适度下放给中小型预算客户。
最贵的是“四芯粒” Zeus 4c(数据中心版本),其TDP来到了500W,内含 2TB DDR5 + 256GB LPDDR5X,其设计为 2U 服务器卡,一机可配四块组成集群,支持 NVMe、400Gb/800Gb 以太网、Redfish BMC 级监控;旨在构建可扩展路径追踪与 HPC 集群平台。
目前Bolt主要可能会在三个方向进行发展:专业工作站市场,对FP64、单精度算力和图形精度都有要求,Bolt 可以与英伟达 RTX A6000、Blackwell 工作站版竞争;在数据中心租赁市场:4c Zeus 配上 800G 网络和 180TB 内存集群,可用于渲染农场、数字孪生平台、雷达仿真等;而在消费级游戏市场,如果Bolt未来推出低功耗单芯片卡,也有可能配合 DirectX/Vulkan 而进入游戏市场。
Zeus,有何优势?
关于Zeus这三款产品,最令人瞩目的无疑是它们的内存架构。传统GPU习惯用 GDDR,为带宽牺牲容量。而Bolt选择 LPDDR5X(带宽) + DDR5(容量),后续还要支持堆栈 SRAM、共封装光学芯片。一个 Zeus 4c 卡的总内存将直逼 2.25TB,远超消费级显卡。这不仅有利于路径追踪数据集场景,且对 HPC 数据集非常友好。
而在接口上,这张卡也面面俱到:双 PCIe 5.0 x16,400G Ethernet,未来支持 800G——明显瞄准数据中心通信需求。这意味着它不是一块面向普通消费市场的显卡,而是从一开始,就定位在专业工作站甚至服务器机柜级集群领域。
Bolt 宣称,一套典型 4K 路径追踪场景(20 次反射、30 FPS)下,英伟达 RTX 5090 需要 280 张卡,而Zeus仅需28 张卡就能完成。这意味着效能提升了整整 10 倍。功耗方面,更是以惊人的 1/10 全面碾压传统 GPU。
其提供的数据源显示:RTX 5090 在 4K 120 FPS 状态下每像素支持8条光线;Bolt 的 1c卡支持“25 条以上”,2c版可上到“100 条”。这意味着它们在单位时间内处理路径追踪的密度,比英伟达现实用途 GPU 强上 4–12 倍。
不过需要注意的是,目前Bolt测试依靠模拟器、仿真环境,而非实卡验证,但从整体方向与趋势来看,Bolt的架构似乎已经具备真实跑通路径追踪的能力。
除了图形渲染外,Zeus 在 HPC 领域也宣称提供显著加速。FP64 是 HPC 的核心,而英伟达主攻 AI 上的 FP16、FP32,因此在 64-bit 运算上不占优势。Bolt 发布的资料称:
FP64 计算上:单芯版约 3 倍于 5090,双芯版约 6 倍;
在电磁波模拟(如 CT、MRI、EM 兼容性扫描)中,他们声称性能高达 Blackwell GPU 的 300 倍;
APC 数据还提及,4c卡的模拟空间是 Blackwell B200 的 40 倍(38 亿模拟单元 vs. 9110万);
值得一提的是,Zeus还支持 IEEE-754 FP64 标准并执行数值一致性——这对 HPC、科研人士而言,意味着结果可复现、可信赖。
生态或是打破垄断的关键
通用 GPU(包括英伟达、AMD、Intel)基本都使用封闭 ISA,如英伟达的 PTX、AMD 的 LLVM IR+GCN、英特尔的 Xe-LPG。Bolt 不走寻常路,完全选择基于开源 RISC-V 标量 + 向量扩展 RVV 1.0。这意味着其CPU 核设计完全自由,可定制,且编译器可全开源,易被社区接受,而客户也可透过 LLVM 自行构建工具链。
换言之,Bolt不仅做芯片,也在打造一个开放、定制、可融合的生态平台。
当然,一块卡若没有配套的软件,就只是石头。Bolt投入大量资源开发专属路径追踪引擎 Glow Stick,承诺与主流渲染工具高度兼容:包括 Blender、Maya、3DS Max、Houdini、Nuke 等。其支持高精度采样和物理蒙特卡洛积分,Ptex、OpenShadingLanguage、多级 MipMaps;全路径追踪所有光学特效、包括焦散、散射等,API 提供 Shader/Pipeline 定制,开发者可深度控制等应用功能。
最重要的是,免费配套,捆绑发卡。
据了解,接下来Bolt还将推 Apollo 电磁仿真器,与 Glow Stick 并行运作,将 HPC 和渲染结合,为科研、工程提供统一平台。
目前Bolt 已开始与多家行业软件提出 SDK、插件形式合作,包括引擎集成商(如Unreal、Unity),渲染农场管理(如 Deadline),主机操作系统厂商,芯片合作伙伴等。
他们甚至在构建能对接 DirectX、Vulkan 的驱动环境,但一个现实是——Windows 驱动生态比起 Linux(HPC)更难推进,Bolt 仍有相当工作要做。
大规模量产依旧遥遥无期
尽管表现出了很大的潜力,但目前 Bolt 暂时只有模拟器与仿真环境,要到 2025 Q3 才会交付首批开发套件,2026 年底才可能进入量产。这种初创企业常见的倒计时式压力会考验其资金、团队管理、合作伙伴信任。
一旦 Tape-out 出问题、交付延误或成本远超预期,都可能让这个项目被迫缩表。更何况,在过去英特尔 Arc、英伟达 40 系卡,甚至 AMD RDNA 家族产品上都有“产品性能远低于宣传”的案例。Bolt 的压力显而易见:他们必须在交付硬件时,就能提供一个性能不逊于演示的数据。
当然,软件生态的构建又从另一方面给量产构成了压力:没有 CUDA,没有成熟驱动,不能跑主流游戏引擎,就意味着Zeus需要在渲染和 HPC之外另辟路径,比如专往行业软件、科研领域扎根。他们设想“先让电影工作者、设计师、科研人员尝鲜”,再慢慢铺向游戏开发者社区。但这需要几十个样板项目、考试级商业案才能敲定合作。
据了解,Bolt 当前已启动早期访问计划(EAP),吸引了一批视觉特效艺术家和研究机构参与测试。如果这些早期用户现场评价好,Bolt就有机会借助他们的作品树立案例墙。但真正的挑战在于:这些项目是否能及时转化为商机,以及是否愿意为一套未量产显卡支付数万甚至数十万美金?
对于光追应用来说,Bolt可以称得上是未来可期。
如果 Bolt 真能将 Zeus 做到每帧几十条路径追踪线,那样的游戏画面将前所未见:光照更逼真、阴影投射更柔和、大气效果更真实。这种“电影般画质”的游戏可能成为未来 AAA 游戏的新目标。如果有平台支持这种技术,玩家体验的“图形上限”将被重新拉高。
除此之外,未来的渲染将逐渐与模拟融合——例如建筑渲染同时进行光学、温力、电磁多物理耦合计算。如果 Zeus 可实现“路径追踪+物理耦合”联合加速,它可能打开一个全新的跨领域市场。Bolt的Apollo与Glow Stick,从现在看就是这种融合路线图的第一步。
但以上均是从乐观的角度看待,从PPT走向生产,从模拟走向现实,从部分应用走向生态整合,Bolt 要同时战胜时间、安全性、合作、用户信任四道关。成功的可能性和失败的风险同样存在。但即使失败,也是一场 “次世代 GPU 赛道”的技术试验,为未来提供思路与经验。
所以,如果你关心GPU行业发展,关注图形技术,或期待高保真渲染与模拟的结合,请把 Bolt 和 Zeus 放入你的观察列表。因为它可能正是 GPU 领域的下一个“极端挑战者”。
可左右滑动查看
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第4103期内容,欢迎关注。
加星标??第一时间看推送,小号防走丢
求推荐