(原标题:揭开高通最强PC芯片的神秘面纱)
公众号记得加星标,第一时间看推送不会错过。
来 源 : 内容编译自hothardware 。
高通上个月在骁龙峰会上发布了第二代PC处理器——骁龙X2 Elite,并公布了一些早期细节和性能预期。尽管初代骁龙X Elite进入了一个全新的市场,并且面临着来自英特尔和AMD等老牌厂商的巨大挑战,但高通凭借初代骁龙X成功成为微软Copilot+ PC的独家首发合作伙伴,并赢得了多家主流笔记本电脑OEM厂商的设计订单。
骁龙X2 Elite在其前代产品的基础上进行了全面升级,尤其是在性能和能效方面。高通声称,骁龙X2 Elite在架构和微架构方面进行了超过100项改进,将在单线程和多线程工作负载下提供一流的能效和性能。这款新芯片的问世正值Arm原生软件数量大幅增长之际,而微软在最新版本的Windows 11中,其Prism仿真引擎也取得了显著进展。
考虑到所有这些因素,高通似乎已经做好了从笔记本电脑和小型PC市场现有厂商手中夺取更多市场份额的准备——当然,前提是骁龙X2 Elite平台能够兑现其承诺。
骁龙 X2 Elite 高级平台特性
骁龙 X2 Elite 最初将推出三种版本:18 核至尊版、18 核基础版骁龙 X2 Elite 以及配备缩减版 GPU 的 12 核 X2 Elite。该芯片采用台积电 N3 工艺制造,包含约 310 亿个晶体管。根据我的数显卡尺测量,其芯片尺寸约为 13.3mm x 16.5mm(219.5mm2)。
骁龙 X2 Elite 系列处理器也将提供不同的内存配置。高端的骁龙 X2 Elite Extreme 将始终配备最高 128GB 的封装内存,采用 192 位内存接口,运行速度高达 9,533MT/s。高通表示,这将是性能最强的配置。12 核和 18 核的标准版骁龙 X2 Elite 将采用封装内存或独立内存,并支持 LPCAMM 技术,从而为合作伙伴提供更大的系统设计灵活性。
我们稍后会更深入地探讨,但首先需要提及的是,骁龙 X2 Elite 还采用了改进的缓存配置和更快的内存架构。末级缓存 (LLC) 的带宽比上一代提升了 70%,并且可以在芯片内的所有 IP 模块(包括 CPU、GPU、NPU、传感中心等)之间动态共享。它并非静态地将缓存分配给各个组件,而是根据需要动态地分配给每个模块。此外,SoC 上的所有组件之间还通过高带宽、一致的内存架构连接,据高通称,这使其延迟更低,能效更高。
骁龙 X2 Elite也将拥有更高的时钟频率,并采用与英特尔和 AMD 移动处理器类似的全新睿频加速算法。例如,在骁龙 X2 Elite Extreme 上,当 1 个 Prime 核心处于活动状态时,其频率最高可达 5GHz;当 2 个核心处于活动状态时,频率最高可达 4.8GHz;3 个核心时,频率最高可达 4.47GHz;当 4、5 或 6 个核心处于活动状态时,频率最高可达 4.45GHz。这些芯片包含三个集群,每个集群包含 6 个 Prime 或 Performance 核心(总共 18 个核心),每个集群的频率根据当前运行的工作负载独立控制。不过,Prime 核心的频率仍然高于 Performance 核心。
高通的核心业务:无线连接和I/O
无线连接也是骁龙 X2 Elite 的一大亮点。该平台支持骁龙 X75 5G 调制解调器及射频系统,可提供高达 10GB/s 的峰值下载带宽和高达 3.5GB/s 的峰值上传带宽。骁龙 X75 可利用高达 1GHz 的频谱,并支持 Sub-6GHz 和毫米波频段的连接。不过,并非所有骁龙 X2 Elite 系统都配备这款高端调制解调器;它可以通过基于 PCIe 3.0 的 M.2 扩展模块集成到系统中。
高通 FastConnect 7800 Wi-Fi 系统也是骁龙 X2 Elite 平台的一部分。FastConnect 7800 支持多千兆 Wi-Fi 7,在 6GHz 频段最高速度可达 5.8Gb/s,在较低频段最高速度可达 4.2Gb/s。值得一提的是,该平台还支持始终在线连接,即使系统处于睡眠状态,设备也能保持连接。
此外,高通还升级了该平台的 I/O 接口。骁龙 X2 Elite 将支持最多三个 USB 4.0 40Gb/s 端口,并配备 12 条 PCIe Gen 5 通道和 4 条 PCIe Gen 4 通道。存储方面,该平台支持双 NVMe 固态硬盘或 UFS 4 闪存,以及 SD 卡。
借助骁龙守护者实现安全和远程管理
骁龙 X2 Elite 也配备了一系列安全相关的特性,包括侧信道攻击缓解、控制流完整性措施以及每个 CPU 集群专用的随机数生成器。高通指出,骁龙 X2 Elite 不易受到 PACMAN、Augury、GoFetch 等近期困扰处理器的攻击。
值得注意的是,骁龙X2 Elite 支持安全状态 EL3,这是 Armv8-A 架构中最高且权限最大的执行级别。它完全运行在安全状态下,并负责管理安全区域和非安全区域之间的转换。此外,骁龙 X2 Elite 还支持加密扩展和控制流完整性(包括指针认证、分支目标 ID 等)。它还具有推测屏障和上下文指令限制(基于上下文的限制)。
骁龙守护者(Snapdragon Guardian)是该平台即将推出的一项新功能,类似于英特尔博锐(vPro)或AMD的PRO功能。骁龙守护者使用户能够通过网络连接,从任何地点远程管理电脑,并进行故障排除、跟踪/定位、锁定或擦除系统等操作。骁龙守护者支持Wi-Fi连接,但部分系统可能还配备了专用于骁龙守护者的基本低功耗4G蜂窝调制解调器。换句话说,它不会为电脑提供通用数据连接,而是专门用于守护者功能。骁龙守护者专用4G模块的另一个亮点是,它只会给系统增加少量成本,而且似乎不需要每月支付连接费用。
与上一代芯片一样,骁龙 X2 Elite 也配备了 Always-On 子系统。该子系统以超低功耗状态运行,并在设备处于挂起和睡眠状态时维持关键功能。它负责电源和资源控制,并动态管理电源分配,仅在必要时激活子系统。此外,它还监控各个 IP 模块的时钟、电压和内存活动,以最大限度地降低功耗。Always-On 子系统能够利用硬件控制加速状态转换,从而实现低功耗模式和高性能模式之间的快速切换。 骁龙 X2 Elite 还搭载了高通传感中心 (Qualcomm Sensing Hub)。
高通传感中心将传感器任务卸载到低功耗独立模块,以实现更高效的处理。它能够以最小的电池续航时间影响,实现诸如语音唤醒、存在检测等用户体验。传感中心可以访问系统的摄像头、扬声器、麦克风和其他各种传感器,同时还能接收来自 Wi-Fi 和蓝牙的输入数据,并可用于位置跟踪。
高通骁龙 X2 Elite 图像、视频和显示详情
与高通所有现代移动处理器一样,骁龙 X2 Elite 也集成了 Spectra ISP(图像信号处理器),用于处理和增强相机数据。骁龙 X2 Elite 搭载的 Spectra ISP 是一款 18 位 ISP,支持双 3600 万像素摄像头以最高 30 帧/秒的速度进行录制。它还支持零快门延迟,可搭配高达 6400 万像素的传感器,支持 1080p 120 帧/秒慢动作录制,并支持最多 4 个并发任务,例如同时连接 2 个 IFE(RGB)摄像头和 2 个 IFE-Lite(红外)摄像头。Spectra ISP 的高性能,结合高通在图像和视频领域的专业技术,意味着该平台将提供比大多数其他 PC 更出色的视频会议体验,以及诸多其他照片和视频方面的优势。
骁龙 X2 Elite 搭载的高通 Adreno VPU(视频处理单元)采用双核架构,支持最高 8K 30FPS 的视频编码,以及 8K 60FPS 双流解码,性能是上一代的两倍。它还配备了专用的 AV1 编码器,这是初代 X Elite 所不具备的。
骁龙 X2 Elite 中的 Adreno DPU(显示处理单元)支持四台 4K 显示器,最高刷新率可达 144Hz;或者支持四台 5K 显示器,最高刷新率可达 60Hz。此外,DPU 还提供 HDR 支持、高级色彩管理、缩放和锐化功能,以及得益于可变刷新率支持而带来的更流畅的游戏动画。
骁龙 X2 Elite CPU 微架构详情
如前所述,骁龙 X2 Elite 的设计最多包含 18 个 CPU 核心。这包括两个 Prime 集群和一个 Performance 集群,每个集群包含 6 个核心。每个 Prime 核心集群都拥有一个完全一致的 16MB 共享 L2 缓存和高通矩阵引擎;Performance 集群拥有 12MB L2 缓存,但其核心架构也更窄,执行管道更少,OoO 执行窗口更浅,TLB 容量也更小。所有核心均基于高通第三代 Oryon 架构的最新版本,该架构通常比上一代更宽广、速度更快。更新后的核心具有增强的分支预测、更高的加载/存储带宽和更强大的预取功能,以及其他诸多改进。
Prime 核心拥有 192KB 的 L1 缓存,支持 6 路全一致性。它们支持每个时钟周期 16 次指令提取,并配备 256 项的 L1i TLB,支持 8 路一致性,并支持 4K 及更大的页面大小。骁龙 X2 Elite 中更新的分支预测机制包含一个 1 周期分支目标缓冲区、一个 2 周期条件分支预测器和一个 2 周期间接目标预测器,用于预测间接分支的目标。该设计的预测错误延迟为 13 周期。
Prime 核心支持 9 级解码,每个时钟周期最多可分派 9 个微操作 (uOps)。该设计还支持微编码微操作,以便在解码阶段高效地打包操作。骁龙 X2 Elite 的重命名宽度与解码宽度相匹配,使其能够在单个时钟周期内同时处理更多指令。整数寄存器、向量寄存器、谓词寄存器和状态寄存器分别拥有独立的物理寄存器空间。整数和向量重命名空间各自可容纳 400 多个寄存器,并设有检查点,以便在分支预测错误导致刷新时快速回滚和恢复重命名器。
整数执行采用 6 通道宽、64 位整数流水线,每个流水线配备一个 20 项的预留站 (RS)。通用寄存器 (GPR) 寄存器文件包含 400 多项,支持最多 6 个 ALU 微操作,每个周期最多可执行 4 个分支和 2 次乘法/MLA 运算。
向量、SIMD 和浮点运算的执行宽度为 4 通道,向量流水线为 128 位,每个流水线配备一个 48 项寄存器存储区 (RS),向量寄存器文件则包含 400 多项。每个流水线每个周期最多支持 4 个 FP32 或 Int32 加法、乘法和乘法运算 (ADD-MUL-MLA)。该处理器天然支持 IEEE 754 浮点格式,包括 FP16、FP32、FP64 和 BF16 数据类型,并支持向量 SIMD 通道的预测运算。
用于加载、存储和预取的数据缓存是一个完全一致的 96KB 6 路组相联 L1 缓存,具有 64B 的一致性粒度,采用多端口和精细分块设计,以支持所有访问大小。L1 数据转换后备缓冲区 (dTLB) 管理加载/存储操作的地址转换,并配备一个 224 项 7 路组相联缓冲区,支持 4KB 和 64KB 的转换粒度。每个周期最多支持 4 次加载/存储操作的任意组合,并完全支持存储到加载的转发。此外,还有一个 192 项的加载队列和一个 56 项的存储队列,它们与 L2 缓存紧密集成。
MMU 支持 4K 至 64KB 的转换粒度,并支持两阶段转换的虚拟化,包括嵌套虚拟化。I 端和 D 端分别有专用的 L1 TLB,支持 256 个条目(每个条目 8 路组相联,单周期访问);此外,还有一个统一的 L2 TLB,支持 8K 个条目(8 路组相联,双周期访问),并原生支持 4KB 至 1GB 的页面大小,大于 1GB 的页面大小会被分割成 1GB 的切片。
如前所述,每个 Prime 集群拥有 16MB 的 L2 缓存。每个集群采用 16 路组相联,所有 18 个 CPU 核心的总缓存容量为 44MB(Performance 集群的 L2 缓存容量为 12MB)。L2 缓存完全一致,采用 MOESI 协议(已修改、已拥有、独占、共享、无效),并包含 L1 缓存,包括 L1i 和 L1d。L2 缓存以 CPU 时钟频率运行,填充、替换和回传的数据路径均为 64 字节。L2 缓存还针对 L1 未命中到 L2 命中的延迟进行了优化,平均延迟为 21 个时钟周期。这实际上高于上一代产品的 17 个时钟周期,原因是缓存容量和核心数量的增加。L2 缓存可以同时处理 220 多个正在进行的事务,每个核心可以处理 50 多个未完成的请求。
骁龙 X2 Elite 中的 CPU 核心集群也是高通首款配备独立矩阵加速器的 CPU。每个集群都配备一个矩阵引擎,供集群内所有核心共享。该矩阵引擎支持 64 位 × 64 位 MLA,并支持整数和浮点数据类型的全 SIMD 运算。它还支持 8x8 和 4x8 的数值元素网格,寄存器集采用 512 位向量长度。BF16、FP16、FP32 以及 INT8、INT16 和 INT32 数据类型均受支持。此外,矩阵引擎运行在独立的时钟域,以实现更佳的功耗和散热控制,并减少对 CPU 时钟频率的影响。
性能核心集群的规模比主核心集群略小,旨在更好地平衡性能和能效——有时功耗甚至低于 2W。每个性能集群包含 6 个核心,配备 12MB 共享 L2 缓存、单个矩阵引擎,以及较低的 3.6GHz 基础频率。如上所述,性能核心采用类似的乱序执行微架构,但执行范围更窄,执行管道更少,乱序执行窗口更浅,缓存和 TLB 也更小。
骁龙 X2 Elite:Adreno X2 GPU 详情
骁龙 X2 Elite 将搭载两种 Adreno X2 GPU 配置:18 核版本采用 4 片式设计,12 核版本采用 3 片式设计(分别命名为 Adreno X2 90 和 Adreno X2 85)。据报道,该 GPU 的速度比上一代产品快 2.3 倍,能效也提升高达 125%。
Adreno X2 完全支持 DirectX 12.2 Ultimate 和 Shader Model 6.8,具备网格着色、完全兼容的可变速率着色 (VRS) 以及采样器反馈功能。据高通称,Adreno X2 的 ALU 和后端性能比上一代提升高达 33%,效率也相应提高,并且 GPU 经过重新设计和优化,可实现更高的时钟频率。此外,该平台还配备了高速内存;高通声称这是该公司迄今为止制造的速度最快的 GPU。
Adreno X2 属于第八代 Adreno 产品,该产品完全由高通自主研发。与其他现代 GPU 一样,Adreno X2 由多个小型单元组成,这些单元连接在一起,形成特定尺寸和性能级别的 GPU。高端配置由四个切片组成(上一代只有三个),集成了分箱和渲染前端,四个切片共配备 2048 个 FP32 ALU,并支持每个周期最多 128 个纹素。每个切片内有两个着色器核心。
渲染前端支持每个渲染周期渲染 4 个三角形,并配备了全新的高性能光线追踪单元 (RTU)——在 4 层架构中总共有 16 个 RTU——每个着色器管线配备 2 个 RTU(每个层级 2 个管线)。这些 RTU 完全支持 DXR 1.1 和 Vulkan 光线管线,并在树遍历单元中增强了管线加速。
该设计包含 8 个渲染后端,每个渲染周期支持 64 个像素,MSAA 模式下每个渲染周期支持 128 个片段。GPU 中还配备了总计 21MB 的高性能片上内存,称为 Adreno HPM,每个层级分配 5.25MB。Adreno HPM 为着色器处理器提供高达 4TB/s 的带宽,并支持直接渲染、曲面细分、权重存储和 GPU 计算/AI 加速。与 AMD 的 Infinity Cache 和 NVIDIA 的 Ada 和 Blackwell GPU 上的大型 L2 缓存类似,Adreno HPM 减少了跨内存接口的数据移动,从而提高了每瓦性能和更高的有效内存带宽。
事实上,Adreno X2 的 L2 缓存是上一代的两倍(统一 L2 缓存为 2MB),每个切片拥有 128KB 的集群缓存,并支持 LPDD5X,最高读写速度可达 9,533 MT/s,在 192 位内存接口上可实现 224 GB/s 的峰值带宽。Adreno
X2 内置 GPU 管理单元 (GMU),可监控 GPU 活动、测量温度,甚至检测漏电(在晶圆分拣时即可识别)。GMU 会建立功耗模型,并控制电源管理(电压和频率),以限制 GPU 的运行频率,或在不需要时完全关闭 GPU。GMU 还负责硬件虚拟化。
高通表示,Adreno X2 的几何处理速度比上一代更快,吞吐量和高多边形性能均有所提升。其图元生成速度提升了 4 倍,每个切片的顶点处理能力也提升了 4 倍。此外,其设计在小规模绘制调用方面也得到了显著改进。波形宽度现在为 64 位(X1 仅为 12 位),每个微处理器 (uSP) 的 GPR 缓存为 128KB(Adreno X1 为 96KB)。更大的缓存允许同时处理更多波形,或处理更复杂的波形,从而充分利用着色器单元的性能。
在 GPGPU 工作负载方面,Adreno X2 原生支持 WCR(Windows Copilot Runtime)、BF16、本地内存广播和通用混洗,从而实现线程间的完全混洗。
在软件方面,高通表示计划转向每月发布新版本,但并未公布具体实施时间。目前,Adreno X2 驱动程序原生支持 DX 12.2、OpenCL 3.0 和 SYCL,原生 Vulkan 1.4 驱动程序将于 2026 年第一季度发布。高通也在努力实现内核级反作弊技术的全面兼容,并希望在骁龙 Elite X2 发布时,所有主要的反作弊技术都能得到原生支持。
高通 Hexagon NPU 增强功能
骁龙 X2 Elite 也配备了多个 NPU。其中,专用的 Hexagon NPU 基于第六代 (NPU6) 核心设计,性能更强,最高可达 80 TOPS,比上一代产品速度提升高达 78%,同时能效也更高。Hexagon NPU 拥有 2 个主端口,可提升内存带宽,支持 64 位 DMA 以处理大型模型,并支持最多 12 个线程。最终,标量性能提升了 143%,总线带宽提升了 127%。
在向量处理方面,Hexagon NPU 拥有 8 个并行引擎,每个引擎最多支持四条 128 位 SIMD 指令,并支持 FP8 和 BF16 数据类型。据高通称,骁龙 X2 Elite 中的第六代 NPU 的向量吞吐量比上一代提升了 143%。 在矩阵处理方面,Hexagon NPU 支持 2 位权重、FP8 和 BF16 数据类型,并提供融合激活函数和深度可分离卷积的硬件支持。Hexagon NPU 还采用独立的电源轨供电。高通声称,该设计使矩阵吞吐量提升了 78%。
除了大型六边形NPU之外,骁龙X2 Elite的低功耗芯片上还配备了两个微型嵌入式eNPU,其性能比X1高出惊人的6倍。这些eNPU是大型六边形NPU的替代方案,可以始终保持开启状态,并可访问低功耗传感中心上的9MB缓存。
关于骁龙 X2 系列的许多初步指标都显示其前景非常乐观。像这样的第二代产品通常会在诸多方面(尤其是显著方面)改进初代产品,并且初代骁龙 X Elite 的许多成长阵痛也得到了缓解。高通在笔记本电脑市场仍然面临着严峻的挑战,但凭借更强大、功能更丰富的硬件平台,以及来自微软和独立软件开发商合作伙伴的持续更新和增强,可以肯定的是,骁龙 X2 Elite 在发布时将比初代产品处于更有利的地位,这对高通来说无疑是个好消息。
https://hothardware.com/reviews/qualcomm-snapdragon-x2-elite-architecture-deep-dive
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第4231期内容,欢迎关注。
加星标第一时间看推送,小号防走丢
求推荐
