深入浅出谈谈，AI集群、NVLink、光模块_财经频道

（原标题：深入浅出谈谈，AI集群、NVLink、光模块）

深入浅出谈AI光模块需求

性能提升的秘密武器：缓存

CPU访问一次DDR内存空间，需要几百个时钟周期，如果没有其他办法，将会导致99%的时间CPU时间在等待数据而空转。所以科学家就想出了一种办法: Cache。

计算机的程序和数据访问范围虽然很大，但是具有明显的局部性特征：在某一时刻，程序所需要的下一条、或者几条指令很大的概率就在附近，某一时刻前后所需要的数据也大概率就在附近。在读取当前指令和数据的时候，顺便把前后一定范围的指令和数据都读取到靠近CPU的Cache里面，这样当CPU执行完指令，去提取下一条指令的时候，发现这些数据“就在自己房间里面”，从而大大提高了CPU的实际运行性能。

这就是CPU通过Cache机制获得巨大性能增益的原理。Cache有可以分成好多层：

随着芯片工艺进步，三级cache(LLC, Last Level Cache)也越来越多的集成在处理器内部了。

AI计算性能提升的窍门

AI算法在数学层面，最终是大规模的矩阵、张量运算。

随着算法越来越复杂，这些矩阵动十分庞大，一张GPU卡无法在同一时刻算完，怎么办呢？只能很多张GPU卡在一起，每人分一部分，算完后再一起汇总出结果。

这种方式，计算机科学的专业术语是大规模并行计算，所组成的硬件叫超级计算机集群。但是呢，网络通信是有延时、抖动、掉包等问题的，这么多GPU连在一起，GPU与GPU如果不能够及时的通信，就会面临类似 CPU遇到的“内存墙”问题，大幅降低性能。

怎么解决呢？思路与Cache机制有异曲同工之妙。Cache的依据是指令和数据的局部性，AI矩阵运算也同样有局部性的特征，某个子矩阵往往跟周围几个子矩阵关系最密切，而离较远的子矩阵不关联。所以，如果我们把两个GPU用最高的通信接口整合在一起，就能解决大部分问题，从而显著提高算力。依次类推，能不能把4个GPU堆叠在一起？能不能把32个GPU堆叠在一起？像内存的Cache一样，形成层次化的架构？答案是：完全可以。

所以，AI超算集群，是一种层次化的集群架构。

英伟达AI集群解析

上文的图中已经展示了Nvidia的AI集群系统，分成两大种内：NVLink和InfiniBand。其中NVLink术语Nvidia专有的技术，有硬件直接完成GPU之间内存的互相访问，无需CPU的干预。而InfiniBand则要由CPU进行管理，通过虚拟化的形式，让GPU之间互相访问。这两种方案的性能差别很大，所以，Nvidia每一代新架构发布，都想方设法扩大NVLink 的势力范围。 NVLink和InfiniBand的关系可以这么类比着理解：