当前位置:商业频道首页 > 头条推荐 > 正文

黄仁勋,拐点出现(17)

Hadoop的理念具有革命性意义,这一点我们都很清楚。它使得超大规模数据中心能够利用现成的计算机解决海量数据问题。然而,我们试图解决的问题极其复杂,以这种方式进行扩展的成本将高得令人难以承受,无论是电力成本还是能源成本。深度学习根本不可能出现。

因此,我们必须首先进行垂直扩展。这就是我们进行垂直扩展的方式。这是上一代系统架构,被称为HGX。这彻底改变了我们所知的计算技术,也彻底改变了人工智能。

这是八个GPU,每一个都类似于这个。这是两个GPU,一个Blackwell封装中包含两个Blackwell GPU。在这下面还有八个这样的单元。然后这连接到我们称之为NVLink 8 的部件。

然后这连接到类似这样的CPU机架。这里有两个CPU,位于顶部。我们通过PCI Express将其连接起来,然后许多这样的设备通过InfiniBand连接,最终形成一台人工智能超级计算机。过去就是这样做的,我们就是这样开始的。

这就是我们在扩展规模之前所能达到的极限。但我们希望进一步扩展规模。Ranger项目将这个系统又扩展了四倍。

因此,我们有了NVLink 32,但系统规模过于庞大。为此,我们不得不进行一些重要的重新设计,包括NVLink的工作方式以及ScaleUp的工作方式。

首先,我们需要将嵌入在主板上的NVLink交换机从系统中解耦并移除。这是一个NVLink交换机,是世界上性能最高的交换机,它使得每个GPU都能以满带宽在完全相同的时间与其他每个GPU进行通信。

我们将NVLink交换机解耦并移除,并将其放置在机箱的中心。在九个不同的机架中,共有18个交换机托盘(我们称之为)容纳这些交换机。交换机解耦后,计算单元现在位于别处。这相当于计算方面的两个部分。

热点推送

本周关注

MORE