当前位置:商业频道首页 > 头条推荐 > 正文

黄仁勋,拐点出现(21)

好吧,正如你们所知,如果你有一个300人的婚礼派对,并且你试图找到完美的,或者说最佳的座位安排,这是一个只有人工智能才能解决或者只有岳母才能解决的问题。

所以,这是协同计算无法解决的问题之一。

好,您在这里看到的是,我们给它提供了一个需要推理的问题,您看到R1会就此进行推理,尝试所有不同的场景,然后返回来检验自己的答案。它会自问是否做对了。

同时,上一代语言模型则采用一次性解决方法。因此,一次性解决方法使用了439个标记。它速度很快,效率很高,但结果是错误的。所以,这是439个被浪费的标记。

另一方面,为了对这个问题进行推理(实际上这是一个非常简单的问题,只需增加几个更难的变量,它就会变得非常难以推理),它使用了8000个,几乎9000个标记。而且它需要更多的计算,因为模型更加复杂。

好,这是一个维度。在我向您展示一些结果之前,请允许我解释其他一些内容。

因此,答案是,如果你观察Blackwell系统,现在它已经扩展到NVLink 72。我们首先要做的是处理这个模型,而这个模型并不小。

以R1为例,人们认为R1很小,但它有6800亿个参数。

下一代模型可能拥有数万亿个参数。解决这一问题的方法是将这些数万亿个参数和模型,将工作负载分布到整个GPU系统中。

可以使用张量并行,将模型的一层运行在多个GPU上;也可以取流水线的一部分,称之为流水线并行,并将其放在多个GPU上;还可以将不同的专家模型放在不同的GPU上,我们称之为专家并行。

流水线并行、张量并行和专家并行的组合方式数量庞大,令人难以置信。并且根据模型、工作负载和环境的不同,计算机的配置方式必须改变,以便获得最大的吞吐量。有时需要优化极低的延迟,有时则需优化吞吐量,因此必须进行一些运行时批处理。批处理和聚合工作有很多不同的技术。因此,这些AI工厂的操作系统和软件极其复杂。

热点推送

本周关注

MORE