当前位置:商业频道首页 > 头条推荐 > 正文

黄仁勋,拐点出现(22)

其中一个观察结果,也是拥有像NVLink 72这样同构架构的真正优势在于,每个GPU都能执行我刚才描述的所有操作。我们观察到这些推理模型正在进行几个计算阶段。

其中一个计算阶段是思考。当你在思考时,不会产生很多标记。你产生的标记可能你自己在使用,你在思考。也许你正在阅读,正在消化信息。这信息可能是PDF文档,也可能是网站,甚至可以观看视频,以超线性速率吸收所有这些信息,然后将所有这些信息整合起来,形成答案,制定一个计划性的答案。

因此,信息消化和上下文处理非常依赖于浮点运算。

另一方面,在下一阶段,称为解码阶段,其第一部分我们称为预填充,解码的下一阶段需要浮点运算,但需要巨大的带宽。而且计算起来相当容易。如果你有一个模型,它有数万亿个参数,那么每秒需要几TB的数据,注意我之前提到过每秒576TB,仅仅是从HBM内存中提取模型就需要每秒TB级的数据。而且仅仅是为了生成一个标记。

它之所以只生成一个标记,是因为记住这些大型语言模型是在预测下一个标记,这就是它们预测下一个标记的原因。它不是预测每一个标记,而只是预测下一个标记。现在我们有了各种新的技术,例如推测性解码等等,用于更快地完成这项工作,但最终,你是在预测下一个标记。

因此,你摄取、调入整个模型和上下文(我们称之为KV缓存),然后生成一个标记。然后我们将这个标记放回我们的“大脑”,生成下一个标记。每次执行此操作,我们都输入数万亿个参数,输出一个标记。

数万亿个参数输入,输出另一个标记。数万亿个参数输入,输出另一个标记。请注意,在演示中,我们输出了8600个标记。

因此,数万亿字节的信息已被输入到我们的GPU中,并一次输出一个标记。这从根本上解释了为什么需要NVLink。NVLink使我们能够将所有这些GPU组合成一个巨大的GPU,实现最终的规模扩展。现在所有内容都在NVLink上,我可以将预填充与解码分离,并可以决定:我想为预填充使用更多GPU,为解码使用更少GPU。

热点推送

本周关注

MORE