揭秘Sora：用大语言模型的方法理解视频

2024-02-18 07:48:42 A+A-

当全球还沉迷在如何用文本生成文本，以及文本生成图片的时候，OpenAI就这么掏出来了一个视频生成模型Sora。有关Sora的具体介绍和效果展示可以看我们昨天的文章《》。简单来讲，这是一个能够根据文本指令或静态图像生成长达1分钟视频的扩散模型，而且视频中还包含精细复杂的场景、生动的角色表情以及复杂的镜头运动——它做到了目前市面上视频模型做不到的东西。

那么Sora是如何做到的？在中，我们曾第一时间基于仅有的信息给出了一个判断：

简单粗暴的理解，就是语言能力足够强大之后，它带来的泛化能力直接可以学习图像视频数据和它体现出的模式，然后还可以直接用学习来的图像生成模型最能理解的方式，给这些利用了引擎等已有的强大而成熟的视频生成技术的视觉模型模块下指令，最终生成我们看到的逼真而强大的对物理世界体现出“理解”的视频。

而之后OpenAI发布了Sora的技术报告：《Video generation models as world simulators》（视频生成模型作为世界模拟器），其中介绍的技术思路基本印证了我们上面的判断。

接下来我们一起来基于有限但足够信息丰富的技术报告来解读一下Sora背后的技术。

用大语言模型的方法理解视频

Sora的设计灵感来自于大语言模型，最主要的原因是大语言模型有一个核心功能是通过代码将多种文本形式进行了统一。而OpenAI为了训练出Sora，他们的做法也是将各类视觉数据转化为统一表示的方法。

不过在正式了解Sora之前，我们需要先科普一个概念——块（patches）。有点类似于大语言模型中的token，块指的是将图像或视频帧分割成的一系列小块区域。这些块是模型处理和理解原始数据的基本单元。

对于视频生成模型而言，块不仅包含了局部的空间信息，还包含了时间维度上的连续变化信息。模型可以通过学习patches之间的关系来捕捉运动、颜色变化等复杂视觉特征，并基于此重建出新的视频序列。这样的处理方式有助于模型理解和生成视频中的连贯动作和场景变化，从而实现高质量的视频内容生成。

OpenAI又在块的基础上，将其压缩到低维度潜在空间，再将其分解为“时空块”（spacetime patches）。

揭秘Sora：用大语言模型的方法理解视频

晕了是不是，别急，一个一个解释。潜在空间是一个3年前出现的概念，是指一个高维数据通过某种数学变换（如编码器或降维技术）后所映射到的低维空间，这个低维空间中的每个点通常对应于原始高维数据的一个潜在表示或抽象特征向量。但是呢，优化强大的扩散模型往往需要消耗数百个GPU日的计算资源，并且由于其序列评估性质，推理成本较高。因此，本质上来讲潜在空间，就是一个能够在复杂性降低和细节保留之间达到近乎最优的平衡点，极大地提升了视觉保真度。

时空块则是指从视频帧序列中提取出的、具有固定大小和形状的空间-时间区域。相较于块而言，时空块强调了连续性，模型可以通过时空块来观察视频内容随时间和空间的变化规律。

为了制造这些时空块，OpenAI训练了一个网络，用于降低视觉数据的维度，叫做视频压缩网络。这个网络接受原始视频作为输入，并输出一个在时间和空间上都进行了压缩的潜在表示。Sora在这个压缩后的潜在空间中进行训练和生成视频。同时，OpenAI还也训练了一个相应的解码器模型，用于将生成的潜在向量映射回像素空间。

刚才咱们也聊了，说这个“块”是非常接近token的，那么这些块的作用也应该和token差不太多。对于给定的压缩输入视频，OpenAi就直接提取一系列块作为Transformertoken使用，然后这些时空块会被进一步编码并传递给Transformer网络进行全局自注意力学习。最后利用Transformer的强大能力来处理并生成具有不同属性的视频内容。

这一方案同样适用于图像，因为图像可以看作是仅有一帧的视频。基于块的表示方法使得Sora能够对不同分辨率、时长和宽高比的视频和图像进行训练。在推理阶段，可以通过在一个适当大小的网格中排列随机初始化的块来控制生成视频的尺寸。

此外，在Sora模型的介绍页面虽然提到的都是通过文本来生成视频，但Sora还能够接受其他类型的输入，比如图像或视频，以达到图片生成视频、视频生成视频的效果。这一特性使得Sora能够执行广泛的图像和视频编辑任务——例如制作完美循环播放的视频、为静态图像添加动画效果、向前或向后延展视频时间轴等。

实现对物理世界的“涌现”

在长期的训练中OpenAI发现sora模型逐渐拥有了一项新能力，叫做三维一致性。指的是Sora能够生成动态视角的视频。同时随着视角的移动和旋转，人物及场景元素在三维空间中仍然保持一致的运动状态。

揭秘Sora：用大语言模型的方法理解视频

这个可能对咱们人类来说没什么，但是对于人工智能来说，还是相当厉害的。人工智能理解三维物理世界，跟人类理解三维物理世界的方式不一样，它采用了一种拓扑结构上的理解。注意，这里的拓扑结构不是计算机的拓扑结构，而是拓扑学中的拓扑结构。拓扑结构是一个几何或空间的抽象描述，用于描述集合中元素之间的连接方式和空间属性，而不考虑具体的度量或形状。它关注的是空间中点与点之间的连通关系以及空间的整体形状，而不是具体尺寸或角度等细节。

除此之外，既然视频的视角发生变化，那么相应的纹理映射也要改变。Sora的真实感非常强，换句话说，纹理映射在拓扑结构上就得非常准确。三维一致性能力使Sora能够模拟来自现实世界中人物、动物和环境的某些方面。

一个让人兴奋中带着点害怕的消息是，这些属性并非通过为3D、物体等添加明确的归纳偏置而产生——它们纯粹是规模效应的现象。也就是说，是Sora自己根据训练的内容，判断出了现实世界中的一些物理客观规律，某种程度上，人类如果仅仅是通过肉眼观察，也很难达到这样的境界。

还有一点，视频生成系统面临的一项重大挑战是在生成长视频时保持时间上的连贯性。而Sora也能够有效地模拟短程和长程依赖关系。例如，即使人物、动物或物体被遮挡或离开画面，Sora仍能保持这些元素存在于视线外，等到视角转换到能看到他们的时候，再将这些内容展现出来。同样的，它能够在单个样本中生成同一角色的多个镜头，并在整个视频中保持其外观的一致性。

事实上这点倒没有什么，因为Sora是从transformer模型中孕育的，而transformer模型本身就能通过全局自注意力机制等技术来实现很高的连续性。Sora只不过是从视频方面阐述了这种连续性而已。

对此，OpenAI得出了一个结论：视频生成模型是构建通用物理世界模拟器的一条有前景的道路。

Sora目前所展现的能力表明，它是能通过观察和学习来了解物理规律。就Sora的这个理解力，说句实在的比我都强，老师在上面讲课，我只能做到眼睛会了，脑子不会。

不过Sora当前作为一个模拟器存在许多局限性。在OpenAI的主页上，他们列举了该模型的一些常见失效模式，比如在长时间采样中可能出现的不连贯现象，以及物体无端出现等异常情况。从现有的结果来看，它还无法准确模拟许多基本交互的物理过程，像是玻璃破碎，以及其他类型的交互，比如吃食物。物体状态的变化并不总是能够得到正确的模拟，这说明很多现实世界的物理规则是没有办法通过现有的训练来推断的。

揭秘Sora：用大语言模型的方法理解视频

这些是这篇技术报告里最核心的信息，一如既往的，OpenAI在模型和实现细节方面继续保持Close，不过，在报告中，OpenAI在不停提到“大力出奇迹”的效果：

关于涌现，它写道：我们发现，当大规模地进行训练时，视频模型展现出许多有趣的涌现能力。这些能力使得Sora能够模拟现实世界中人类、动物和环境的某些方面。这些属性并没有任何针对3D、物体等的明确归纳偏见——它们纯粹是规模效应的现象。

OpenAI显然在把Sora描述成它一直坚持的Scaling law的又一次胜利——没有多么纯粹原创的技术，很多技术成分早已存在，但它却比所有人都更笃定的走了下去，并用足够多的资源在巨大的规模上验证了它。

(责任编辑：卢其龙 CN070)

热点推送

特朗普定档！计划明年初再揭晓美联储新主席人选

当地时间周二（12月2日），美国总统特朗普表示，他计划在2026年初公布下一任美联储主席人选。特朗普在内阁会议上说道：“我们大概会在明年初宣布某个人，作为新的美联储主席。”此番言论为人选公布提供了更明确的时间表
2025-12-03特朗普，美联储，主席
亚马逊云服务宣布搭载全新Trainium3芯片的Trainium3超算服务器正式投入商用

亚马逊云服务宣布搭载全新Trainium3芯片的Trainium3超算服务器正式投入商用
2025-12-03Trainium，亚马逊，云服务
西安奕材加码硅材料基地建设总投资约125亿元

西安奕材(688783)持续扩大产能
2025-12-03西安奕材，项目，人民币
CrowdStrike三季度营收12.3亿美元

CrowdStrike三季度营收12.3亿美元，分析师预期12.1亿美元，预计第四季度收入将达到12.9亿至13亿美元，预估为12.9亿美元
2025-12-03CrowdStrike，美元，12.3亿
投资圈“炸锅” 知名经济学家洪灏：已在4500美元高位清仓黄金泡沫必破！

近期黄金市场经历了前所未有的狂热与剧烈波动，一则关于知名经济学家洪灏“精准逃顶”的消息在投资圈炸开了锅。11月28日，其公开宣称已在4500美元/盎司的高位清仓黄金，并预警“泡沫必然破裂”
2025-12-03美元，黄金，4500
迈威尔科技据称将以大约32.5亿美元现金+股票收购Celestial AI

迈威尔科技据称将以大约32.5亿美元现金+股票收购Celestial AI
2025-12-03迈威尔科技，股票收购，32.5亿
AWS推出新型大模型定制训练服务一年仅需10万美元

在周二举行的Re:Invent大会上，全球云计算龙头亚马逊发布了第二代Nova大模型。不过相较4款新模型，公司同步推出的大模型自主训练服务Nova Forge更加引人关注。先简单介绍一下4款新Nova 2系列模型
2025-12-03亚马逊，模型，Nova
又一家外资看好明年A股！瑞银：2026年盈利增速有望升至8%

继摩根大通之后，又有外资机构加入看好2026年A股的行列中。据澎湃新闻报道，近日，瑞银证券中国股票策略分析师孟磊发表中国股票策略观点指出，2026年全部A股盈利增速有望从今年的6%进一步升至8%
2025-12-03摩根大通，A股，2026
美股三大指数集体收涨

美股三大指数集体收涨，道指涨0.39%，纳指涨0.59%，标普500指数涨0.25%，大型科技股涨跌不一，苹果涨超1%，英伟达涨近1%，博通跌超1%
2025-12-03英伟达，美股，173.44
美元指数2日下跌

衡量美元对六种主要货币的美元指数当天下跌0.06%，在汇市尾市收于99.357。截至纽约汇市尾市，1欧元兑换1.1622美元，高于前一交易日的1.1608美元；1英镑兑换1.3211美元，低于前一交易日的1.3213美元
2025-12-03美元，交易日，兑换
“AI教父”杰弗里·辛顿：警惕AI形成自我生存意识！

12月2日GIS大会开幕式暨全球创新领袖峰会上，有“AI教父”之称的杰弗里·辛顿远程连线，回答了一个关于“时空穿梭”问题：如果回到2012年，甚至回到最初开始研究神经网络时，是否还会发表影响后世AI进程的那篇论文？ “该发生的还是会发生
2025-12-03AI，杰弗里·辛顿，陈宁
苹果布局体育领域 F1力求传播模式转型价值7亿美元的合作能双赢吗？

本周日，2025赛季F1车手总冠军归属悬念将在阿布扎比大奖赛揭晓。诺里斯、维斯塔潘与皮亚斯特里三位车手同场争冠，这是F1自2010年以来首次出现三位车手带着争冠希望进入收官战的精彩局面
2025-12-03体育，赛事，版权
WTI原油期货收跌1.15%

WTI原油期货收跌1.15%，报58.64美元/桶。布伦特原油期货收跌1.14%，报62.45美元/桶
2025-12-03WTI原油期货，收跌，1.15
光明乳业拟再掏5亿元全资控股小西牛业绩承压下拟出售海外资产“回血”

历经四年分步收购，光明乳业（600597.SH）累计斥资11.12亿元将实现对青海小西牛生物乳业股份有限公司（以下简称“小西牛”）的全资控股
2025-12-03小西牛，光明乳业，净利润
花旗扩充投资级债券交易团队备战人工智能推动的债券发行热潮

花旗集团正在扩充其美国投资级债券交易部门的人手，加入了华尔街其他银行的行列，为在人工智能投资热潮推动下明年可能创纪录激增的公司债发行做准备
2025-12-03花旗集团，人工智能，交易
英伟达CFO访谈：OpenAI千亿大单尚未敲定领先优势“绝对没缩小”

当地时间周二，英伟达首席财务官科莱特·克雷斯（Colette Kress）出席瑞银全球科技与人工智能大会，并对AI泡沫、英伟达产品需求、市场竞争等热点话题发表见解
2025-12-03英伟达，美股，173.44
欧林生物递表港交所冲击双重上市应收账款隐忧未解

日前，欧林生物（688319.SH）公告称，公司于11月25日向港交所递交了港股上市申请。凭借吸附破伤风疫苗这一核心产品，近年来公司业绩有所回暖，但应收账款的持续高企，或成为公司寻求“A+H”双重上市的挑战之一
2025-12-03公司，欧林生物，应收账款
亚马逊推出AI芯片Trainium 3

每经AI快讯，美东时间12月2日周二，亚马逊云计算部门AWS在年度云计算盛会re:Invent上推出新一代人工智能（AI）训练芯片Trainium 3，预告了下一代产品Trainium 4的开发计划
2025-12-03亚马逊，英伟达，芯片
12月3日国内四大证券报纸、重要财经媒体头版头条内容精华摘要

12月3日(星期三)，今日报刊头条主要内容精华如下：五部门：加强人才队伍建设促进数据领域产学研用协同国家发展改革委12月2日消息
2025-12-03脑机接口，企业，00
东方财富财经早餐 12月3日周三

每日精选完善收入分配制度：国家发展改革委主任郑栅洁在《党建》杂志发布《深入学习贯彻党的二十届四中全会精神以高质量发展新成效谱写中国式现代化新篇章》署名文章。文章写道，在发展中保障和改善民生，提高人民生活品质
2025-12-03公司，美元，基点
深夜白银迭创新高！黄金也突破近6周高点

①现货白银再度突破历史新高至58.8美元/盎司，今年涨幅已翻倍，背后推手包括供应紧张、投机逼空与宏观事件驱动等；②美联储降息预期及日元套息平仓风险继续助推贵金属行情，市场将密切关注鲍威尔最新表态
2025-12-02白银，银价，黄金
亚马逊计划推出新的美国超快速配送服务 30分钟内即可送达生活必需品

亚马逊计划推出新的美国超快速配送服务，30分钟内即可送达生活必需品
2025-12-02亚马逊，生活必需品，计划
中集集团把绿色发展理念融入产品和服务持续创造可量化的绿色价值

一艘船里的“含绿量”能有多少？今年初，中集集团旗下中集来福士向荷兰船东交付的海上风电安装船BOREAS给出了一个答案
2025-12-02中集集团，关键，甲醇
伊利前三季扣非归母净利润首破百亿元

2025年前三季度，乳品行业的“千亿巨头”内蒙古伊利实业集团股份有限公司（以下简称“伊利股份”或“伊利”，600887.SH）的扣非归母净利润首次突破百亿元
2025-12-02伊利，三季度，液态奶
从纾困合作到对簿公堂贵州百灵深陷“残酷联姻”

一个原本皆大欢喜的纾困“联姻”好事，却演绎成一个反目成仇对簿公堂的资本闹剧。事件的起因是，2019年，贵州百灵（002424.SZ）大股东姜伟及一致行动人在质押比率较高的情况下接受华创证券的纾困救助
2025-12-02华创证券，贵州百灵，纾困
河北航空电子发票被指“开票难”：需手动输入13位票号

自2025年10月1日起，国内各大航空公司全面停止提供纸质版《航空运输电子客票行程单》，乘客需通过电子渠道获取电子发票（航空运输电子客票行程单）
2025-12-02航空，河北，电子
远大智能涉嫌信披违规拟被罚

沈阳远大智能工业集团股份有限公司（以下简称“远大智能”，002689.SZ）日前发布公告，收到中国证券监督管理委员会辽宁监管局出具的《行政处罚事先告知书》（［2025］6号），因涉嫌信息披露违法违规
2025-12-02远大智能，公司，营业收入
供应链数智化提速助力工业实现万亿级降本

非生产物资采购周期从原来的二十余天缩短到3-5天，供应链成本显著下降，管理效率大大提升……京东工业与徐工集团围绕采购供应链数智化进行共建，以数实融合为核心手段，通过非生产采购管理模式创新，助力企业降本增效
2025-12-02京东工业，采购，供应链
美股三大指数集体收跌加密货币概念股跌幅居前

美股三大指数集体收跌，道指跌0.89%，纳指跌0.38%，标普500指数跌0.53%，热门科技股多数下跌，博通跌超4%，谷歌、微软跌超1%，英伟达、苹果涨超1%
2025-12-02Coinbase，Sunrun，加密货币
世卫组织：GLP-1类减重药物为全球抗击肥胖开启“新篇章”

当地时间周一，世界卫生组织(WHO)表示，诸如Mounjaro等减重药物在应对全球肥胖危机方面潜力巨大，而到2030年全球预计将有20亿人受到肥胖影响
2025-12-02肥胖，世卫组织，药物