当全球还沉迷在如何用文本生成文本,以及文本生成图片的时候,OpenAI就这么掏出来了一个视频生成模型Sora。有关Sora的具体介绍和效果展示可以看我们昨天的文章《》。简单来讲,这是一个能够根据文本指令或静态图像生成长达1分钟视频的扩散模型,而且视频中还包含精细复杂的场景、生动的角色表情以及复杂的镜头运动——它做到了目前市面上视频模型做不到的东西。
那么Sora是如何做到的?在中,我们曾第一时间基于仅有的信息给出了一个判断:
简单粗暴的理解,就是语言能力足够强大之后,它带来的泛化能力直接可以学习图像视频数据和它体现出的模式,然后还可以直接用学习来的图像生成模型最能理解的方式,给这些利用了引擎等已有的强大而成熟的视频生成技术的视觉模型模块下指令,最终生成我们看到的逼真而强大的对物理世界体现出“理解”的视频。
而之后OpenAI发布了Sora的技术报告:《Video generation models as world simulators》(视频生成模型作为世界模拟器),其中介绍的技术思路基本印证了我们上面的判断。
接下来我们一起来基于有限但足够信息丰富的技术报告来解读一下Sora背后的技术。
用大语言模型的方法理解视频
Sora的设计灵感来自于大语言模型,最主要的原因是大语言模型有一个核心功能是通过代码将多种文本形式进行了统一。而OpenAI为了训练出Sora,他们的做法也是将各类视觉数据转化为统一表示的方法。
不过在正式了解Sora之前,我们需要先科普一个概念——块(patches)。有点类似于大语言模型中的token,块指的是将图像或视频帧分割成的一系列小块区域。这些块是模型处理和理解原始数据的基本单元。
对于视频生成模型而言,块不仅包含了局部的空间信息,还包含了时间维度上的连续变化信息。模型可以通过学习patches之间的关系来捕捉运动、颜色变化等复杂视觉特征,并基于此重建出新的视频序列。这样的处理方式有助于模型理解和生成视频中的连贯动作和场景变化,从而实现高质量的视频内容生成。
OpenAI又在块的基础上,将其压缩到低维度潜在空间,再将其分解为“时空块”(spacetime patches)。
晕了是不是,别急,一个一个解释。潜在空间是一个3年前出现的概念,是指一个高维数据通过某种数学变换(如编码器或降维技术)后所映射到的低维空间,这个低维空间中的每个点通常对应于原始高维数据的一个潜在表示或抽象特征向量。但是呢,优化强大的扩散模型往往需要消耗数百个GPU日的计算资源,并且由于其序列评估性质,推理成本较高。因此,本质上来讲潜在空间,就是一个能够在复杂性降低和细节保留之间达到近乎最优的平衡点,极大地提升了视觉保真度。
时空块则是指从视频帧序列中提取出的、具有固定大小和形状的空间-时间区域。相较于块而言,时空块强调了连续性,模型可以通过时空块来观察视频内容随时间和空间的变化规律。
为了制造这些时空块,OpenAI训练了一个网络,用于降低视觉数据的维度,叫做视频压缩网络。这个网络接受原始视频作为输入,并输出一个在时间和空间上都进行了压缩的潜在表示。Sora在这个压缩后的潜在空间中进行训练和生成视频。同时,OpenAI还也训练了一个相应的解码器模型,用于将生成的潜在向量映射回像素空间。
刚才咱们也聊了,说这个“块”是非常接近token的,那么这些块的作用也应该和token差不太多。对于给定的压缩输入视频,OpenAi就直接提取一系列块作为Transformertoken使用,然后这些时空块会被进一步编码并传递给Transformer网络进行全局自注意力学习。最后利用Transformer的强大能力来处理并生成具有不同属性的视频内容。
这一方案同样适用于图像,因为图像可以看作是仅有一帧的视频。基于块的表示方法使得Sora能够对不同分辨率、时长和宽高比的视频和图像进行训练。在推理阶段,可以通过在一个适当大小的网格中排列随机初始化的块来控制生成视频的尺寸。
此外,在Sora模型的介绍页面虽然提到的都是通过文本来生成视频,但Sora还能够接受其他类型的输入,比如图像或视频,以达到图片生成视频、视频生成视频的效果。这一特性使得Sora能够执行广泛的图像和视频编辑任务——例如制作完美循环播放的视频、为静态图像添加动画效果、向前或向后延展视频时间轴等。
实现对物理世界的“涌现”
在长期的训练中OpenAI发现sora模型逐渐拥有了一项新能力,叫做三维一致性。指的是Sora能够生成动态视角的视频。同时随着视角的移动和旋转,人物及场景元素在三维空间中仍然保持一致的运动状态。
这个可能对咱们人类来说没什么,但是对于人工智能来说,还是相当厉害的。人工智能理解三维物理世界,跟人类理解三维物理世界的方式不一样,它采用了一种拓扑结构上的理解。注意,这里的拓扑结构不是计算机的拓扑结构,而是拓扑学中的拓扑结构。拓扑结构是一个几何或空间的抽象描述,用于描述集合中元素之间的连接方式和空间属性,而不考虑具体的度量或形状。它关注的是空间中点与点之间的连通关系以及空间的整体形状,而不是具体尺寸或角度等细节。
除此之外,既然视频的视角发生变化,那么相应的纹理映射也要改变。Sora的真实感非常强,换句话说,纹理映射在拓扑结构上就得非常准确。三维一致性能力使Sora能够模拟来自现实世界中人物、动物和环境的某些方面。
一个让人兴奋中带着点害怕的消息是,这些属性并非通过为3D、物体等添加明确的归纳偏置而产生——它们纯粹是规模效应的现象。也就是说,是Sora自己根据训练的内容,判断出了现实世界中的一些物理客观规律,某种程度上,人类如果仅仅是通过肉眼观察,也很难达到这样的境界。
还有一点,视频生成系统面临的一项重大挑战是在生成长视频时保持时间上的连贯性。而Sora也能够有效地模拟短程和长程依赖关系。例如,即使人物、动物或物体被遮挡或离开画面,Sora仍能保持这些元素存在于视线外,等到视角转换到能看到他们的时候,再将这些内容展现出来。同样的,它能够在单个样本中生成同一角色的多个镜头,并在整个视频中保持其外观的一致性。
事实上这点倒没有什么,因为Sora是从transformer模型中孕育的,而transformer模型本身就能通过全局自注意力机制等技术来实现很高的连续性。Sora只不过是从视频方面阐述了这种连续性而已。
对此,OpenAI得出了一个结论:视频生成模型是构建通用物理世界模拟器的一条有前景的道路。
Sora目前所展现的能力表明,它是能通过观察和学习来了解物理规律。就Sora的这个理解力,说句实在的比我都强,老师在上面讲课,我只能做到眼睛会了,脑子不会。
不过Sora当前作为一个模拟器存在许多局限性。在OpenAI的主页上,他们列举了该模型的一些常见失效模式,比如在长时间采样中可能出现的不连贯现象,以及物体无端出现等异常情况。从现有的结果来看,它还无法准确模拟许多基本交互的物理过程,像是玻璃破碎,以及其他类型的交互,比如吃食物。物体状态的变化并不总是能够得到正确的模拟,这说明很多现实世界的物理规则是没有办法通过现有的训练来推断的。
这些是这篇技术报告里最核心的信息,一如既往的,OpenAI在模型和实现细节方面继续保持Close,不过,在报告中,OpenAI在不停提到“大力出奇迹”的效果:
关于涌现,它写道:我们发现,当大规模地进行训练时,视频模型展现出许多有趣的涌现能力。这些能力使得Sora能够模拟现实世界中人类、动物和环境的某些方面。这些属性并没有任何针对3D、物体等的明确归纳偏见——它们纯粹是规模效应的现象。
OpenAI显然在把Sora描述成它一直坚持的Scaling law的又一次胜利——没有多么纯粹原创的技术,很多技术成分早已存在,但它却比所有人都更笃定的走了下去,并用足够多的资源在巨大的规模上验证了它。
本报讯 (记者赵彬彬)2025年1月2日晚,永泰能源集团股份有限公司(以下简称“永泰能源”)公告,公司已通过上海证券交易所交易系统以集中竞价交易方式累计回购股份2.222亿股,占公司总股本的比例已达到1.00%
2025-01-03公司,回购股份,回购蓝鲸新闻1月3日讯(记者汤诗韵)刚刚过去的2024年,短剧行业高速扩张、内卷和迭代。这一年,霸总题材闯入中老年赛道,免费短剧占据大盘半壁江山,而海外市场则疯狂增长了十几倍。与此同时,新人进场更难了,“投资200万回收50万”的现象屡见不鲜
2025-01-03短剧,李涛,行业过去一年,全球经济持续复苏,贸易需求总体上升,中国经济在重重考验中稳步向前。中央经济工作会议指出,我国经济基础稳、优势多、韧性强、潜能大,长期向好的支撑条件和基本趋势没有变
2025-01-03企业家,企业,2024N黄山谷(301581)今日上市,开盘上涨190.91%,截至上午收盘涨幅扩大至200.55%,半日成交量1245.02万股,成交额10.53亿元,换手率62.25%
2025-01-03换手率,功率半导体,N天和今日港股延续震荡,但部分个股续创近一年新高,比如名创优品在开年以来持续走强。截至发稿,涨9.71%,报52.55港元。 注:名创优品的近期表现 名创优品的此次上涨或许与背后IP联名相关
2025-01-03名创优品,游戏,09896ST金鸿再度涨停,5个交易日内录得3个涨停,累计涨幅为11.70%,累计换手率为14.06%。截至10:25,该股今日成交量1240.52万股,成交金额2541.51万元,换手率1.82%。最新A股总市值达14.29亿元
2025-01-0320,24.,ST金鸿每经AI快讯,天眼查App显示,近日,杭州杭实低空产业私募基金合伙企业(有限合伙)成立,执行事务合伙人为杭实产投控股(杭州)集团有限公司,出资额4.1亿元人民币,经营范围包括以私募基金从事股权投资、投资管理、资产管理等活动
2025-01-03私募基金,杭州,有限公司1月3日,深耕高性能稀土永磁材料领域的天和磁材在沪市主板上市。公司股价开盘大涨,涨幅一度超过700%
2025-01-03公司,2024,公告美国当选总统特朗普身边的“大红人”马斯克最近表示支持H-1B签证计划。该计划在特朗普阵营的两个派系之间造成了裂痕。眼下,美国政界围绕H-1B签证的争论正愈演愈烈。 佛蒙特州参议员伯尼·桑德斯周四抨击了该计划,并向马斯克开火
2025-01-03马斯克,特斯拉,捐赠2025年1月2日,新研股份(300159.SZ)公告称,受业务回款压力和资金流动性压力影响,公司及子公司四川新航钛科技有限公司未能如期偿还部分银行、非银行机构借款利息,导致利息欠付及部分银行本金尚未按期偿还,导致本金逾期
2025-01-03银行,开源证券,修复腾讯1月3日发布消息,截至2024年12月31日,腾讯控股(HK00700)全年共回购3.07亿股,总金额达1120亿港元。2024年3月,腾讯在2023年年报中公布了不少于千亿港元的年度回购计划
2025-01-03回购,港元,极兔速递-W中证网讯(王珞)嘉元科技(688388)1月2日微信公众号消息,在2024宁德时代供应商大会上,嘉元科技凭借优质的产品和服务,荣获宁德时代2024年度“可持续发展奖”
2025-01-03嘉元科技,宁德时代,2024企查查APP显示,近日,北京方正高科信息技术有限公司成立,法定代表人为付广庆,注册资本1亿元,经营范围包含:工业控制计算机及系统销售;计算机及办公设备维修;信息系统运行维护服务等。企查查股权穿透显示,该公司由中国高科全资持股
2025-01-03中国高科,信息技术,计算机每经AI快讯,天眼查App显示,近日,杭州时代电服科技有限公司成立,法定代表人为冯力,注册资本2000万元人民币,经营范围包括电动汽车充电基础设施运营、智能输配电及控制设备销售、新能源汽车电附件销售等
2025-01-03宁德时代,北汽蓝谷,北京每经AI快讯,天眼查App显示,近日,北京京能新能源并购股权投资基金(有限合伙)成立,执行事务合伙人为北京京能同鑫投资管理有限公司,出资额约25亿元人民币,经营范围为以自有资金从事投资活动,以私募基金从事股权投资、投资管理、资产管理等活动
2025-01-03股权投资基金,并购,北京京能新能源中证网讯(王珞)2025年1月3日,深交所召开并购重组审核委员会2025年第1次审议会议,审议罗博特科智能科技股份有限公司(股票代码:300757)发行股份购买ficonTEC股权的相关事宜
2025-01-03罗博特科,ficonTEC,光电器件近日,076两栖攻击舰首舰“四川舰”下水命名仪式在上海沪东中华造船厂举行,倍受各方关注,据了解该型舰是中国海军新一代两栖攻击舰,创新应用了电磁弹射和阻拦技术,可搭载固定翼战机、直升机和两栖装备等
2025-01-03湘电股份,低空经济,核心技术本报记者刘钊 2025年1月2日,全球制药巨头礼来公司宣布,创新药物替尔泊肽注射液(商品名:穆峰达®,以下简称“替尔泊肽”)正式在中国上市
2025-01-03减肥药,肥胖,中国证券时报e公司讯,企查查APP显示,近日,广东高域科技有限公司成立,法定代表人为苏庆鹏,注册资本2.3亿元,经营范围包含:工业机器人制造;智能无人飞行器制造;集成电路设计;人工智能基础软件开发;人工智能理论与算法软件开发等
2025-01-03飞行器,广汽集团,广东2025年1月3日,艾森股份(688720.SH)公告称,公司已完成收购 INOFINE 股权的全部对价款支付。近日,INOFINE已完成马来西亚公司变更登记程序,并向新加坡子公司签发《股权证书》
2025-01-03INOFINE,艾森股份,公司证券时报网讯,天禄科技1月3日在交易所互动平台中披露,截至12月31日公司股东户数为6960户,较上期(12月20日)减少998户,环比降幅为12.54%
2025-01-03天禄科技,下跌,证券时报1月3日,激光雷达龙头公司速腾聚创股价大涨,截至午间收盘,速腾聚创报32.9港元/股,涨12.67%。 消息面上,1月3日上午,速腾聚创2025AI机器人全球发布会在线召开
2025-01-03速腾聚创,机器人,激光雷达21世纪经济报道记者赵云帆北京报道 四维图新(002405.SZ)的员工喜欢把CEO程鹏叫做“PC”——好记,“洋气”,可能也与程鹏和外资、合资车厂打交道比较多有关。 在外界来看,四维图新是带着国资背景的 Tier one(一级供应商)
2025-01-03程鹏,四维图新,华为每经AI快讯,宋城演艺午间公告称,公司及旗下全资孙公司与多方签署《“丝路千古情”大型演艺项目合作协议书》,项目占地约120亩,公司提供一揽子服务费用2.6亿元
2025-01-03项目,宋城演艺,有限公司在A股集体回调的背景下,低迷多时的医药板块突然异动拉升。 今日早盘,A股整体小幅震荡,主要股指涨跌互现,上证指数、创业板指微幅飘绿,北证50、科创50等小幅上扬。下跌个股多于上涨个股,成交略有萎缩的趋势
2025-01-03医药,石油,天然气两家A股上市公司公告债务逾期。 1月2日晚,山东华鹏(603021.SH)公告披露,公司及子公司山东华鹏石岛玻璃制品有限公司由于现金流压力较大,无法清偿到期债务,导致出现未能按时履行部分债务偿还义务的情况
2025-01-03山东华鹏,新研股份,债务今日(1月3日)市场早盘延续调整,三大指数小幅下跌,两市半日成交额7444亿,较上个交易日缩量305亿。截至午间收盘,沪指跌0.46%,深成指跌0.23%,创业板指跌0.28%
2025-01-03涨停,AI眼镜,光学光电子乔治白1月3日在交易所互动平台中披露,截至12月31日公司股东户数为19048户,较上期(12月20日)减少1446户,环比降幅为7.06%。这已是该公司股东户数连续第2期下降
2025-01-03乔治白,股东户数,公司安源煤业上演“地天板”行情,股价从跌停拉升至涨停,截至10:39,该股成交量1.59亿股,成交额6.06亿元,振幅达20.00%,换手率16.11%,涨停板封单金额为4789.95万元
2025-01-03安源煤业,跌停,涨停*ST鹏博再度涨停,7个交易日内录得5个涨停,累计涨幅为20.00%,累计换手率为19.88%。截至10:33,该股今日成交量7983.10万股,成交金额1.70亿元,换手率5.73%
2025-01-0320,24.,*ST鹏博