当全球还沉迷在如何用文本生成文本,以及文本生成图片的时候,OpenAI就这么掏出来了一个视频生成模型Sora。有关Sora的具体介绍和效果展示可以看我们昨天的文章《》。简单来讲,这是一个能够根据文本指令或静态图像生成长达1分钟视频的扩散模型,而且视频中还包含精细复杂的场景、生动的角色表情以及复杂的镜头运动——它做到了目前市面上视频模型做不到的东西。
那么Sora是如何做到的?在中,我们曾第一时间基于仅有的信息给出了一个判断:
简单粗暴的理解,就是语言能力足够强大之后,它带来的泛化能力直接可以学习图像视频数据和它体现出的模式,然后还可以直接用学习来的图像生成模型最能理解的方式,给这些利用了引擎等已有的强大而成熟的视频生成技术的视觉模型模块下指令,最终生成我们看到的逼真而强大的对物理世界体现出“理解”的视频。
而之后OpenAI发布了Sora的技术报告:《Video generation models as world simulators》(视频生成模型作为世界模拟器),其中介绍的技术思路基本印证了我们上面的判断。
接下来我们一起来基于有限但足够信息丰富的技术报告来解读一下Sora背后的技术。
用大语言模型的方法理解视频
Sora的设计灵感来自于大语言模型,最主要的原因是大语言模型有一个核心功能是通过代码将多种文本形式进行了统一。而OpenAI为了训练出Sora,他们的做法也是将各类视觉数据转化为统一表示的方法。
不过在正式了解Sora之前,我们需要先科普一个概念——块(patches)。有点类似于大语言模型中的token,块指的是将图像或视频帧分割成的一系列小块区域。这些块是模型处理和理解原始数据的基本单元。
对于视频生成模型而言,块不仅包含了局部的空间信息,还包含了时间维度上的连续变化信息。模型可以通过学习patches之间的关系来捕捉运动、颜色变化等复杂视觉特征,并基于此重建出新的视频序列。这样的处理方式有助于模型理解和生成视频中的连贯动作和场景变化,从而实现高质量的视频内容生成。
OpenAI又在块的基础上,将其压缩到低维度潜在空间,再将其分解为“时空块”(spacetime patches)。
晕了是不是,别急,一个一个解释。潜在空间是一个3年前出现的概念,是指一个高维数据通过某种数学变换(如编码器或降维技术)后所映射到的低维空间,这个低维空间中的每个点通常对应于原始高维数据的一个潜在表示或抽象特征向量。但是呢,优化强大的扩散模型往往需要消耗数百个GPU日的计算资源,并且由于其序列评估性质,推理成本较高。因此,本质上来讲潜在空间,就是一个能够在复杂性降低和细节保留之间达到近乎最优的平衡点,极大地提升了视觉保真度。
时空块则是指从视频帧序列中提取出的、具有固定大小和形状的空间-时间区域。相较于块而言,时空块强调了连续性,模型可以通过时空块来观察视频内容随时间和空间的变化规律。
为了制造这些时空块,OpenAI训练了一个网络,用于降低视觉数据的维度,叫做视频压缩网络。这个网络接受原始视频作为输入,并输出一个在时间和空间上都进行了压缩的潜在表示。Sora在这个压缩后的潜在空间中进行训练和生成视频。同时,OpenAI还也训练了一个相应的解码器模型,用于将生成的潜在向量映射回像素空间。
刚才咱们也聊了,说这个“块”是非常接近token的,那么这些块的作用也应该和token差不太多。对于给定的压缩输入视频,OpenAi就直接提取一系列块作为Transformertoken使用,然后这些时空块会被进一步编码并传递给Transformer网络进行全局自注意力学习。最后利用Transformer的强大能力来处理并生成具有不同属性的视频内容。
这一方案同样适用于图像,因为图像可以看作是仅有一帧的视频。基于块的表示方法使得Sora能够对不同分辨率、时长和宽高比的视频和图像进行训练。在推理阶段,可以通过在一个适当大小的网格中排列随机初始化的块来控制生成视频的尺寸。
此外,在Sora模型的介绍页面虽然提到的都是通过文本来生成视频,但Sora还能够接受其他类型的输入,比如图像或视频,以达到图片生成视频、视频生成视频的效果。这一特性使得Sora能够执行广泛的图像和视频编辑任务——例如制作完美循环播放的视频、为静态图像添加动画效果、向前或向后延展视频时间轴等。
实现对物理世界的“涌现”
在长期的训练中OpenAI发现sora模型逐渐拥有了一项新能力,叫做三维一致性。指的是Sora能够生成动态视角的视频。同时随着视角的移动和旋转,人物及场景元素在三维空间中仍然保持一致的运动状态。
这个可能对咱们人类来说没什么,但是对于人工智能来说,还是相当厉害的。人工智能理解三维物理世界,跟人类理解三维物理世界的方式不一样,它采用了一种拓扑结构上的理解。注意,这里的拓扑结构不是计算机的拓扑结构,而是拓扑学中的拓扑结构。拓扑结构是一个几何或空间的抽象描述,用于描述集合中元素之间的连接方式和空间属性,而不考虑具体的度量或形状。它关注的是空间中点与点之间的连通关系以及空间的整体形状,而不是具体尺寸或角度等细节。
除此之外,既然视频的视角发生变化,那么相应的纹理映射也要改变。Sora的真实感非常强,换句话说,纹理映射在拓扑结构上就得非常准确。三维一致性能力使Sora能够模拟来自现实世界中人物、动物和环境的某些方面。
一个让人兴奋中带着点害怕的消息是,这些属性并非通过为3D、物体等添加明确的归纳偏置而产生——它们纯粹是规模效应的现象。也就是说,是Sora自己根据训练的内容,判断出了现实世界中的一些物理客观规律,某种程度上,人类如果仅仅是通过肉眼观察,也很难达到这样的境界。
还有一点,视频生成系统面临的一项重大挑战是在生成长视频时保持时间上的连贯性。而Sora也能够有效地模拟短程和长程依赖关系。例如,即使人物、动物或物体被遮挡或离开画面,Sora仍能保持这些元素存在于视线外,等到视角转换到能看到他们的时候,再将这些内容展现出来。同样的,它能够在单个样本中生成同一角色的多个镜头,并在整个视频中保持其外观的一致性。
事实上这点倒没有什么,因为Sora是从transformer模型中孕育的,而transformer模型本身就能通过全局自注意力机制等技术来实现很高的连续性。Sora只不过是从视频方面阐述了这种连续性而已。
对此,OpenAI得出了一个结论:视频生成模型是构建通用物理世界模拟器的一条有前景的道路。
Sora目前所展现的能力表明,它是能通过观察和学习来了解物理规律。就Sora的这个理解力,说句实在的比我都强,老师在上面讲课,我只能做到眼睛会了,脑子不会。
不过Sora当前作为一个模拟器存在许多局限性。在OpenAI的主页上,他们列举了该模型的一些常见失效模式,比如在长时间采样中可能出现的不连贯现象,以及物体无端出现等异常情况。从现有的结果来看,它还无法准确模拟许多基本交互的物理过程,像是玻璃破碎,以及其他类型的交互,比如吃食物。物体状态的变化并不总是能够得到正确的模拟,这说明很多现实世界的物理规则是没有办法通过现有的训练来推断的。
这些是这篇技术报告里最核心的信息,一如既往的,OpenAI在模型和实现细节方面继续保持Close,不过,在报告中,OpenAI在不停提到“大力出奇迹”的效果:
关于涌现,它写道:我们发现,当大规模地进行训练时,视频模型展现出许多有趣的涌现能力。这些能力使得Sora能够模拟现实世界中人类、动物和环境的某些方面。这些属性并没有任何针对3D、物体等的明确归纳偏见——它们纯粹是规模效应的现象。
OpenAI显然在把Sora描述成它一直坚持的Scaling law的又一次胜利——没有多么纯粹原创的技术,很多技术成分早已存在,但它却比所有人都更笃定的走了下去,并用足够多的资源在巨大的规模上验证了它。
在7月2日涨停后,7月3日亚玛顿(002623)再度收于涨停板。当日晚间该公司披露了股票交易异常波动公告。 亚玛顿表示,针对公司股票交易异常波动的情况,公司进行了自查,并向公司控股股东、实际控制人就相关事项进行了书面核实
2025-07-04公司,投资者,金融界近期,钢铁、光伏等板块显著升温。市场情绪提振的背后,是各行业纷纷吹起“反内卷”号角。 伴随着中央财经委员会第六次会议直指“内卷式”竞争治理,强调“推动落后产能有序退出”,光伏、钢铁、水泥行业已迅速开展减产工作
2025-07-04行业,企业,光伏据央视新闻此前报道,6月30日下午,韩国共同民主党国会议员、韩国国会情报委员会执政党干事朴善源在韩国国会召开记者会称,获得军方内部消息显示,去年10月朝鲜指责韩国派出无人机入侵平壤一事确系韩军所为
2025-07-04韩国,无人机,尹锡悦工业和信息化部召开光伏行业制造业企业座谈会 2025年7月3日,工业和信息化部党组书记、部长李乐成主持召开第十五次制造业企业座谈会,深入学习贯彻习近平总书记重要指示批示精神,落实党中央、国务院决策部署,聚焦加快推动光伏产业高质量发展
2025-07-04行业,企业,光伏中新网义乌7月3日电(董易鑫)将超210万种商品销往全球230多个国家和地区、吸引超2万名常驻外商和近9000家外资主体是浙江义乌商人“做地球人生意”的底气
2025-07-04义乌,义乌中国小商品城,品牌出海2个多月前,华锡有色(600301.SH,股价20.99元,市值132.78亿元)子公司参与了广西河池市金城江区寨平铅锌矿勘查探矿权(以下简称探矿权)网上挂牌出让竞拍,并以近1.26亿元竞得
2025-07-04华锡有色,探矿权,广西受益于2024年维生素涨价带来的红利,主要厂商今年一季度业绩同比激增,但进入二季度,随着维生素价格持续下行,厂商业绩增速明显放缓
2025-07-04维生素,净利润,兄弟科技7月3日,香港交易及结算所有限公司(以下简称香港交易所)举行香港综合基金平台(IFP)新服务上线仪式(以下简称仪式),宣布正式在该平台推出订单传递服务,以更有效地连接基金分销生态圈中的主要参与者,助力提升香港基金市场效率
2025-07-04香港交易所,综合,香港7月3日,必得科技(SH605298)回复了上交所问询函。 《每日经济新闻》记者注意到,必得科技2022年底收购的北京京唐德信轨道设备有限公司(以下简称京唐德信)系此次问询的焦点之一
2025-07-04必得科技,2024,商誉减值7月3日今日晚间,小鹏G7正式上市。新车分为602长续航Max版、702超长续航Max版、702超长续航Ultra版三个版本车型,售价分别为19.58万元、20.58万元、22.58万元。小鹏G7此前已启动预售,预售价为23.58万元
2025-07-04续航,算力,Ultra券商机构7月“金股”组合陆续公布。广州日报新花城记者梳理Wind数据发现,目前市场上券商发布的金股组合中,包含了超过256只股票,电子、电力设备、生物医药、基础化工等行业金股数量占比靠前
2025-07-04券商,电力设备,机械设备惠州亿纬锂能股份有限公司(以下简称“亿纬锂能”,300014.SZ)于近日正式向港交所递交上市申请,中信证券为独家保荐人。若成功登陆港股,该公司将成为又一家实现A+H股双资本平台的中国锂电企业,其在全球化战略布局迈出关键一步
2025-07-04亿纬锂能,公司,全球据美联社报道,美国微软公司7月2日宣布,将在全球范围内裁员近4%。这是该公司近几个月以来第三次宣布大规模裁员,也是自2023年以来的最大规模裁员
2025-07-04微软,代码,AI松炀资源(603863)7月3日晚间公告,公司控股股东、实控人王壮鹏此前通知正在筹划公司股份协议转让事宜,该事项可能导致公司控制权发生变更。公司股票已于6月27日开市起停牌
2025-07-04松炀资源,公司,控制权每经AI快讯,有投资者在投资者互动平台提问:截止2025-05-31,贵司还未发布2024年度ESG报告,在当前纺织服装大部分公司都已发布,可持续发展已成为主流趋势的情况下
2025-07-04ESG,梦洁股份,报告7月3日晚,@天津航空微博通报: 7月2日,天津航空执飞GS7833航班的飞机出现机械故障,为确保飞行绝对安全,机组果断处置及时中断起飞,并第一时间调换飞机,最终顺利保障全部旅客安全抵达目的地
2025-07-04天津航空,飞机,机场7月1日 为期62天的暑运正式开始 全国铁路运行图也开启了"暑运模式" 列车提速、线路新增、服务优化 .....
2025-07-04优惠,列车,铁路每经AI快讯,有投资者在投资者互动平台提问:截止2025-05-31,贵司还未发布ESG报告,在当前纺织服装大部分公司都已发布,可持续发展已成为主流趋势的情况下
2025-07-04华纺股份,ESG,投资者当地时间7月3日,美国发布新的与伊朗相关制裁措施。 当天,美国财政部海外资产控制办公室(OFAC)发布声明,宣布对多个协助伊朗石油贸易的商业网络实施制裁
2025-07-04制裁,伊朗,美国财政部近日,A股两大锂电材料巨头天赐材料与永太科技先后公告互相起诉,前者以“商业秘密侵权”为由索赔8.87亿元,后者则以“名誉侵权”为由反诉要求判赔5751.93万元
2025-07-04永太科技,天赐材料,临海市人民法院每经AI快讯,有投资者在投资者互动平台提问:公司目前是否有回购计划? 华铭智能(300462.SZ)7月3日在投资者互动平台表示,尊敬的投资者,您好!公司目前没有回购计划,感谢您的关注
2025-07-04华铭智能,投资者,计划资本市场稳定币的热潮仍在持续。 7月3日,有市场消息称,港股上市公司多点数智(02586.HK)正在筹备申请中国香港稳定币牌照,瞬间点燃市场情绪,其股价也直线拉升,盘中涨幅最高接近90%,收盘涨幅回落至23%左右,总市值100亿港元
2025-07-04多点数智,稳定,零售每经AI快讯,有投资者在投资者互动平台提问:公司主要都有哪些经营业务?饲料?兽药?生猪?食品? 天邦食品(002124.SZ)7月3日在投资者互动平台表示,您好,公司目前主营业务为生猪养殖和猪肉制品加工
2025-07-04生猪,天邦食品,投资者长高电新7月3日晚间发布公告称,公司财务总监刘云强先生持有公司股份约82万股,占公司股份总数的0.13%,计划在本公告披露之日起15个交易日后的3个月内(即2025年7月25日至2025年10月24日)
2025-07-04长高电新,刘云强,公司世华科技7月3日晚间发布公告称,苏州世华新材料科技股份有限公司于2025年7月3日收到上海证券交易所出具的《关于苏州世华新材料科技股份有限公司向特定对象发行股票的交易所审核意见》
2025-07-04苏州世华新材料科技股份有限公司,世华科技,上海证券交易所吉宏股份7月3日晚间发布公告称,截至2025年6月30日,公司通过回购专用证券账户以集中竞价交易方式累计回购公司股份数量约74万股,占目前总股本约3.85亿股的0.1934%,最高成交价为人民币13.8元/股
2025-07-04吉宏股份,人民币,回购被天赐材料提起商业秘密侵权诉讼后,永太科技(SZ002326,股价12.16元,市值112.53亿元)迅速做出“反击”
2025-07-04永太科技,天赐材料,临海市人民法院*ST节能7月3日晚间发布公告称,公司第十届第五次董事会临时会议于2025年7月3日以现场会议结合通讯会议方式召开。会议审议了《关于修订的议案》等文件
2025-07-04*ST节能,会议,董事会会议韶能股份7月3日晚间发布公告称
2025-07-04韶能股份,实际控制人,韶关市金财投资集团有限公司五穷六绝七翻身,周期股的春天悄然来袭? 进入7月,做风能的吉鑫科技(601218.SH)、做钢铁的柳钢股份(601003.SH)均收获三连板,而光伏行业的亚玛顿(002623.SZ)、亿晶光电(600537.SH)也实现了两连板
2025-07-04行业,企业,光伏