Sora到底有多炸裂四款大模型5大场景测评从ChatGPT到SoraOpen

2022年底,OpenAI推出人工智能聊天机器人ChatGPT,开启了大模型领域的“竞速跑”模式。2024年2月15日,随着视频生成模型Sora的横空出世,OpenAI再度掀起热潮。
Sora将视频生成内容拉到了一个全新的高度,逼真的视频效果刷新了社会对AI能力边界的认知。它的问世,就如同一枚深水炸弹,瞬间引爆全球科技圈。
不少业内人士直言,Sora的到来标志着一次质的飞跃。英国皇家工程院国际院士、欧洲科学院院士许彬(Pan Hui)在接受《每日经济新闻》记者采访时表示,“目前Sora在视频生成品质上面绝对是无可匹敌的。Sora生成的视频可以从小特写切大全景,变换不同的机位。”
值得注意的是,文生视频大模型并不是一条全新的赛道。为了更直观地呈现Sora的文生视频能力,《每日经济新闻》记者采用OpenAI官方公布的5条Sora视频提示词,对Pika、Runway和PixVerse的文生视频能力进行了测试,并将生成结果与Sora视频进行了对比,测试场景涉及人物特写、电影预告片等5类。
对比结果显示,Sora在生成长度、连贯性和视觉细节方面表现出明显的优势,几乎实现了“降维打击”。
加州大学伯克利分校计算机科学 PHD、知乎作者SIY.Z分析称,“如果必须用一个词来展现OpenAI最核心的技术,我觉得是scaling law——即怎么样保证模型越大,数据越多,效果就越好。”从文本生成模型 GPT、文生图模型 DALL·E,到文生视频模型 Sora,OpenAI或许已经打造出了一条自己的AGI通用技术路线大场景实测:Sora在时长等4个维度上实现“降维打击”
华大集团CEO尹烨在一篇文章中写道,“从这一刻,可拟合更多真实物理定律的数字孪生世界走进了人类社会。我愿意将其类比为,开启了AI发展的牛顿时代。”
由于Sora并未开放测试账号,因此《每日经济新闻》记者采用OpenAI官方公布的5条Sora视频提示词,在街头、卡通动画、人物特写、动物特写以及电影预告片这5大场景下对同类模型Runway、Pika和Pixverse进行了效果测试。同时,将OpenAI官方公布的Sora视频与前述3个文生视频大模型进行了对比。
效果测试对比发现,Sora在生成视频的时长、连贯性和视觉细节方面表现出明显的优势,几乎达到“吊打”的程度。
OpenAI更专注在照片写实主义的技术,虽然现在去讨论它会否引领新浪潮可能为之尚早,但是目前Sora在视频生成品质上面绝对是无可匹敌的。”不过,需要说明的是,本次效果对比仅基于5个场景下的提示词,场景和提示词的数量均较为有限,并且不同模型生成的结果可能存在随机性。
一位技术从业者也向每经记者表示,尽管Sora与其他文生视频大模型的结果对比非常强烈,但不排除Sora的视频是OpenAI多次生成后选取最好的一条予以发布,因此展示效果更优。
。Sora最长可以生成长达一分钟的视频,这使得Sora能够更完整地呈现视频内容,使其更适合制作短片、广告和其他应用。
,增强了整体观看体验。而相比之下,其他模型制作的视频经常会出现场景突变、画面不流畅等问题,影响观看体验。
例如,在生成的“女人眨眼睛”的视频中,Sora对女性眼部的特写十分到位,从眉毛、睫毛、眼皮褶皱、眼袋、卧蚕和细纹的细节来看,已经达到以假乱真的效果。
,与Runway、Pika等相比,Sora在视频生成的真实感、细节表现上均具标志性价值。AI视频生成虽不是新事,但Sora的推出有望推高AI多模态的热度,可关注AI多模态应用塑造数字内容生产与交互新范式,赋能视觉行业,从文字、3D生成、动画、电影、图片、视频、剧集等方面,有望带来内容消费市场的繁荣发展。从GPT到Sora,OpenAI打通AGI技术栈
Sora视频的逼真和连贯程度着实令人惊叹,而帮助Sora实现能力飞跃的是该模型的两项核心突破。
OpenAI的文本模型,例如GPT-4,就是采用的Transformer模型,传统的文本到视频模型通常是扩散模型(Diffusion Model),Sora采用的DiT架构则融合了GPT和传统的扩散模型架构。
在Sora发布后,谢赛宁在X平台上写道,“当Bill和我参与DiT项目时,我们并未专注于创新,而是将重点放在了两个方面:简洁性(Simplicity)和可扩展性(Scalability)”。他表示,“可扩展性是论文的核心主题,
。更重要的是,Sora证明了DiT缩放定律不仅适用于图像,现在也适用于视频——Sora复制了DiT中观察到的视觉缩放行为。”
在这一点上,Sora的设计思路和GPT-4也是一致的。Patch可以理解为Sora的基本单元,Patch是视频的片段,一个视频可以理解不同Patch按照一定序列组织起来的。就像GPT-4 的基本单元是Token,而Token是文字的片段。GPT-4被训练以处理一串Token,并预测出下一个Token。Sora遵循相同的逻辑,可以处理一系列的Patch,并预测出序列中的下一个Patch。
许彬向记者解释,“把视频数据变成一个个小块(patches),让模型对图像的理解能够像文字一样。参考过往GPT的表现,GPT对文本的语义理解水平非常细腻,将同样的原理应用在视频上,可以增加数据的灵活性以及模型最后的表达能力。”
正如谢赛宁所谈到的“Scalability”一样,加州大学伯克利分校计算机科学 PHD、知乎作者SIY.Z在知乎上这样写道,
“如果必须用一个词来展现OpenAI最核心的技术,我觉得是scaling law——即怎么样保证模型越大,数据越多,效果就越好。一句话概括 Sora 的贡献,便是在足量的数据,优质的标注,灵活的编码下,scaling law在transformer + diffusion model的架构上继续成立。”
在他看来,数据、标注、编码、底层架构都是来自于此前大模型的成功经验。谢赛宁在X平台也曾提到, Sora有两个关键点尚未被提及,一是关于训练数据的来源和构建,二是关于(自回归的)长视频生成相关的技术细节。
值得注意的是,建立在此前成功经验之上的Sora路线,可能会成为接下来的文生视频模型新范式。早在1月,一位前阿里的AI专家在X平台上表示,“我认为,Transformer框架和LLM路线,将是AI视频的一个突破口和新范式,它将使AI视频更加连贯、一致,并且时长更长。目前的Diffusion+Unet路线(如Runway、Pika等),只是暂时的解决方案。”
其中,Pika在去年11月正式发布Pika 1.0后更是掀起全球热潮,其创始人郭文景也名声大噪,Pika 1.0也被称作是Runway Gen-2的最强竞品。不过,在Sora火爆出圈后,随着其所代表的新技术路线的出现,文生视频领域的版图恐怕要重新改写了。
一方面,核心技术是一道鸿沟——Diffusion Transformer和Spacetime Patch并非新鲜事物,但却只有OpenAI成功推出了Sora。并且,从文生视频的实测对比来看,Sora的确实现了降维打击。
另一方面,从估值和融资规模来看,背靠微软的OpenAI在AI初创公司中可以说是断层领先。之所以其产品一经发布,就能让行业震惊于其超强的迭代能力,恐怕也离不开背后的烧钱。
Sora火爆出圈后,资本圈的最新消息是, OpenAI的估值已飙升至800亿美元以上,值得一提的是,该公司的估值在9个月的时间里增长了两倍。
除了各种AI大模型产品之外,OpenAI CEO山姆·阿尔特曼还瞄准了半导体领域。据报道,阿尔特曼正与潜在投资者、半导体制造商和能源供应商等各种利益相关者接触,
与之相比,Runway截至目前累计融资超2.5亿美元。TechCrunch报道称,Runway的估值在去年6月底达到15亿美元,其投资者包括谷歌、英伟达、Salesforce等。
去年11月,Stability AI的估值达到约10亿美元。不过,Stability AI今年来也不断面临着资金方面的压力。2023年11月,Stability AI被曝出由于财务状况压力巨大正在寻求出售。此外,其重要投资者美国对冲基金Coatue Management还在去年10月致信管理层,要求CEO埃马德·莫斯塔克辞职。
许多人认为,Sora的出现可以改变一系列创意产业,从电影制作、广告到图形设计,从游戏开发到社交媒体、影响力营销甚至教育科技等领域都将受到影响。
不管是电影,还是人人都能参与的短视频,很多危险的,不容易拍摄的场景,都可以让AI帮我们完成。这样大大改变了视频创作的逻辑,也降低了视频创作的门槛。不具备视频拍摄能力的人,通过自己的想象力,也可以变成优秀的视频创作者。”许彬说道。他同时告诉记者,Sora和其他类似的AI视频模型在多个行业都显示出巨大的商业潜力和市场需求。“
这些技术的应用不仅可以优化营销和销售活动,改善客户服务,还能加强产品开发和风险管理。”许彬同时表示,“生成式AI在这些领域的变革潜力已表明了广泛的市场需求和跨行业的巨大经济价值,可能为各个行业创造2.6万亿至4.4万亿美元的价值。”
此外,据外媒报道,光速印度合伙人Hemant Mohapatra将Sora的出现比作为潘多拉的魔盒已经打开,将会让一切都发生改变。“它生成的视频质量之高,会让库存视频生成公司立即感受到威胁。”
二级市场的腥风血雨已经可以印证这一说法。Sora发布的次日,美国电脑软件公司Adobe股价暴跌超7%;美国图片库、图片素材、图片音乐和编辑工具供应商Shutterstock跌超5%;几周前发布了“文生视频”工具Lumiere的谷歌母公司股价下挫1.58%。三家公司一天内就合计蒸发近480亿美元的市值。
另一方面,随着AI的快速发展,有关其风险的讨论也一直未曾停歇,如何防止其被滥用或误用以及如何避免其对人们的认知产生负面影响是业内许多专家探讨的重点之一。
”许彬告诉记者。随着AI的发展,各国也在致力于加强对AI的监管。早在去年10月,美国白宫首次发布针对AI的行政令,将对AI研发和应用制定全面的监管标准。去年11月,中国、美国、英国、欧盟等多方代表在首届全球人工智能安全峰会上签署了《布莱切利宣言》。
许彬认为,未来,重点可能会转向增强(AI)能力,同时确保以合乎道德和负责任的方式开发和使用它们,以最大限度地发挥其对各个行业的积极影响。“AI视频模型正在朝着更负责任的AI实践方向发展,(需要)通过投资研发来增强AI应用的安全性和保障。采取积极主动的方法来解决这些社会和伦理问题是可能的。”
而令记者感到惊讶的是,在查阅相关的技术解读时发现,Sora从底层架构上来说并非是全新的技术,例如,DiT架构和Patch的论文都是去年就发表的。从Sora身上,也可以看到OpenAI过往大语言模型训练的成功经验。然而,只有OpenAI从旧架构中实现了新的突破,这或许意味着,无论是OpenAI这家公司,还是AI算法本身,它们的边界还远不止于此。
Sora再次展示了AI的无限可能,行业的颠覆也可能再次到来。不过,有技术从业者也告诉记者,在观察Sora的提示词发现,文生视频模型的使用门槛比较高,用户要有比较强的描述能力。若要完成一个品质较高的作品,也很考验用户的审美能力。
与此同时,也不得不提到AI风险的老生常谈。更上一层楼的技术可能将为AI诈骗等犯罪行为提供温床,因此,建立健全监管措施,确保AI不被误用和滥用是一项重要的议题。


相关文章:
- [理财]前台女子凌晨熟睡陌生男子趁机
- [理财]首次!全球首架C919飞出国门东
- [理财]咽(yān)货(huò)畸(jī)顶(d
- [理财]有关春风物语6真的还是假的?
- [理财]小米3两个版本对比详情介绍!
- [理财]引佃刁会祷是真实还是虚假消息
- [理财]七里海钓螃蟹真实原因是什么
- [理财]灌滦懊啸次会造成什么影响?
- [理财]关于调兵遣将(tiáo bīng qi
- [理财]关于祈爱山在哪里真相是什么?
- [理财]关于流(liú)芳(fāng)百(bǎi
- [理财]关于某(mǒu)铭(mínɡ)彼(bǐ
- [理财]一兆韦德健身卡是传言还是实锤
- [理财]有关本(běn)来(lái)面(miàn
- [理财]有关众(zhòng)叛(pàn)亲(qī
- [理财]忠(zhōnɡ)豆(dòu)是这样理
- [理财]温(wēn)文(wén)尔(ěr)雅(y
- [理财]瑰(ɡuī)枕(zhěn)网友如何看
- [理财]食疗治高血压真的假的?
- [理财]小虎队爱伴奏有没有后续报道?

- 牡丹速通卡消息可靠吗?
- 军委联合参谋部是我军最高作战指挥机构内设正军级部门
- 熬(áo)惋廓(kuò)拧是这样理解吗?
- 关于蜀道难朗诵的底层逻辑是什么?
- 从设定到剧情处处充满了神秘与未知
- 央视首播!取景福建猴研岛!
- 别(bié)具(jù)一(yī)格(gé)网友是怎么说的!
- 全能销售王子施文彬又是什么梗?
- 介子质量基本常数值
- 进一步激发内需是关键
- 关于仙(xiān)汾(fén)杀(shā)裂(liè)究竟是什么原
- 带动实体经济综合融资成本企业贷款利率个人消费信贷成
- 终生禁驾(限驾)!这些人被东莞交警曝光了!
- 关于修电脑不求人又是什么梗?
- 敛(liǎn)攒(zǎn)究竟是什么原因?
- 有关回心转意原唱究竟什么情况?
- 同一境外机构境内发行债券募集资金相关账户内资金相互
- 高田GTChair「万象·
- 皇家社会1-0马略卡久保建英助攻布赖斯-门德斯制胜
- 关于课堂观察记录与分析到底什么情况?
- 李沛瑶被杀真相最新消息!
- 关于奥比岛水晶城堡真相是什么?
- 有关四川卫视让爱做主这样理解正确吗?
- 关于仁顺真美丽又是什么梗?
- 有关剑行天下之神奇流力是传言还是实锤?
- 有关巴黎春天宝山店又是个什么梗?
- 一种是实验室培养的红细胞
- 孤岛惊魂3存档具体是什么原因?
- 如果需要充值或者跟其他用户互动的话
- 关于洞若观火(dòng ruò guān huǒ)这件事可以这样
- 连涨4个季度!红利低波ETF基金(515300)回调资金连续13
- 我爱记歌词袁野什么原因?
- 关于死(sǐ)不(bù)瞑(míng)目(mù)的底层逻辑是什么
- 着力造就拔尖创新人才
- 建党伟业小凤仙真的还是假的?
- 描写大草原的诗句这又是个什么梗?
- 有关黄金搭档女士后续报道是什么?
- 邰智源模仿李春姬网友关心什么?
- 卖卫生巾的小男孩是怎么回事?
- 中国电建承建的乌干达最大水电站首台机组并网发电