中金：Sora实现AI+视频场景效果突破

2024-02-20 21:01:14 来源: 财经新闻网作者:佚名

财经新闻网消息：Vaw财经新闻网

中金公司认为，Sora通过架构的帮助，在AI+视频场景上取得了突破，并展现了出色的扩展性。展望未来，我们判断基于架构的大型模型有望在更多模态领域得到复制，并看好多模态领域的技术进步。Vaw财经新闻网

其核心要点如下：Vaw财经新闻网

延续DiTs架构，Sora实现了高质量的长视频生成。根据技术报告，Sora延续了DiTs架构，随着训练计算量的增加，生成能力显着提升（）。与之前的模型相比，我们认为其最突出的创新是：1）LDM自编码器实现了时间维度压缩，使得长视频生成成为可能； 2）直接在LDM中分块潜在视频并直接使用建模，同时解除输入格式限制，可以创新性地实现任意像素和长宽比的视频生成； 3）我们判断其训练数据集可能包含具有物理信息的合成数据，以便模型能够展示其对物理的理解。对信息的初步了解； 4）复用DALL·E 3的重新标注技术，为视频数据生成高质量的文本标注，并使用GPT扩展提示词，提高生成效果。Vaw财经新闻网

_有机化工原料的生产技术及进展_视频模型展示怎么做 Vaw财经新闻网

技术基础1：扩散模型是当前图像/视频生成的主要技术路线。扩散模型通过神经网络（主要是U-Net）从纯噪声图像中学习去噪过程，通过给出噪声来完成图像生成任务。潜在扩散模型（模型）通过降维进一步提高训练效率、降低训练成本，已成为图像生成的主要技术路线。基于预训练的图像生成模型，学术界提出通过生成关键帧并按时间序列对齐，可以将图像生成模型转换为视频生成模型。但该类模型存在生成时间短、稳定性差等缺点。Vaw财经新闻网

_视频模型展示怎么做_有机化工原料的生产技术及进展 Vaw财经新闻网

技术基础二：架构的引入使得扩散模型能够达到规模效应。 DiTs(·)用一种更具可扩展性的网络取代了之前扩散模型的骨干U-Net卷积网络，从而实现了更强的可扩展性，即可以通过增加参数规模和数量来快速提升模型的性能训练数据。性能方面，该模型在图像生成任务上表现良好。 WALT首次将该架构引入视频生成模型中，利用窗口注意力降低对算力的需求，展示了良好的视频生成能力。Vaw财经新闻网

视频模型展示怎么做__有机化工原料的生产技术及进展 Vaw财经新闻网

我们相信Sora通过架构的帮助，在AI+视频场景效果上取得了突破，并展现了出色的可扩展性。展望未来，我们判断基于架构的大型模型有望在更多模态领域得到复制，并看好多模态领域的技术进步。Vaw财经新闻网

_视频模型展示怎么做_有机化工原料的生产技术及进展 Vaw财经新闻网

风险Vaw财经新闻网

技术进步不及预期；应用实施未达到预期；行业竞争加剧。Vaw财经新闻网

免责声明 ① 本网所刊登文章均来自网络转载;文章观点不代表本网立场,其真实性由作者或稿源方负责 ② 如果您对稿件和图片等有版权及其他争议,请及时与我们联系,我们将核实情况后进行相关删除 ③ 联系邮箱:215858170@qq.comVaw财经新闻网

上一篇: 萃取法短流程制备钒电解液制备示范线成功运行

中金：Sora实现AI+视频场景效果突破

發佈評論:

5 月 27 日 A 股市场小幅高开，板块分化明显，能源股表现居前

恒大汽车复牌后股价涨超 105%，天津工厂尚未恢复生产

国家卫健委印发 2024 年纠正医药购销和医疗服务不正之风工作要点

红利主题基金发行火热，防御属性成市场宠儿

大量同名基金让专家眼花缭乱，公募基金该如何打破“同质化”？