西南证券：OpenAI Sora专题：Transformer扩展优势凸显，视频理解与生成能力提升

发布者：wx****cc

2024-02-28

4 MB 37 页

影视西南证券

文件列表：

西南证券：OpenAI Sora专题：Transformer扩展优势凸显，视频理解与生成能力提升.pdf

下载文档

资源简介

核心观点事件：2024年2月16日，OpenAI发布文生视频模型——Sora及其技术报告《Videogenerationmodelsasworldsimulators》。从Sora模型看文生视频的技术路径：技术路径尚未收敛，Transformer扩展特性优势凸显。市场大多认为扩散模型是图像和视频生成领域的主流路径，但没有重视Transformer架构scaleup的能力。OpenAI技术报告指出，Sora是基于扩散模型，但更强调，Sora是一个基于Transformer架构的扩散模型，其优秀的生成能力离不开Transformer架构优秀的scaling特性。当前，为构建性能更优、效率更高的视频生成模型，已出现多种结合DiffusionModel和Transformer架构的构建方式。从Sora模型看文生视频的最新能力（假设展示视频可以代表Sora的一般性表现）：1）强大的理解能力：Sora模型不仅可以理解Prompt的内容，还能理解事物在物理世界中的存在方式，突出的语言理解能力是其能够准确生成视频的前提。2）优秀的生成能力：①长度：可生成60s视频；②复杂度：能够生成包含多个角色

加载中...

本文档仅能预览20页

继续阅读请下载文档