文件列表:
西南证券:OpenAI Sora专题:Transformer扩展优势凸显,视频理解与生成能力提升.pdf |
下载文档 |
资源简介
>
核心观点
事件:2024年2月16日,OpenAI发布文生视频模型——Sora及其技术报告《Videogenerationmodelsasworldsimulators》。
从Sora模型看文生视频的技术路径:技术路径尚未收敛,Transformer扩展特性优势凸显。市场大多认为扩散模型是图像和视频生成领域的主流路径,但没有重视Transformer架构scaleup的能力。OpenAI技术报告指出,Sora是基于扩散模型,但更强调,Sora是一个基于Transformer架构的扩散模型,其优秀的生成能力离不开Transformer架构优秀的scaling特性。当前,为构建性能更优、效率更高的视频生成模型,已出现多种结合DiffusionModel和Transformer架构的构建方式。
从Sora模型看文生视频的最新能力(假设展示视频可以代表Sora的一般性表现):1)强大的理解能力:Sora模型不仅可以理解Prompt的内容,还能理解事物在物理世界中的存在方式,突出的语言理解能力是其能够准确生成视频的前提。2)优秀的生成能力:①长度:可生成60s视频;②复杂度:能够生成包含多个角色
加载中...
本文档仅能预览20页



