文件列表:
开源证券:传媒行业周报:大厂加速模型升级,继续布局游戏等多模态AI应用.pdf |
下载文档 |
资源简介
>
字节/阿里/腾讯/谷歌再度升级多模态模型,智谱拟港交所IPO,继续布局AI12月16日,阿里巴巴发布新一代万相2.6系列模型,为国内首个支持角色扮演功能的视频模型及全球功能最全的视频生成模型,单次视频生成时长实现国内最高的15秒,且同时支持音画同步、多镜头生成及声音驱动等功能。12月17日,腾讯混元世界模型1.5正式发布,其只需输入文字描述或图片即可创建专属的互动世界,用户通过键盘、鼠标或手柄,即可实时控制虚拟相机的移动和转向,像玩游戏一样自由探索AI生成的世界,还首次开源业界最系统、最全面的实时世界模型框架,并提出重构记忆力、长上下文蒸馏、基于3D的自回归扩散模型强化学习等算法模块。12月18日,豆包大模型1.8及音视频创作模型Seedance1.5Pro正式发布,前者面向多模态Agent场景进行了定向优化,其工具调用能力、复杂指令遵循能力及OSAgent能力显著增强,在视觉推理、通用视觉问答、空间理解及视频理解等任务中,均获得最佳或接近最佳成绩;Seedance1.5pro支持音视频联合生成,在视听协同、视觉张力和叙事协调性等方面实现突破。另外,12月18日,谷歌发布Gemini3
加载中...
已阅读到文档的结尾了



