×
img

国投证券:计算机行业周报:谷歌Gemini大模型发布,原生多模态能力升级

发布者:wx****4d
2023-12-11
1 MB 13 页
互联网 国投证券
文件列表:
国投证券:计算机行业周报:谷歌Gemini大模型发布,原生多模态能力升级.pdf
下载文档
谷歌Gemini立足原生多模态,推理能力大幅提升12月7日,谷歌发布原生多模态大模型Gemini。此次的Gemini1.0,包含三个版本:适用于高度复杂任务的GeminiUltra、适用于各种任务的最佳模型GeminiPro以及适用于端侧设备的GeminiNano。该模型的主要特点如下:1)原生多模态,30项学术基准取得最优。Gemini可以同时识别和理解文本、图像、音频、视频和代码五种信息。不同于市面上的图文拼接的多模态模型,Gemini是一个原生的多模态大模型,是将文本、代码、图片、视频、语音合在一起放进模型里训练而来的,因此能实现更均衡的多模态输出及任意模型切换。GeminiUltra首次在MMLU(大规模多任务语言理解)测评上超过人类专家,在32个多模态基准中取得30个SOTA(当前最优效果),几乎全方位超越GPT-4。2)更强大的图像/视频等多模态推理能力。Gemini具有复杂的多模态推理能力,可帮助理解复杂的书面和视觉信息。谷歌在宣传视频中展示了几种多模态能力:空间逻辑推理能力(识别太阳、地球、土星的位置关系);时间线推理能力(拆解猜硬币魔术);图文理解能力(根据展示的地图

加载中...

已阅读到文档的结尾了

下载文档

网友评论>