×
img

SuperCLUE:中文大模型基准测评2025年年度报告

发布者:wx****60
2026-02-04
27 MB 74 页
人工智能(AI)
文件列表:
SuperCLUE:中文大模型基准测评2025年年度报告.pdf
下载文档

年度测评结果:SuperCLUE 2025年年度测评中,Claude-Opus-4.5-Reasoning以68.25分居首,国内开源模型Kimi-K2.5-Thinking(61.50分)和闭源Qwen3-Max-Thinking(60.61分)分列第四、六。

国产模型进展:国内模型在代码生成(Kimi-K2.5-Thinking全球第一)、数学推理(Qwen3-Max-Thinking并列全球第一)等领域追平或超越国际顶尖模型,但精确指令遵循、幻觉控制仍存差距。

开闭源格局:开源阵营国产主导(Top5均为国内模型),闭源海外领先(Claude、Gemini、GPT第一梯队)。

专项基准:推出Agent、多模态、推理等系列基准,覆盖文生视频、具身智能等场景,并上线中文竞技场交互式评测。

性价比优势:国内模型(如Kimi、Qwen)以低于10元/百万Tokens的价格实现高性能,海外同等性能模型价格普遍达3倍以上。



加载中...

本文档仅能预览20页

继续阅读请下载文档

网友评论>

开通智库会员享超值特权
专享文档
免费下载
免广告
更多特权
立即开通

发布机构

更多>>