文件列表:
SuperCLUE:中文大模型基准测评2025年年度报告.pdf |
下载文档 |
资源简介
>
年度测评结果:SuperCLUE 2025年年度测评中,Claude-Opus-4.5-Reasoning以68.25分居首,国内开源模型Kimi-K2.5-Thinking(61.50分)和闭源Qwen3-Max-Thinking(60.61分)分列第四、六。
国产模型进展:国内模型在代码生成(Kimi-K2.5-Thinking全球第一)、数学推理(Qwen3-Max-Thinking并列全球第一)等领域追平或超越国际顶尖模型,但精确指令遵循、幻觉控制仍存差距。
开闭源格局:开源阵营国产主导(Top5均为国内模型),闭源海外领先(Claude、Gemini、GPT第一梯队)。
专项基准:推出Agent、多模态、推理等系列基准,覆盖文生视频、具身智能等场景,并上线中文竞技场交互式评测。
性价比优势:国内模型(如Kimi、Qwen)以低于10元/百万Tokens的价格实现高性能,海外同等性能模型价格普遍达3倍以上。
加载中...
本文档仅能预览20页



