SuperCLUE：中文大模型基准测评2025年年度报告

发布者：wx****60

2026-02-04

27 MB 74 页

人工智能（AI）

文件列表：

SuperCLUE：中文大模型基准测评2025年年度报告.pdf

年度测评结果：SuperCLUE 2025年年度测评中，Claude-Opus-4.5-Reasoning以68.25分居首，国内开源模型Kimi-K2.5-Thinking（61.50分）和闭源Qwen3-Max-Thinking（60.61分）分列第四、六。

国产模型进展：国内模型在代码生成（Kimi-K2.5-Thinking全球第一）、数学推理（Qwen3-Max-Thinking并列全球第一）等领域追平或超越国际顶尖模型，但精确指令遵循、幻觉控制仍存差距。

开闭源格局：开源阵营国产主导（Top5均为国内模型），闭源海外领先（Claude、Gemini、GPT第一梯队）。

专项基准：推出Agent、多模态、推理等系列基准，覆盖文生视频、具身智能等场景，并上线中文竞技场交互式评测。

性价比优势：国内模型（如Kimi、Qwen）以低于10元/百万Tokens的价格实现高性能，海外同等性能模型价格普遍达3倍以上。

加载中...

本文档仅能预览20页

开通智库会员享超值特权

专享文档

免费下载

免广告

更多特权