香港大学：2025年大语言模型推理能力榜：中文语境下“最强大脑”测评揭晓

发布者：wx****29

2025-11-20

2 MB 12 页

人工智能（AI）

文件列表：

香港大学：2025年大语言模型推理能力榜：中文语境下“最强大脑”测评揭晓.pdf

下载文档

资源简介

随着大语言模型（LLM）技术的快速迭代，推理能力作为衡量模型智能水平的核心指标，已成为学术界与产业界的研究焦点。现有关于 LLM 推理能力的评测多聚焦于特定任务（如数学推理、逻辑能力），缺乏覆盖多维推理场景的系统框架，难以全面反映模型在实际应用中的推理效能。为应对上述挑战，本研究构建了一套系统、客观、公正的人工智能模型推理能力评价体系。我们在中文语境下针对纯文本推理的评测显示，GPT-o3 在基础逻辑能力测评上以高分登顶，Gemini 2.5 Flash 在情境推理能力测评中拔得头筹；在综合能力排名上，豆包 1.5 Pro（思考模式）排名首位，Open Al 近日推出的 GPT-5（自动模式）紧随其后，豆包 1.5 Pro、DeepSeek-R1、以及通义千问 3（思考模式）在内的多款国产 LLM 也均排入前列，展现了国产 LLM 在中文语境中优越的推理能力。此外，对模型效率的进一步分析发现：多数推理能力优异的模型存在效率短板，而豆包 1.5 Pro 不仅推理表现突出，且模型效率较高，堪称兼顾推理能力与运行效率的标杆。

加载中...

已阅读到文档的结尾了

下载文档