香港大学:2025年大语言模型推理能力榜:中文语境下“最强大脑”测评揭晓.pdf |
下载文档 |
资源简介
随着大语言模型(LLM)技术的快速迭代,推理能力作为衡量模型智能水 平的核心指标,已成为学术界与产业界的研究焦点。现有关于 LLM 推理能力的 评测多聚焦于特定任务(如数学推理、逻辑能力),缺乏覆盖多维推理场景的系 统框架,难以全面反映模型在实际应用中的推理效能。 为应对上述挑战,本研究构建了一套系统、客观、公正的人工智能模型推理 能力评价体系。我们在中文语境下针对纯文本推理的评测显示,GPT-o3 在基础 逻辑能力测评上以高分登顶,Gemini 2.5 Flash 在情境推理能力测评中拔得头筹; 在综合能力排名上,豆包 1.5 Pro(思考模式)排名首位,Open Al 近日推出的 GPT-5(自动模式)紧随其后,豆包 1.5 Pro、DeepSeek-R1、以及通义千问 3(思 考模式)在内的多款国产 LLM 也均排入前列,展现了国产 LLM 在中文语境中 优越的推理能力。此外,对模型效率的进一步分析发现:多数推理能力优异的模 型存在效率短板,而豆包 1.5 Pro 不仅推理表现突出,且模型效率较高,堪称兼 顾推理能力与运行效率的标杆。
已阅读到文档的结尾了



