文件列表:
申港证券:电子行业研究周报:大模型迭代提升性能,AI定制芯片出货预期提升.pdf |
下载文档 |
资源简介
>
投资摘要:
每周一谈:大模型迭代提升性能AI定制芯片出货预期提升
DeepSeekV3.2强化Agent能力,大模型性能进一步提升。根据DeepSeek公众号,公司近期同时发布DeepSeek-V3.2和DeepSeek-V3.2-Speciale两个正式版模型。在公开的推理类Benchmark测试中,DeepSeek-V3.2达到了GPT-5的水平,仅略低于Gemini-3.0-Pro。DeepSeek-V3.2模型目标为平衡推理能力与输出长度,可同时支持思考模式与非思考模式的工具调用。模型提出了一种大规模Agent训练数据合成方法,构造了大量“难解答,易验证”的强化学习任务(1800+环境,85,000+复杂指令),V3.2并没有针对这些测试集的工具进行特殊训练,V3.2在真实应用场景中能够展现出较强的泛化性。根据量子位,DeepSeek-V3.2最大的架构创新是引入了DSA高效稀疏注意力机制,DSA让模型在长上下文任务中显著加速推理,且无明显性能损失。模型总训练FLOPs较少,在世界知识广度方面距离领先的闭源模型仍有距离,另外,该两个模型需要生成更长的轨迹才能达到Gemini-3
加载中...
已阅读到文档的结尾了



