中存算董事长陈巍：智猩猩DeepSeek大解读系列公开课第一期课件-DeepSeek V3/R1架构的深度分析与深度思考

发布者：wx****99

2025-09-23

8 MB 53 页

人工智能（AI）

文件列表：

中存算董事长陈巍：智猩猩DeepSeek大解读系列公开课第一期课件-DeepSeek V3/R1架构的深度分析与深度思考.pdf

这份文档深入探讨了 DeepSeek V3/R1 架构的深度分析与思考，主要内容可以概括如下：

1. 大语言模型的本质与Scaling Laws：大语言模型的核心在于知识的压缩（存储）和对输入的反馈（计算）。Scaling Laws 描述了模型性能随模型规模、训练数据量和计算资源增加而提升的规律。

2. DeepSeek的架构优势： DeepSeek 致力于实现“既要又要”的目标，即在更高性能、更好训练、更低成本之间寻求平衡。

3. DeepSeek V3/R1 的核心技术：

MLA（Multi-Head Latent Attention）：通过将KV矩阵转换为低秩形式，减少KV缓存大小，从而提高推理效率，降低成本。MLA是DeepSeek V2中首次引入的创新技术。
MoE（Mixture of Experts）架构： DeepSeek 采用了 MoE 架构，组合多

加载中...

本文档仅能预览20页

开通智库会员享超值特权

专享文档

免费下载

免广告

更多特权