中存算董事长陈巍:智猩猩DeepSeek大解读系列公开课第一期课件-DeepSeek V3/R1架构的深度分析与深度思考
文件列表:
中存算董事长陈巍:智猩猩DeepSeek大解读系列公开课第一期课件-DeepSeek V3/R1架构的深度分析与深度思考.pdf |
下载文档 |
资源简介
>
这份文档深入探讨了 DeepSeek V3/R1 架构的深度分析与思考,主要内容可以概括如下:
1. 大语言模型的本质与Scaling Laws: 大语言模型的核心在于知识的压缩(存储)和对输入的反馈(计算)。Scaling Laws 描述了模型性能随模型规模、训练数据量和计算资源增加而提升的规律。
2. DeepSeek的架构优势: DeepSeek 致力于实现“既要又要”的目标,即在更高性能、更好训练、更低成本之间寻求平衡。
3. DeepSeek V3/R1 的核心技术:
MLA(Multi-Head Latent Attention): 通过将KV矩阵转换为低秩形式,减少KV缓存大小,从而提高推理效率,降低成本。MLA是DeepSeek V2中首次引入的创新技术。
MoE(Mixture of Experts)架构: DeepSeek 采用了 MoE 架构,组合多
加载中...
本文档仅能预览20页



