×
img

中存算董事长陈巍:智猩猩DeepSeek大解读系列公开课第一期课件-DeepSeek V3/R1架构的深度分析与深度思考

发布者:wx****99
2025-09-23
8 MB 53 页
人工智能(AI)
文件列表:
中存算董事长陈巍:智猩猩DeepSeek大解读系列公开课第一期课件-DeepSeek V3/R1架构的深度分析与深度思考.pdf
下载文档

这份文档深入探讨了 DeepSeek V3/R1 架构的深度分析与思考,主要内容可以概括如下:

1. 大语言模型的本质与Scaling Laws: 大语言模型的核心在于知识的压缩(存储)和对输入的反馈(计算)。Scaling Laws 描述了模型性能随模型规模、训练数据量和计算资源增加而提升的规律。

2. DeepSeek的架构优势: DeepSeek 致力于实现“既要又要”的目标,即在更高性能、更好训练、更低成本之间寻求平衡。

3. DeepSeek V3/R1 的核心技术:

  • MLA(Multi-Head Latent Attention): 通过将KV矩阵转换为低秩形式,减少KV缓存大小,从而提高推理效率,降低成本。MLA是DeepSeek V2中首次引入的创新技术。

  • MoE(Mixture of Experts)架构: DeepSeek 采用了 MoE 架构,组合多


加载中...

本文档仅能预览20页

继续阅读请下载文档

网友评论>