【浙江大学】DeepSeek技术溯源及前沿探索报告-蝉鸣报告（原爱报告知识星球）

近日，浙江大学计算机科学与技术学院人工智能省部共建协同创新中心发布了一份名为《DeepSeek技术溯源及前沿探索》的研究报告。该报告由朱强主讲，深入探讨了语言模型、Transformer模型、ChatGPT以及DeepSeek技术的发展历史、技术架构和未来趋势。报告不仅详细分析了大型语言模型的技术演化，还特别介绍了DeepSeek技术如何通过系统级协同工程创新，打破大语言模型以大算力为核心的预期天花板，为探索通用人工智能开辟新道路。这份报告是了解当前人工智能领域技术发展和未来方向的重要资料，其中包含了丰富的技术细节和行业洞察，对于研究人员和行业从业者来说具有很高的参考价值。

在人工智能的浪潮中，DeepSeek技术以其独特的创新性和前沿性，成为了行业的焦点。这份报告深入探讨了DeepSeek技术的起源、发展和未来的探索方向，为我们揭开了这一技术神秘的面纱。

语言模型是DeepSeek技术的基础。它的目标是计算出任意词序列构成句子的概率。这项技术听起来很复杂，但其实我们每天都在用。比如，当我们在手机上输入文字时，手机会预测我们接下来可能要输入的词，这就是语言模型在起作用。报告中提到，语言模型的基本任务是通过编码让计算机理解人类语言。One-hot Encoding和Word Embedding是两种不同的编码方式，后者用一个低维的词向量表示一个词，能使距离相近的向量对应的物体有相近的含义。

随着技术的发展，语言模型也经历了从基于统计的N-gram到基于神经网络的LSTM/GRU，再到Transformer的技术演化。Transformer模型因其自注意力机制、多头注意力和前馈网络/位置编码/层归一化等特性，解决了传统模型的诸多局限性。报告中提到，Transformer模型的引入，改变了深度学习模型的处理方式，特别是在理解语言和图像任务时，Attention机制本质上是捕捉单词间的关系和图像特征抽取。

报告中还详细讨论了大型语言模型的发展历程。从2017年的Transformer模型开始，到GPT、BERT、T5、FLAN、LLaMA等一系列模型的诞生，再到GPT-3.5、GPT-4、DeepSeek-R1等模型的出现，每一步都是技术进步的见证。特别是DeepSeek技术，它不仅缩小了中美AI的差距，还通过大幅提升模型训练、推理效率，缓解了算力需求。

DeepSeek技术的核心在于其系统级协同工程创新。它并非颠覆性基础理论创新，而是在算法、模型和系统等方面进行了创新，打破了大语言模型以大算力为核心的预期天花板。报告中提到，DeepSeek-V3模型总共有6710亿参数，但每次token仅激活8个专家、370亿参数，这显示了其极致的工程优化能力。

DeepSeek技术的发展，也带来了全栈影响。从大模型应用层的客服服务、OA类、数据经营分析，到大模型中间层的GPT Agent、大模型应用开发框架，再到基础模型层的训练数据管理与生成，DeepSeek技术的应用范围广泛。它不仅提升了低参数量模型的性能，还通过知识蒸馏，实现了模型瘦身，使得手机也能运行AI。

报告中还提到了从LLM到Agent的转变。LLM是Agent的大脑，其核心能力是“逻辑推理”。新一代智能体等于Agent加上LLM，它们具备规划技能、工具使用和记忆等能力。这种转变，标志着人工智能从生成大模型“系统1”到推理大模型“系统2”的进步。

最后，报告提到了时空智能的自主化服务，这是国自然基金重大课题的一部分。通过“时空型GPT”作为决策大脑，可以构成一个闭环多智能体协同系统，实现流程自组织、任务自执行、内容自生成，即时空智能的自主化构建。

这篇文章的灵感来自于浙江大学发布的“DeepSeek技术溯源及前沿探索”报告。除了这份报告，还有一些同类型的报告也非常有价值，推荐阅读，这些报告我们都收录在同名星球，可以自行获取。

以上为节选样张，关注公众号【蝉鸣报告】回复领取PDF完整电子版（无广告）。

【蝉鸣报告】每日更新最新硬核报告，覆盖产业报告、全球化、经济报告、趋势等全领域。

【浙江大学】DeepSeek技术溯源及前沿探索报告

猜您想看

评论抢沙发

加入星球任意下载20000+报告

不定期更新一些报告合集

关注公众号限时领取优惠

热门标签

如何快速寻找资料？