量子位智库近日发布了《大模型架构创新研究报告》,这份报告深入探讨了AI行业对Transformer架构的路径依赖及其引发的争论,详细梳理了当前行业内对大模型架构创新的两条主要探索路径:对Attention机制的优化与变体探索,以及对新型RNN架构等非Transformer架构的尝试。报告拆解了大模型架构创新的底层逻辑,并分析了未来发展的可能演进方向及趋势。这份报告中包含了大量关于大模型架构创新的深刻见解和前沿技术动态,对于理解AI技术发展具有重要价值。
在AI的世界里,Transformer架构就像一座大山,它高高在上,让其他模型难以望其项背。但随着时间的推移,我们发现这座大山的阴影下,新的挑战者正在崛起,它们试图打破Transformer的垄断地位,这就是大模型架构创新的故事。
Transformer架构自2017年诞生以来,以其通用性、可扩展性和丰富的优化生态,成为大规模语言、视觉、多模态模型的首选架构。然而,随着模型规模的增大,计算成本和存储需求激增,预训练+微调训练范式与Transformer架构范式见顶,这直接导致了AI行业对架构创新的需求日益迫切。
当前,行业内对大模型架构的探索主要分为两条路径:一是对Transformer架构进行优化,尤其是对其核心组件——Attention机制的改进;二是探索新型架构,如RNN架构等,试图摆脱对Attention机制的依赖。
在优化Transformer架构方面,研究人员正在尝试减少计算复杂度,如从O(N^2)降至O(N log N)或O(N),以降低计算成本。例如,稀疏注意力机制通过仅关注输入序列中部分最相关的上下文信息,而非对整个序列进行全注意力计算,有效降低计算复杂度和内存消耗。动态注意力机制则允许模型自动学习注意力路径或稀疏模式,针对不同输入、在不同位置可采用不同的注意力连接方式。
而在新型架构的探索上,非Transformer架构如RWKV、Mamba等开始出现工业级落地。这些架构在提供Transformer同等性能的同时实现算力开销控制和并行训练,计算复杂度基本都控制在线性。例如,RWKV-7通过引入并优化广义Delta Rule作为隐藏状态的演化机制,使得模型能高效地进行动态的状态演化。
Transformer架构的局限性逐渐暴露,特别是在算力消耗、预训练结束以及端侧部署局限性上。例如,2024年EdgeInfinite研究指出,Transformer注意力机制的二次时间复杂度和KV缓存的增长内存使用给在资源受限的边缘设备上处理长序列带来了挑战。这促使研究人员开始越来越多转向研究高效模型、保留网络和线性注意力等Transformer替代架构。
后Transformer时代,我们看到训练范式、架构创新、工程优化成为三大革新方向。特别是在训练范式上,从预训练转向“后训练”,重要模型转向新的基础结构与能力路径,如MoE、Memory、World Models等。这些新范式试图通过强化学习(RL)+多阶段训练策略和知识蒸馏,提升大模型深度推理能力。
在这场架构创新的竞赛中,我们看到了不同机构和主体的资源条件和对通往AGI路线的不同看法,导致了两条主流的技术路线:一条是不惜代价,持续突破性能极限的“突破智能天花板派”;另一条是精打细算,提升单位智能密度的“压缩智能密度派”。随着发展程度深入,两条路线产生越来越多交集,混合架构逐渐成为大趋势。
最终,一个新架构要想从实验室走向工业落地,需要跨过三个模型Scaling的关键台阶:在10B参数规模上进行Scaling Law实验;在20B参数规模上解决分布式训练、优化算法稳定性、本地部署等问题;在100B参数规模上解决数据质量、模型稳定性、训练效率等复杂问题。目前,新兴架构探索创新绝大部分仍然停留在前两个阶段。
这篇文章的灵感来自于【量子位智库】大模型架构创新研究报告。除了这份报告,还有一些同类型的报告也非常有价值,推荐阅读,这些报告我们都收录在同名星球,可以自行获取。
以上为节选样张,关注公众号【蝉鸣报告】回复领取PDF完整电子版(无广告)。
【蝉鸣报告】每日更新最新硬核报告,覆盖产业报告、全球化、经济报告、趋势等全领域。