近日,【全球人工智能开发与应用大会】发布了一份名为《小米大模型端侧部署落地探索》的行业研究报告。这份报告由小米的大模型算法工程师黄武伟主讲,主要探讨了端侧AI的重要性、LLM端侧部署面临的挑战、相关技术探索以及总结与展望。报告深入分析了端侧AI在隐私安全、可靠性、成本效益和个性化服务方面的优势,同时详细阐述了小米在端侧AI领域的技术突破和实践,包括模型剪枝、量化、推理加速等关键技术。报告中还分享了小米在高通/天玑GPU和NPU平台上的模型部署经验,以及对未来端侧AI发展的展望。这份报告内容丰富,为理解大模型在端侧部署的技术和应用提供了宝贵的洞见。
端侧AI,也就是在手机这样的终端设备上直接运行人工智能算法,正在变得越来越重要。它有几个明显的优势:保护隐私和安全,因为数据存储和计算都在本地完成,减少了数据传输的安全风险;提高可靠性,因为不依赖网络连接,即使网络不稳定也能正常工作;降低成本,减少了对云端计算资源的需求;还能提供个性化服务,增强用户体验。
小米作为一家拥有大量端侧设备的公司,自然也看到了端侧AI的潜力。小米的技术主力突破方向是轻量化和本地部署的大模型技术,这也是小米为什么致力于端侧AI的原因。
但是,把大型语言模型(LLM)部署到端侧并不是一件容易的事。端侧设备和云端服务器在计算能力、内存、功耗和带宽上都有显著差异。例如,服务器GPU的算力可以达到数百TFLOPS,而手机的算力相对较低;服务器有大容量显存,而手机的内存和存储通常只有几个GB到十几GB。
为了解决这些挑战,小米进行了一系列技术探索。首先,他们关注了大模型推理时延的问题,这包括计算时间和数据搬运时间。为了减少计算量,小米采用了剪枝和量化的技术。剪枝可以移除神经网络中不重要的权重或神经元连接,而量化则是将浮点数值转化为定点数值的方法,这两者都能减少存储和计算开销。
小米还特别关注了LLM剪枝技术。他们提出了Sheared LLaMA技术,通过加mask训练模型,优化一般的损失加上mask稀疏度损失,剪枝后的效果甚至超过了相同大小的预训练模型。此外,小米还提出了高效剪枝TransAct技术,这种技术在参数量相近的情况下,显著减小了KV cache。
在量化方面,小米关注了量化位宽、量化粒度、量化范围和离群值对量化精度的影响。他们提出了参数弥补和Outlier裁剪的方法,以减少量化误差。小米还强调了在选择量化方法时,需要结合硬件特性,并注意额外的计算和存储开销。
小米还探索了LLM解码和推理加速技术。他们提出了投机推理的概念,即在解码阶段算力充足但带宽不足的情况下,通过一次前向生成多个tokens来减少带宽压力。小米还提出了基于Prompt的投机词生成加速方法,通过Prompt tokens和Prompt kvcache来生成投机词。
在端侧推理效率优化方面,小米采用了结构化剪枝、低比特量化和稀疏加载技术,以实现推理加速。
最后,小米分享了他们在MiLM端侧部署的实践经验。他们使用了高通和天玑平台的GPU和NPU,部署了1.3B到6.7B大小的模型。小米展望未来,希望实现更强的融合和个性化服务。
这篇文章的灵感来自于《小米大模型端侧部署落地探索》这份报告。除了这份报告,还有一些同类型的报告也非常有价值,推荐阅读。这些报告我们都收录在同名星球,可以自行获取。
以上为节选样张,关注公众号【蝉鸣报告】回复领取PDF完整电子版(无广告)。
【蝉鸣报告】每日更新最新硬核报告,覆盖产业报告、全球化、经济报告、趋势等全领域。