【全球人工智能开发与应用大会】小米大模型端侧部署落地探索-蝉鸣报告（原爱报告知识星球）

近日，【全球人工智能开发与应用大会】发布了一份名为《小米大模型端侧部署落地探索》的行业研究报告。这份报告由小米的大模型算法工程师黄武伟主讲，主要探讨了端侧AI的重要性、LLM端侧部署面临的挑战、相关技术探索以及总结与展望。报告深入分析了端侧AI在隐私安全、可靠性、成本效益和个性化服务方面的优势，同时详细阐述了小米在端侧AI领域的技术突破和实践，包括模型剪枝、量化、推理加速等关键技术。报告中还分享了小米在高通/天玑GPU和NPU平台上的模型部署经验，以及对未来端侧AI发展的展望。这份报告内容丰富，为理解大模型在端侧部署的技术和应用提供了宝贵的洞见。

端侧AI，也就是在手机这样的终端设备上直接运行人工智能算法，正在变得越来越重要。它有几个明显的优势：保护隐私和安全，因为数据存储和计算都在本地完成，减少了数据传输的安全风险；提高可靠性，因为不依赖网络连接，即使网络不稳定也能正常工作；降低成本，减少了对云端计算资源的需求；还能提供个性化服务，增强用户体验。

小米作为一家拥有大量端侧设备的公司，自然也看到了端侧AI的潜力。小米的技术主力突破方向是轻量化和本地部署的大模型技术，这也是小米为什么致力于端侧AI的原因。

但是，把大型语言模型（LLM）部署到端侧并不是一件容易的事。端侧设备和云端服务器在计算能力、内存、功耗和带宽上都有显著差异。例如，服务器GPU的算力可以达到数百TFLOPS，而手机的算力相对较低；服务器有大容量显存，而手机的内存和存储通常只有几个GB到十几GB。

为了解决这些挑战，小米进行了一系列技术探索。首先，他们关注了大模型推理时延的问题，这包括计算时间和数据搬运时间。为了减少计算量，小米采用了剪枝和量化的技术。剪枝可以移除神经网络中不重要的权重或神经元连接，而量化则是将浮点数值转化为定点数值的方法，这两者都能减少存储和计算开销。

小米还特别关注了LLM剪枝技术。他们提出了Sheared LLaMA技术，通过加mask训练模型，优化一般的损失加上mask稀疏度损失，剪枝后的效果甚至超过了相同大小的预训练模型。此外，小米还提出了高效剪枝TransAct技术，这种技术在参数量相近的情况下，显著减小了KV cache。

在量化方面，小米关注了量化位宽、量化粒度、量化范围和离群值对量化精度的影响。他们提出了参数弥补和Outlier裁剪的方法，以减少量化误差。小米还强调了在选择量化方法时，需要结合硬件特性，并注意额外的计算和存储开销。

小米还探索了LLM解码和推理加速技术。他们提出了投机推理的概念，即在解码阶段算力充足但带宽不足的情况下，通过一次前向生成多个tokens来减少带宽压力。小米还提出了基于Prompt的投机词生成加速方法，通过Prompt tokens和Prompt kvcache来生成投机词。

在端侧推理效率优化方面，小米采用了结构化剪枝、低比特量化和稀疏加载技术，以实现推理加速。

最后，小米分享了他们在MiLM端侧部署的实践经验。他们使用了高通和天玑平台的GPU和NPU，部署了1.3B到6.7B大小的模型。小米展望未来，希望实现更强的融合和个性化服务。

这篇文章的灵感来自于《小米大模型端侧部署落地探索》这份报告。除了这份报告，还有一些同类型的报告也非常有价值，推荐阅读。这些报告我们都收录在同名星球，可以自行获取。

以上为节选样张，关注公众号【蝉鸣报告】回复领取PDF完整电子版（无广告）。

【蝉鸣报告】每日更新最新硬核报告，覆盖产业报告、全球化、经济报告、趋势等全领域。

【全球人工智能开发与应用大会】小米大模型端侧部署落地探索

猜您想看

评论抢沙发

加入星球任意下载20000+报告

不定期更新一些报告合集

关注公众号限时领取优惠

热门标签

如何快速寻找资料？