近日,【Alluxio】发布了一份名为《多GPU集群时代的I/O优化-分布式缓存在AI基础架构中的关键作用》的行业研究报告。该报告深入探讨了在多GPU集群时代,如何通过优化I/O来提升GPU利用率,并强调了分布式缓存在AI基础架构中的重要作用。报告指出,AI/ML基础设施团队在构建和交付高性能基础设施时面临巨大挑战,尤其是在处理TB级甚至PB级数据时,而Alluxio分布式缓存提供了一种有效的解决方案,以加速数据加载、降低成本并提升GPU利用率。这份报告为理解AI工作负载缓慢和GPU利用率低下的常见诱因提供了深刻见解,并提供了针对性的解决方案,其中包含了许多对技术领域专业人士而言极具价值的内容。
在AI时代,数据和计算资源的管理变得越来越重要。尤其是对于使用多GPU集群的企业来说,I/O优化和分布式缓存在AI基础架构中扮演着关键角色。这份报告深入探讨了这些问题,并提供了一些解决方案。
AI/ML基础设施团队的任务非常艰巨。他们需要构建并交付可靠、高性能的基础设施,以支持模型训练、微调、分发以及服务。这些任务往往依赖于TB级甚至PB级的数据。在如此庞大的规模上构建并管理基础设施已极具挑战,再加上预算限制、硬件短缺、混合/多云架构以及市场竞争压力,使得AI/ML基础设施成为技术领域名副其实的“硬核战场”。
GPU是AI/ML基础设施拼图中不可或缺的一块。基于并行处理架构的GPU,因其能高效地利用海量数据同步执行多重复杂运算,现已成为训练和微调大模型的关键组件。尽管GPU价格昂贵且供应紧张,各企业基础架构团队仍在争相采购跨云平台与本地数据中心的GPU,以满足AI/ML工程团队为试验和训练新模型而激增的需求。
然而,尽管在GPU上已投入了大量资源,团队仍难以达到高效训练、调优以及测试AI模型所需的性能要求。这种情况会导致新模型或升级模型部署到生产时产生延迟,进而加剧竞争压力、对用户体验带来负面影响,同时阻碍了基于实际生产使用情况不断优化模型准确性和性能的反馈闭环。
最新调研显示,68%的企业其GPU峰值利用率不足70%。在这种情况下,盲目增加AI/ML基础设施中的GPU资源,不仅对性能提升收效甚微,更会大幅推高基础设施预算。本文将深入探讨AI工作负载缓慢与GPU利用率低下的常见诱因,提供根本原因的诊断方法,并针对GPU未充分利用的核心问题给出解决方案。
在多GPU环境中,团队必须利用任何可用的GPU资源,而这些资源往往远离存储了海量训练数据的中央数据湖,这就需要跨区域和跨云迁移数据,或是远程访问数据。这两种方式都存在速度慢、复杂度高、成本昂贵的问题。
AI/ML模型训练任务首先会从存储中定位并加载训练数据到CPU内存中,然后对数据进行预处理转换。当训练数据集的规模达到数百TB甚至更大时,在数据加载和转换阶段出现瓶颈是极为普遍的。常见原因包括:存储系统与GPU集群之间的物理距离会带来带宽和延迟方面的限制,从而会对AI工作负载的性能以及GPU资源的利用率产生负面影响;存储系统无法满足AI/ML工作负载在数据加载阶段对I/O带宽和延迟的高要求;存储系统与GPU服务器之间的网络无法提供AI/ML工作负载所需的传输性能。
对于任何应用程序而言,存储层或网络层的瓶颈都会削弱计算层的效能。AI训练应用程序也不例外,区别在于这种瓶颈带来的代价往往极为高昂,不仅体现在基础设施和生产效率上的损失,有时甚至还包括带来直接的营收损失。
当存储或网络瓶颈导致无法将足够的训练数据及时传输到GPU时,就会发生“数据停滞(Data Stall)”。数据停滞是GPU利用率低下和AI工作负载性能不佳的主要原因。由于模型训练计算需要源源不断地将数据加载进GPU内存,因此消除I/O瓶颈是优化GPU利用率、提升端到端模型训练性能的关键。
Alluxio的读穿式(read-through)分布式缓存能够自动缓存活跃/热数据,而非活跃数据则仍保留在底层存储系统中。应用程序可通过Alluxio提供的基于FUSE的POSIX文件系统、S3 API接口或Python SDK访问数据。Alluxio会优先从缓存中读取数据,如未命中则从底层存储中加载,在不牺牲性能的前提下实现成本效益最大化。
Alluxio分布式缓存解决了其他方案的诸多问题与限制,唯一需要权衡的是需额外管理一个缓存层。每种方案都有其优劣。如下表所示,Alluxio分布式缓存在技术层面提供了显著优势,能够通过维护单一数据源并智能管理数据本地性,有效应对大规模AI训练环境中的核心挑战。
Alluxio是AI/ML技术栈中的关键组件。它解决了数据加载的性能瓶颈问题,使GPU资源得以充分利用,与此同时,基础设施团队无需投入复杂且昂贵的存储解决方案,也无需将整个持久化数据存储复制到靠近GPU集群的位置。
Alluxio提供以下优势:加速训练数据访问;统一数据访问;降低云存储成本;提高GPU利用率;减少带宽消耗。Alluxio AI的关键特性包括:用于加速数据加载与模型checkpointing的分布式缓存;缓存预加载与管理;统一命名空间;企业级安全特性。
Alluxio的统一命名空间是其核心功能之一,它屏蔽了底层存储系统的复杂性和差异性,为分布在多个后端的存储数据提供一个统一、整合的视图。通过将所有数据访问集中到一个命名空间下,Alluxio不仅简化了计算框架的数据访问流程,还增强了分布式缓存能力,并优化了跨多种存储环境的工作流。
Alluxio作为突破性解决方案应运而生,既能提供媲美高端存储系统的性能,又能保持云存储的简易性与成本优势。通过将分布式架构和智能缓存管理与AI框架深度集成,Alluxio实现了接近线性的可扩展性和持续稳定的高性能,同时通过将存储性能与存储容量解耦,有效降低了存储基础设施成本。借助Alluxio,企业可以将成本低且性能一般的存储系统作为持久化数据存储方案,并依赖Alluxio为AI训练工作负载提供快速且可扩展的数据访问能力。
这篇文章的灵感来自于这份报告。除了这份报告,还有一些同类型的报告,也非常有价值,推荐阅读,这些报告我们都收录在同名星球,可以自行获取。
以上为节选样张,关注公众号【蝉鸣报告】回复领取PDF完整电子版(无广告)。
【蝉鸣报告】每日更新最新硬核报告,覆盖产业报告、全球化、经济报告、趋势等全领域。