近日,腾讯专有云PaaS平台Tencent TCS发布了一份名为《国产适配:异构算力管理与成本优化》的行业研究报告。该报告深入探讨了在算力短缺背景下,如何高效管理和调度多元化的加速芯片类型,以及提升AI场景下的硬件故障运维效率和AI应用部署的挑战。报告提出了一系列解决方案,包括异构算力管理平台、智能运维与故障自愈、AI应用部署的云原生技术等,旨在帮助企业实现资源的高效利用和成本优化。这份报告不仅提供了行业趋势的深刻洞察,还包含了一系列成功案例,为相关领域的企业和数据中心提供了宝贵的参考和实践指导。
在数字化时代,算力已成为企业竞争力的核心。面对算力短缺和成本飙升的双重挑战,企业迫切需要一种新的解决方案来管理和调度日益复杂的异构算力资源。腾讯专有云PaaS平台Tencent TCS的异构算力管理平台解决方案应运而生,它不仅提升了资源使用效率,还优化了成本控制,为企业业务创新提供了持续动力。
根据《中国半年度加速计算市场(2024下半年)跟踪》报告,到2024年中国加速服务器市场规模将达到221亿美元,同比增长134%,加速芯片市场规模将超过270万张,其中非GPU服务器市场规模将接近50%。这一数据揭示了中国加速芯片市场的快速增长,同时也反映出非GPU服务器市场的崛起,预示着异构算力管理的重要性日益凸显。
Tencent TCS的异构算力管理平台解决方案通过一站式资源整合、调度、运营服务,显著提升了资源使用的效率和灵活性。平台的智能化监控运维及故障自愈能力,解决了算力资源分散难以统一管理的问题,同时也提高了资源利用率,有效控制了成本。例如,通过内核态GPU共享技术,平台能够提升资源利用率,而GPU在离线混部技术则支撑了训推一体业务部署,FinOps成本中心则实现了精细化运营分析。
在AI场景中,硬件故障的自动处理至关重要。Meta发布的Llama 3.1 405B模型训练中,58.7%的非预期中断是GPU相关的故障,严重影响了训练效率和模型性能。这一案例强调了在AI场景中对硬件稳定性和故障管理的关注,以及故障自动处理的重要性。
在AI应用部署方面,传统的部署方式依赖管理复杂、扩展性不足、版本控制缺失等问题。容器化/Kubernetes技术的出现,解决了这些问题,成为AI应用打包和部署的有效技术。云原生技术为AI业务创新提供了强大的动力,它凭借独特的优势成为AI开发与部署的最佳选择,在资源效率和部署效率上为AI应用赋能。
Tencent TCS的解决方案在多个领域展现出了其价值。例如,在大模型场景中,平台支持分布式训练、推理等AI应用;在小模型场景中,则支持GPU共享、训练、推理等。平台的管理能力包括监控告警、日志分析、快速适配、自动部署、滚动升级、故障自愈等,这些能力共同提升了资源利用率和运维效率。
在成本优化方面,Tencent TCS通过FinOps成本中心,基于腾讯开源项目Crane开发,提供了资源可视化、资源规格推荐、调度优化等核心能力,帮助企业优化资源利用率。例如,成本中心能够从宏观视角了解集群整体负载情况,准确找出异常的根因,从而实现资源的精细化管理。
在大规模集群运维实践中,TCS基于腾讯集团及外部客户的海量业务实践,沉淀出多集群建设方案与大规模集群运维最佳实践,从根本上规避系统性故障风险。全面的集群监控管理提供了计算资源的多维度、全方位指标监控,实时掌握数据中心资源整体运行状态。
GPU故障检测与自愈能力帮助企业用户及时发现并告警GPU故障,同时基于业务运行状态智能执行授权自愈操作,构建完善的GPU故障应对机制和备份方案,保障计算资源的稳定运行。
统一运维运营门户则提供了监控中心、调度编排、物料管理、变更发布、日志平台、巡检、运维工具、安全中心、高可用等功能,支持DRMS容灾管理,实现跨AZ故障的自动灾备恢复,帮助上层业务/应用实现高可用能力。
TACO-LLM大模型推理加速引擎作为面向大语言模型的推理加速引擎,通过充分利用计算资源的并行计算能力,提供兼顾高吞吐和低时延的优化方案。它与业界开源LLM推理框架vLLM 100%兼容,全面兼容主流模型,集成了多项核心技术,极致性能优化,降低生成过程时延,提高吞吐量。
最后,腾讯专有云已经和数据库、中间件、行业应用等厂商进行适配,构建互认证生态,实现了多种底层资源并行创新。腾讯专有云全量产品集群级、腾讯中间件产品(TSF等)、TDSQL等构建了全栈的信息技术应用创新平台,屏蔽了底座资源架构差异,为上层平台和应用提供性能和稳定性保证。
这篇文章的灵感来源于腾讯专有云PaaS平台TCS的异构算力管理平台解决方案报告。除了这份报告,还有一些同类型的报告也非常有价值,推荐阅读,这些报告我们都收录在同名星球,可以自行获取。
以上为节选样张,关注公众号【蝉鸣报告】回复领取PDF完整电子版(无广告)。
【蝉鸣报告】每日更新最新硬核报告,覆盖产业报告、全球化、经济报告、趋势等全领域。