近日,正泰集团技术中心大数据架构师许继良在Doris Summit Asia 2024上发布了一份名为《Apache Doris在正泰集团数据中台的应用实践》的行业研究报告。该报告详细介绍了正泰集团如何基于Apache Doris构建和优化其数据中台,包括数仓架构的演进、数据中台的零代码开发实现、IoT平台的数据驱动解决方案,以及权限控制和数据模型的构建等多个方面。报告还涉及了流批一体的处理流程、内存资源消耗的优化对比,以及日志迁移至Doris后带来的架构精简和性能提升。这份报告不仅展示了Apache Doris在实际业务中的应用效果,还为数据中台的构建和优化提供了宝贵的实践经验和未来规划方向,其中包含了许多对于数据管理和分析领域专业人士来说极具价值的内容。
Apache Doris在正泰集团数据中台的应用实践
正泰集团作为一家涉足智能电器、新能源、输配电等多个领域的大型企业,其数据中台的建设与应用一直是业界关注的焦点。通过对Apache Doris的深入应用,正泰集团在数据中台建设方面取得了显著成效,本文将详细解读其成功经验。
集团业态分布广泛,包括光伏电站、户用光伏电站、电源等新能源领域,低压电器、仪器仪表、智能家居等智能电气领域,以及输配电、电线电缆、集成配电等其他领域。此外,还涉及智慧农业、电商、汽车科技等多个新兴业务。正泰集团的发展历程显示,2020年前主要采用SAP BW、SQLServer、GP、Hive等方案进行数仓建设,2021年基于Hadoop生态建设以开源框架为核心的数据仓库,2023年升级Doris 2.0版本,数据中台全面适配Doris特性。
正泰集团数据中台的能力全景十分丰富,包括零代码开发实现、IoT平台-数据驱动的零/低代码解决方案等。IoT平台通过物联网平台、组态平台、场景应用等核心功能,实现数据从接入、储存、清洗、分析、预测、呈现的全过程处理能力,为智慧工厂、智慧园区、智能电站、智慧楼宇、智能消防、智慧城市等行业提供IoT应用领域的完整数智化解决方案。
在架构演进方面,正泰集团基于Hadoop生态架构图和基于Apache Doris的架构图,实现了数据源、数据仓库、数据应用的全面覆盖。通过Doris存储全量IoT数据,进行准实时数据修正、分析,通过分区、倒排索引、算法优化等技术手段,大幅提升了数据处理效率。
在数据中台基于Doris的应用方面,正泰集团实现了多租户多项目需求场景下的权限控制,提供项目角色和表级别的权限控制,实现数据安全隔离。同时,通过表属性配置、字段配置等手段,实现了数据模型的逆向导入Doris和视图模型的构建。
流批一体是正泰集团数据中台的一大特色。通过选择数据源、选择CDC表、创建数据模型、启动实时作业、开启监控等步骤,实现了流批一体的数据处理流程。内存资源消耗对比显示,利用Doris Routine Load大大减少了资源内存资源消耗,表越多节省资源越大。
日志迁移是正泰集团数据中台的另一大亮点。将日志从ES迁移至Doris,减少中间件,精简架构,节省资源70%。通过增加倒排索引,提升日志检索速度10倍以上。在存储空间和查询速度方面,Doris相比ES具有明显优势,尤其是增加倒排索引后,查询速度大幅提升。
展望未来,正泰集团数据中台的规划主要围绕大模型集成、架构升级、数据湖扩展等方面展开。通过持续深化Doris的应用,正泰集团数据中台的建设将迈上新的台阶。
这篇文章的灵感来自于《正泰集团ApacheDoris在数据中台的应用实践》报告。除了这份报告,还有一些同类型的报告也非常有价值,推荐阅读,这些报告我们都收录在同名星球,可以自行获取。
以上为节选样张,关注公众号【蝉鸣报告】回复领取PDF完整电子版(无广告)。
【蝉鸣报告】每日更新最新硬核报告,覆盖产业报告、全球化、经济报告、趋势等全领域。