近日,任子行网络技术股份有限公司发布了一份名为《Apache Doris在任子行的应用实践》的行业研究报告。这份报告由高级研发工程师孔繁艺撰写,主要介绍了Apache Doris在任子行的实践应用,包括架构演进、企业实践案例、总结规划等内容,涵盖了从数据孤岛问题到数据架构优化的全过程,并探讨了Apache Doris在提升数据处理效率和降低成本方面的优势。报告中不仅详细阐述了技术选型思考和数仓架构设计,还提供了具体的数据建模、写入吞吐问题解决方案以及离线迁移的实践经验,为同行业企业提供了宝贵的参考和启示。这份报告是网络安全领域内技术应用和数据治理的一份重要文献,对于寻求数据治理和架构优化的企业来说,其中包含了大量有价值的信息和实践指导。
在数字化时代,数据已成为企业的核心资产。如何高效地存储、处理和分析这些数据,是每个企业都面临的挑战。本文将探讨Apache Doris在任子行的应用实践,揭示这一开源分布式关系型数据库如何在网络安全领域发挥巨大作用。
任子行网络技术股份有限公司,作为国内网络安全行业的领军企业,其业务范围广泛,包括网络安全、公共安全、信息安全等多个领域。面对海量数据,任子行选择了Apache Doris作为其数据仓库解决方案,以应对数据孤岛、离线分析难度大等问题。Apache Doris以其列式存储、高压缩比、ALL IN ONE的数据分层处理等特性,满足了任子行对数据仓库的大部分业务需求。
在技术选型上,任子行对比了Apache Doris、ClickHouse等方案,最终选择了Apache Doris。Apache Doris在查询并发、存储成本、计算能力等方面表现优异,且维护成本较低,社区活跃度高。这些因素共同促使任子行选择了Apache Doris作为其数据仓库的基石。
在实际应用中,任子行构建了基于Apache Doris的数仓架构,涵盖了数据源、数据摄入、数据仓库、数据应用等多个环节。这一架构不仅支持高吞吐的实时离线导入导出,还实现了一站式分析和统一数据出口。任子行的总数据规模达到了245TB,单日新增数据峰值高达200+亿,这充分展示了Apache Doris在处理大规模数据方面的能力。
在数据建模方面,任子行根据数据特性选择了Duplicate Key模型、Unique Key模型和Aggregate Key模型。这些模型不仅满足了数仓的业务需求,还提高了数据的查询效率。例如,在ODS贴源层,任子行每天需要处理数千万至上亿的半结构化数据,选择了基础的Duplicate Key模型以快速稳定地完成原始数据存储。
在解决写入吞吐问题上,任子行通过调整分区策略,将写入吞吐提升了数倍。例如,通过将“处理时间”作为分区依据,任子行成功解决了版本堆积导致的频繁写入失败问题。这一策略的调整,不仅提高了写入效率,还降低了CPU负载,提升了系统稳定性。
在数据更新问题上,任子行面临社交用户数据场景中数据渠道多、字段内容稳定性不一的挑战。任子行通过在DWS层进行用户数据去重与合并,有效解决了这一问题。这一实践不仅提高了数据的准确性,还为后续的数据分析提供了坚实的基础。
在离线迁移方面,任子行将15亿的账号数据从HBase迁移到Apache Doris,总耗时仅为6小时。这一过程中,任子行利用了Routine Load和Broker Load等多种数据导入方式,大幅提高了数据迁移的效率。
在总结规划方面,任子行通过对比Apache Doris和Elasticsearch在存储成本上的差异,发现Apache Doris能够节省61%-76%的存储成本。这一结果表明,Apache Doris在降本增效方面具有明显优势。此外,任子行还计划通过Apache Doris实现高效导数、统一分析平台和高效计算,进一步提升数据处理和分析的效率。
最后,任子行还计划引入VARIANT类型,以解决TEXT和JSON类型在存储压缩水平上的不足,并提高半结构列的查询性能。这一举措将进一步提升Apache Doris在任子行的应用效果。
这篇文章的灵感来自于《Apache Doris在任子行的应用实践》这份报告。除了这份报告,还有一些同类型的报告也非常有价值,推荐阅读,这些报告我们都收录在同名星球,可以自行获取。
以上为节选样张,关注公众号【蝉鸣报告】回复领取PDF完整电子版(无广告)。
【蝉鸣报告】每日更新最新硬核报告,覆盖产业报告、全球化、经济报告、趋势等全领域。