国家健康医疗大数据(东部)中心近日发布了一份名为《Apache Doris在区域医疗影像平台中的应用》的研究报告。这份报告深入探讨了Apache Doris在区域医疗影像平台中的实际应用,涵盖了从架构演变、场景应用到未来展望的全面内容,特别强调了数据的特殊性和行业特殊性,以及如何通过技术手段解决数据采集点多、及时性要求高和数据重复性高等挑战。报告中还详细分析了Hadoop体系的局限性,并提出了改进方向,包括打造高效的大表交叉查询、构建实时-历史数据比对能力等。此外,报告还分享了基于Doris的案例,展示了其在数据质量管理中的应用效果,以及带来的人员效率提升和物理资源节省。这份报告为医疗影像数据处理提供了宝贵的实践案例和未来发展方向,是行业内专业人士不可或缺的参考资料。
Apache Doris 在区域医疗影像平台中的应用,不仅标志着大数据技术在医疗领域的深入发展,也预示着区域医疗影像服务的一次重大革新。报告详细阐述了Apache Doris在提升医疗影像数据处理效率、优化数据质量、降低运维成本等方面的显著成效。
背景介绍中提到,自2016年获批国家级试点以来,国家健康医疗大数据中心及产业园建设稳步推进。2019年,江苏省卫生健康云(常州区域)试运行,标志着数字化、国产化、数据服务的同步推进。2020年,常州市“医疗废物服务(监管)系统建设试点”、“基层医疗机构信息化提档升级省级试点”、“常州市医学影像云”等多个项目依托“云大脑”开发、服务、管理,长三角一体化联盟智慧城市应用示范基地的建设,为大数据和云服务安全保障试点提供了坚实的基础。
数据特殊性和行业特殊性是Apache Doris应用的两大挑战。医疗影像平台涉及2000余家医疗机构,数据采集点多,及时性要求高,数据重复性高。影像数据存在大量的重传、补传,需要多源数据进行关联并对多质量指标进行稽核。行业特殊性方面,关联难度大,指标口径多,数据服务场景多,需要对数据质量预警、数据质量看板、数据质量监控、BI大屏、报表以及数十个业务系统进行数据支撑。
架构演进部分指出,Hadoop体系特点包括组件多、运维难度大、部署成本高、较难对新场景进行兼容、拓展性较差。场景痛点分析中,业务痛点包括数据质量反馈周期长、缺乏实时监控能力、指标开发过程长、难以支撑分析业务。改进方向是打造高效的大表交叉查询、构建实时-历史数据比对能力、提升指标实时计算性能、提供数据分析查询专用入口。
案例分享部分,通过数据质量管理-数据流向图,展示了从数据源到采集、数仓、服务、质量推送的全过程。代码示例中,CREATE TABLE和INSERT INTO语句展示了如何创建表和插入数据。运行效率从1H+提升至30s,依赖组件从6个降低至3个,在数据去重、多表JOIN、即席查询等场景展现了强大的能力。数据模型数从15个降低至2个,另外增加6个视图,质量反馈周期从T+1提升至准实时(分钟级)。
应用示例中,质量监测、质量代办、质量推送、质量看板等应用,都是基于Apache Doris构建的。质量改善效果图显示,2023年3月份引入Doris之前,质量改善效果缓慢,存在分析困难、实时性查等问题,导致质量问题反馈慢、根因分析困难。2023年3月份以后,引入Doris,并在后续半年的时间内,逐渐以Doris为底座,构建质量体系,并依托于Doris的特性,如聚合模型、物化视图等能力,实现了质量预警、统计以及质量问题溯源等能力。在半年的时间内,数据质量迅速提升。
改进成效方面,人员效率提升3倍,平台组件降低70+%,计算效率提升30+倍,物理资源节省70+%。未来展望中,管理向发展、平台级建设、业务向演进是主要方向。依托于Doris的能力,在数据管理特别是资产管理、血缘管理等方向,进一步的探索研究。以Doris为基础的数据底座,向中台的方向进行建设,向简单、强大、便捷的方向发展。
这篇文章的灵感来自于《Apache Doris在区域医疗影像平台中的应用》这份报告。除了这份报告,还有一些同类型的报告,也非常有价值,推荐阅读,这些报告我们都收录在同名星球,可以自行获取。
以上为节选样张,关注公众号【蝉鸣报告】回复领取PDF完整电子版(无广告)。
【蝉鸣报告】每日更新最新硬核报告,覆盖产业报告、全球化、经济报告、趋势等全领域。