近日,复旦大学知识工场实验室联合上海市数据科学重点实验室发布了一份名为《大模型时代的数据管理》的行业研究报告。该报告深入探讨了在数字经济背景下,数据要素作为新型生产要素的重要性及其在生产中的核心地位,分析了数据要素流动带来的开放性与动态性问题,以及这些问题对传统数据科学理论与技术的挑战。报告还详细讨论了数据要素对其他生产要素的配置作用、数据价值变现的需求与进程,以及大模型时代下智能数据管理的新机遇与挑战。这份报告为我们提供了一个全面了解数据管理在大模型时代发展趋势和关键问题的视角,其中包含了许多对政策制定者、企业决策者和学术研究者都极具价值的洞见。
在数字化浪潮的推动下,数据已成为新时代的生产要素,其价值日益凸显。数据管理作为数据要素时代的核心竞争力,正面临着前所未有的挑战和机遇。本文将探讨大模型时代下的数据管理,解读数据要素的流动性、多方主体性和开放生态特征,以及大模型如何推动数据管理的智能化进程。
数据要素流动性的增长,要求数据管理手段必须智能化。数据不再静止,而是在生产、分配、流通、服务和管理等各个环节中持续流动,形成完整的数据驱动闭环。这种流动不仅要求数据实时支持决策,增强业务灵活性,还要求精细用户画像,提升个性化服务水平。然而,数据流动不畅的原因多样,包括技术短板、缺乏同步与协同等。大模型时代的来临,为解决这些问题提供了新的机遇。
大模型,作为海量参数化知识容器,其开发世界建模能力、语言认知能力、数据理解能力和数据操控能力,为低成本、自动化、智能化的数据管理带来全新机遇。大模型通过参数化形式编码了数据中蕴含的知识,具备了全面认知数据的能力,使其能够认知各类形式的数据,并且具备一定的schema理解能力。这种能力使得自动化的数据治理、数据管理成为可能。
在智能化数据管理实践中,大模型刷新了对数据语义的认识。传统的数据库基于封闭世界假设,即数据库中不存在的事实即为假,而大模型摆脱了这种假设,知之为知之,不知为不知。这种开放性使得大模型能够更好地适应数据的不确定性和动态性。
大模型还推动了数据库系统的自然语言交互、多数据组件协同、智能运维和智能化的数据治理。例如,通过自然语言处理技术,大模型能够将自然语言转换为形式化语言的中间表示,再生成SQL查询,实现数据系统的自然语言交互。这种交互方式极大地提高了数据查询的便捷性和效率。
在数据治理方面,大模型通过其常识和容错能力,能够发现知识库中的同义词组,实现属性值的规范化。例如,GeoFormer框架利用大模型的文本理解能力和工具使用能力,实现了地址文本数据的清洗和规范化。这种能力在低资源场景下尤为重要,因为传统模型需要大量的标注数据,难以适用于属性多、但候选值少的场景中。
大模型在数据分析方面也展现出了强大的能力。它在统计图表生成、数据结论分析以及文本阅读理解等任务中都有接近人类分析师的表现,同时能够大幅缩短分析时间,降低分析成本。例如,GPT-4在数据查询、低分析成本方面的表现,仅为初级数据分析员成本的0.71%和高级数据分析员成本的0.45%。
尽管大模型在数据管理方面展现出了巨大的潜力,但仍存在挑战。大模型仍然难以胜任千行百业的严肃决策应用,从开放闲聊到复杂决策仍有漫长道路。此外,大模型在理解复杂schema方面仍存在显著不足,需要针对专业领域进行优化。
综上所述,大模型时代的数据管理正面临重大变革。数据流动性的增长要求智能化的数据管理手段,而大模型提供了这一变革的技术支持。大模型通过其强大的数据理解和处理能力,推动了数据管理的智能化进程,但同时也面临着挑战和优化需求。随着技术的不断发展,大模型有望在未来的数据管理中发挥更大的作用。
这篇文章的灵感来自于《大模型时代的数据管理》这份报告。除了这份报告,还有一些同类型的报告也非常有价值,推荐阅读,这些报告我们都收录在同名星球,可以自行获取。
以上为节选样张,关注公众号【蝉鸣报告】回复领取PDF完整电子版(无广告)。
【蝉鸣报告】每日更新最新硬核报告,覆盖产业报告、全球化、经济报告、趋势等全领域。