近日,【清华大学】DeepSeek与AI幻觉研究团队发布了一份关于AI幻觉现象的深度研究报告。这份报告详细探讨了AI在处理信息时产生的幻觉现象,包括其定义、成因、评测方法以及应对策略,并进一步讨论了AI幻觉在创造力方面的潜在价值。报告通过对多个行业案例的分析,揭示了AI幻觉的复杂性和多样性,强调了在金融、医疗等领域中AI幻觉可能带来的风险,并提出了一系列减少AI幻觉影响的技术方案和用户策略。报告内容丰富,不仅为理解AI幻觉提供了深刻见解,也为AI技术的未来发展和应用提供了宝贵的参考。
AI幻觉:技术进步的双刃剑
AI技术的发展日新月异,但随着其在各行业的广泛应用,一个新的问题逐渐浮出水面——AI幻觉。这份由清华大学DeepSeek与AI幻觉研究团队发布的报告,深入探讨了AI幻觉的概念、成因、评测方法及应对策略,为我们揭开了AI技术的另一面。
AI幻觉,简单来说,就是AI模型生成的内容与现实不符,逻辑断裂,或者脱离上下文。这种现象在学术上被称为“统计概率驱动的合理猜测”,通俗点说,就是AI一本正经地胡说八道。AI幻觉分为事实性幻觉和忠实性幻觉两种。事实性幻觉是指AI生成的内容与现实世界的事实不一致,而忠实性幻觉是指AI生成的内容与用户的指令或上下文不一致。
AI为什么会产生幻觉?报告指出,数据偏差、泛化困境、知识固化和意图误解是主要原因。训练数据中的错误或片面性被模型放大,模型难以处理训练集外的复杂场景,模型过度依赖参数化记忆而缺乏动态更新能力,以及用户提问模糊时模型易“自由发挥”,都是AI产生幻觉的根源。
报告通过一系列案例,展示了AI幻觉在不同行业中的应用和影响。例如,在金融行业,某头部银行利用DeepSeek构建因果归因网络,识别小微企业违约的隐性因素,针对性设计金融产品,不良率下降4.2个百分点。但在医疗领域,OpenAI的自动语音识别系统Whisper在转写医患对话时,约有一半内容存在幻觉,对患者健康和医疗系统产生严重负面影响。
AI幻觉的潜在风险不容忽视。信息污染风险、信任危机、控制欠缺和安全漏洞等问题,都是AI幻觉可能带来的后果。例如,由于DeepSeek的低门槛和普及度高,大量AI生成内容涌入中文互联网,加剧了虚假信息传播的“雪球效应”,甚至污染下一代模型训练数据。
为了评测AI幻觉,报告设计了两个测试。测试1随机生成100条通用提示语,模仿普通用户的真实使用场景,获取大模型回答后进行人工判断与标注,并进行交叉验证。测试2随机抽取300道事实性幻觉测试题,涵盖多个领域,获取大模型回答后与正确答案比对,人工标注幻觉类型,并进行交叉验证。结果显示,DeepSeekV3的幻觉率高于其他大模型。
报告还探讨了推理与幻觉的关系。推理能力强的模型能减少因逻辑错误导致的幻觉,但也可能因为逻辑过度外推、认知置信度错位和错误前提下的正确推理而增加幻觉率。
对于如何应对AI幻觉,报告提出了三种方式:联网搜索、双AI验证/大模型协作和提示词工程。联网搜索可以降低幻觉率,双AI验证可以相互监督、交叉验证,提示词工程则可以通过知识边界限定、对抗性提示等方式,减少AI幻觉的产生。
报告最后指出,AI幻觉并非全然无益,它在科学发现、文艺与设计、娱乐与游戏、技术创新等领域都有一定的创造力价值。AI幻觉像一面棱镜,既折射出技术的局限性,也投射出超越人类想象的可能。与其追求“绝对正确”,不如学会与AI的“想象力”共舞。
这篇文章的灵感来源于清华大学DeepSeek与AI幻觉研究团队发布的报告《DeepSeek与AI幻觉》。除了这份报告,还有一些同类型的报告也非常有价值,推荐阅读。这些报告我们都收录在同名星球,感兴趣的朋友可以自行获取。
以上为节选样张,关注公众号【蝉鸣报告】回复领取PDF完整电子版(无广告)。
【蝉鸣报告】每日更新最新硬核报告,覆盖产业报告、全球化、经济报告、趋势等全领域。