避免“AI幻觉”，怎么提问很重要

记者多次尝试用大模型求证辟谣，发现辟谣能力有限，却很可能产生谣言

截屏图片

最近，DeepSeek等人工智能大模型火热，“包罗万象”“无所不能”等特点，让越来越多的网友将它们作为生活帮手。但是，如果看到一条难辨真伪的网络传言，请大模型帮忙判断真伪，结果会是什么呢？

最近，记者尝试使用人工智能大模型求证辟谣，却发现按照现有的技术能力，大模型辟谣能力有限，却很可能产生谣言。

大模型经不起追问

“112岁的老中医临终馈赠”的帖子近期曾登上热搜榜，但很多网友对“老中医”的身份，以及帖子介绍的养生之道产生怀疑。那么，大模型能否帮助求证呢？

记者向多个大模型询问“是否有112岁的老中医”，大模型给出了某地有符合条件的老中医的结果。人工核查发现，大模型的结论没有错。但在调查这名老中医是否说过帖子里的话时，大模型开始“淘浆糊”：一开始，大模型表示老中医说过帖子里的话，可当记者要求大模型提供准确出处时，大模型仅表示老中医所在地的官方媒体进行过报道；记者追问官方媒体的报道链接或原文，大模型只是回复“可能有”。然而，进一步的人工核查发现，对应媒体根本没有报道过与帖子相似或相关的内容。

在求证“食物相克的说法是否准确”这一线索时，大模型更是信口开河。记者要求大模型提供的答案来自权威专家、权威机构或官方媒体，大模型的回答中空出了专家位置，又表示部分结论来自“中国营养学会”。但面对“中国营养学会对这个问题的说明原文在哪里”等追问，大模型表示无法直接找到，并建议记者人工检索。不过，人工检索也没有对应的内容。

还有，记者在调查保温杯爆炸的原因时，要求大模型提供真实案例，并明确要求案例来自官方媒体报道。大模型提供了4个案例，但2个案例无法提供报道链接，并在记者追问时承认有些案例是社交平台的“口口相传”。

参考资料不准确，经不起追问，又怎么能保证给出的结果准确呢？这样的结果反而会对用户造成误导。

大模型为什么会“造假”？

客观地说，大模型没有造假或造谣的“主观意愿”。造成大模型“一本正经胡说八道”的真正原因是“AI幻觉”——简而言之，就是大模型想尽办法完成用户交办的任务，但在能力不足时，只能基于自己的“知识面”，推测出了相关结果。

大模型为何能力不足？一个原因是数据库有局限，另一个是技术有缺陷。

其实，对于自身缺陷，各个大模型很有“自知之明”。

比如，DeepSeek在回答记者“为什么你的回答有时不准确”时承认自己存在“训练数据有局限性”“技术原理的固有缺陷”等问题。它表示，互联网数据包含错误信息、偏见、过时内容，大模型会无差别学习这些内容；训练数据截止于某个时间点，无法实时更新，加上大模型基于概率而非逻辑推理或事实核查生成文本，所以会出现错误。

减少误导有诀窍

一个又一个的“AI幻觉”案例已经向人们证明，鉴于大模型目前的水平，还不能完全信赖它。但对普通用户来说，恐怕很难发现“一本正经胡说八道”中的漏洞。那么，有什么办法能尽量减少被大模型误导呢？

在业内人士看来，“怎么问”很重要。

AI工具研究者田威给出几条操作性很强的建议。首先，优化提问方式，“与AI交流需要明确、具体，避免模糊或开放性的问题，提问越具体、清晰，AI的回答越准确。提问时要提供足够多的上下文或背景信息，减少AI胡乱推测的可能性。”

他举例，在提问时可以设定边界，包括要求大模型在指定的资料范围中回答，如把“介绍ChatGPT的发展历程”这个问题限定为“请仅基于OpenAI官方2022-2023年的公开文档，介绍ChatGPT的发展历程”；或者要求大模型对回答中的推断内容进行标注，如“分析特斯拉2025年的市场份额，对于非官方数据或预测性内容，请标注[推测内容]”。

其次，要求大模型分批输出结果。大模型根据概率生成内容，意味着一次性生成的内容越多，出现“AI幻觉”的概率越大。用户如果要大模型生成一篇长文章，可以要求它列提纲后分段输出，逐段审核。这样更容易把控生成内容的质量。

最后，要求不同大模型回答同一个问题，实现交叉验证。通过比对不同大模型的答案，有助于获得更全面的认识。

此外，就记者求证网络信息的“实战”经验看，“追问”也是避免被大模型回答误导的有效方式。从实践看，“一本正经地胡说八道”往往在追问“请提供原文链接”时就会露馅。

责任编辑：日升

(责任编辑：日升)

搜索

避免“AI幻觉”，怎么提问很重要