ChatGPT在一本正经地胡说八道
ChatGPT在一本正经地胡说八道
你让ChatGPT帮你查一个法律条文。
它秒回——给了你一个条号、一段原文引用、甚至附带一个相关案例的名称。格式规整,措辞专业,看起来比你自己查的还靠谱。你心想,AI真好用。
然后你去中国裁判文书网搜了一下那个案例名。
搜索结果:0条。
你又去查了那个法条编号。
查不到。那个条文不存在。那段”原文引用”是AI现编的。整个回答——条号、引用、案例——全是假的。
它不是在骗你。它是在真诚地瞎编。

你以为是bug,其实是feature的副作用
很多人第一反应是:AI编瞎话是因为训练数据不够全,等数据多了就好了。
这个想法很直觉,但完全错了。
大语言模型的工作原理,一句话就能说清楚:预测下一个最可能出现的词。 注意,是”最可能出现的词”,不是”最正确的词”。
你问它”《民法典》第几条规定了…“,它的大脑里发生的事情不是去翻法典——它根本没有法典数据库。它做的事情是:根据海量训练文本中学到的模式,推算出”这句话后面,最可能跟什么字”。
所以它会生成一个看起来像法条编号的数字,接着生成一段看起来像法律条文的文字,然后配一个看起来像司法案例的名称。每一步都是”最可能”的选择,整体看起来天衣无缝——但没有一个字是它”查到”的,全是它”推测”的。
AI不是在说谎,因为说谎需要知道真相。它根本不知道什么是真什么是假——它只知道什么”看起来对”。
这就是为什么AI幻觉不是一个bug。bug是程序出错了,打个补丁就好。但幻觉是大语言模型工作原理的直接产物——你让一个”文字接龙冠军”去回答事实性问题,它当然会编。这就好比你让一个相声演员去播新闻联播,他开口就是:”今天国际形势一片大好,逗你玩儿的。”
你不能一边要AI写得流畅,一边又要它保证每个字都是事实。这两个目标在底层就是矛盾的——就像你不能同时要求一个人既诚实又有礼貌。
越像真的,越可能是编的
这里有一个让人后背发凉的事实:GPT-4编造的学术论文引用,在格式上跟真实引用几乎一模一样。
它能编出一个作者名(通常是该领域真实存在的研究者,但论文标题是假的)、一个期刊名(真实存在的期刊)、一个年份、一个卷号和页码——全套齐活,比你自己写论文引用还规范。你不去Google Scholar一篇篇核实,根本看不出来。这就好比一个人穿着白大褂、挂着工牌、胸前别着听诊器走进医院——你不会怀疑他不是医生,但他可能是个演员。
为什么?因为它在训练数据里见过成千上万篇论文的引用格式,它完美地学会了”一篇论文引用长什么样”这个模式——但它完全不关心这篇论文是否存在。对它来说,”存在”和”不存在”没有区别,只要”看起来合理”就行。
更要命的是,越冷门的领域,幻觉率越高。
道理很简单:训练数据里关于量子物理的内容远比关于”某个小城市的地方志”多。问它量子纠缠,它大概率能给出靠谱答案,因为训练数据里这类内容的密度够高,”最可能的下一个词”大概率就是”正确的下一个词”。但你问它一个冷门的地方志细节,训练数据里几乎没有——这时候它不会说”我不知道”,它会根据有限的上下文开始合理推测,也就是开始编。
AI的自信程度跟它说的话的可靠程度,没有任何关系。它编瞎话的时候跟说真话一样流畅、一样笃定。
把AI想象成一个即兴演讲高手
理解AI幻觉最好的类比是这个:
想象你请了一个口才极好的演讲高手,让他上台即兴演讲任何话题。你给他一个题目——”浅谈唐代丝绸之路的贸易结构”——他能立刻开讲,逻辑清晰、层次分明、引经据典,台下掌声雷动。
但他说的是对的吗?不一定。他的核心能力是“让任何话题听起来都有道理”,不是“确保每句话都有据可查”。
AI就是这个演讲高手。
它的强项是生成流畅、连贯、看起来合理的文本。你让它写一封邮件、润色一段文案、翻译一篇文章,它表现优秀——因为这些任务不需要它”知道事实”,只需要它”组织语言”。
但你让它查一个具体的法条、引用一篇具体的论文、给你一个具体的历史数据——你就是在让一个演讲高手去当百科全书。他会给你一个答案,而且说得很有底气,但这个答案可能是现场编的。
理解了这个区别,你就掌握了使用AI的核心心法:永远区分”AI在帮你组织语言”还是”AI在帮你查找事实”。前者可信,后者必须核实。

三级可信度:什么时候信它,什么时候查它
搞清楚了原理,实操就简单了。我把AI输出分成三个可信度等级:
高可信度——直接用
改写、润色、翻译、格式转换、代码补全、文案生成。这些任务的共同点是:AI不需要”知道事实”,它只需要”处理语言”。你给它原材料,它帮你加工——原材料的正确性由你保证,加工的质量由它保证。这个分工很清晰,出错概率很低。
中可信度——用了要抽查
总结、分析、方案设计、代码架构建议。这些任务AI的逻辑通常是对的——它见过太多类似的模式了。但具体的数据、比例、名称可能会编。比如它帮你做竞品分析,框架和维度选得很好,但里面引用的某个”行业报告数据”可能是它推测的。用它的框架,但核实它的数据。
低可信度——必须全部核实
引用出处、法律法规、统计数据、人名地名、历史日期、学术文献。这些是AI幻觉的重灾区。原因你已经知道了:这些都是需要”精确事实”的任务,而AI的工作原理就不是为精确事实设计的。
一个简单的判断口诀:如果你能用搜索引擎在30秒内验证AI的回答,那就花这30秒。 特别是当AI给你一个带有具体数字、具体人名、具体引用的回答时——越具体的东西,越值得怀疑。

三个快速验证技巧
知道了该验证,问题是怎么验证。三个方法,都不复杂,但很管用。
技巧一:同一个问题,换个马甲再问一遍。 你问”X事件是哪年发生的?”它说2019。你换个说法再问一次,它说2020。恭喜你,抓到一个现行的。真实的事实不会因为你换了个问法就变——但AI编的故事每次都不一样,因为它不是在回忆,它是在即兴创作。
技巧二:揪着细节往死里追问。 AI编故事有个致命弱点——宏观叙事滴水不漏,但细节经不起盘。你让它给一个案例,它讲得头头是道。你追一句”判决书编号是多少?”——它要么开始含糊其词,要么甩给你一个格式完美但人间不存在的编号。这招就像审讯:说谎的人最怕被问第三个”然后呢”。
技巧三:让它交出证据。 直接在prompt里加一句”请给出每条信息的来源链接”。真实信息有出处,编造的”出处”往往指向一个404页面。你点一下就知道了——点链接这个动作,三秒钟,但能帮你避开一个大坑。
这三招不是万能的,但能帮你滤掉八成以上的幻觉。剩下那两成——AI编得跟真的一样、只有领域专家才能分辨的——老老实实去查权威来源吧,这个没有捷径。
别把AI当百科全书
回到开头那个不存在的法条。
你再问ChatGPT一次,它可能会给你一个不同的条号、不同的引用文字,但一样不存在。因为它的”编造”不是故意的,而是结构性的——只要你问它”精确事实”类的问题,它就有可能编。而且它永远不会主动告诉你”我不确定”。
AI最好的使用方式,不是让它给你答案,而是让它帮你思考。
让它帮你梳理思路、搭建框架、发现盲点、优化表达——这些是它真正擅长的事情。然后,你自己去确认那些关键的事实、数据和引用。
把AI当成一个极其聪明但从不查资料的同事。他能帮你想问题、理逻辑、改文案,但你绝不会让他替你去签一份合同——因为他可能连甲方名字都能写错,还写得特别工整。
AI的幻觉不会消失,就像即兴演讲高手不会突然变成百科全书。但你可以学会一件事:听他讲完之后,自己去查一下。
这不难。难的是克服那个念头——”AI说得这么有道理,应该不会错吧。”
会的。它经常错。而且错得特别有底气。