ChatGPT在一本正经地胡说八道

你让ChatGPT帮你查一个法律条文。

它秒回——给了你一个条号、一段原文引用、甚至附带一个相关案例的名称。格式规整，措辞专业，看起来比你自己查的还靠谱。你心想，AI真好用。

然后你去中国裁判文书网搜了一下那个案例名。

搜索结果：0条。

你又去查了那个法条编号。

查不到。那个条文不存在。那段”原文引用”是AI现编的。整个回答——条号、引用、案例——全是假的。

它不是在骗你。它是在真诚地瞎编。

AI幻觉的工作原理

你以为是bug，其实是feature的副作用

很多人第一反应是：AI编瞎话是因为训练数据不够全，等数据多了就好了。

这个想法很直觉，但完全错了。

大语言模型的工作原理，一句话就能说清楚：预测下一个最可能出现的词。 注意，是”最可能出现的词”，不是”最正确的词”。

你问它”《民法典》第几条规定了…“，它的大脑里发生的事情不是去翻法典——它根本没有法典数据库。它做的事情是：根据海量训练文本中学到的模式，推算出”这句话后面，最可能跟什么字”。

所以它会生成一个看起来像法条编号的数字，接着生成一段看起来像法律条文的文字，然后配一个看起来像司法案例的名称。每一步都是”最可能”的选择，整体看起来天衣无缝——但没有一个字是它”查到”的，全是它”推测”的。

AI不是在说谎，因为说谎需要知道真相。它根本不知道什么是真什么是假——它只知道什么”看起来对”。

这就是为什么AI幻觉不是一个bug。bug是程序出错了，打个补丁就好。但幻觉是大语言模型工作原理的直接产物——你让一个”文字接龙冠军”去回答事实性问题，它当然会编。这就好比你让一个相声演员去播新闻联播，他开口就是：”今天国际形势一片大好，逗你玩儿的。”

你不能一边要AI写得流畅，一边又要它保证每个字都是事实。这两个目标在底层就是矛盾的——就像你不能同时要求一个人既诚实又有礼貌。

越像真的，越可能是编的

这里有一个让人后背发凉的事实：GPT-4编造的学术论文引用，在格式上跟真实引用几乎一模一样。

它能编出一个作者名（通常是该领域真实存在的研究者，但论文标题是假的）、一个期刊名（真实存在的期刊）、一个年份、一个卷号和页码——全套齐活，比你自己写论文引用还规范。你不去Google Scholar一篇篇核实，根本看不出来。这就好比一个人穿着白大褂、挂着工牌、胸前别着听诊器走进医院——你不会怀疑他不是医生，但他可能是个演员。

为什么？因为它在训练数据里见过成千上万篇论文的引用格式，它完美地学会了”一篇论文引用长什么样”这个模式——但它完全不关心这篇论文是否存在。对它来说，”存在”和”不存在”没有区别，只要”看起来合理”就行。

更要命的是，越冷门的领域，幻觉率越高。

道理很简单：训练数据里关于量子物理的内容远比关于”某个小城市的地方志”多。问它量子纠缠，它大概率能给出靠谱答案，因为训练数据里这类内容的密度够高，”最可能的下一个词”大概率就是”正确的下一个词”。但你问它一个冷门的地方志细节，训练数据里几乎没有——这时候它不会说”我不知道”，它会根据有限的上下文开始合理推测，也就是开始编。

AI的自信程度跟它说的话的可靠程度，没有任何关系。它编瞎话的时候跟说真话一样流畅、一样笃定。

把AI想象成一个即兴演讲高手

理解AI幻觉最好的类比是这个：

想象你请了一个口才极好的演讲高手，让他上台即兴演讲任何话题。你给他一个题目——”浅谈唐代丝绸之路的贸易结构”——他能立刻开讲，逻辑清晰、层次分明、引经据典，台下掌声雷动。

但他说的是对的吗？不一定。他的核心能力是“让任何话题听起来都有道理”，不是“确保每句话都有据可查”。

AI就是这个演讲高手。

它的强项是生成流畅、连贯、看起来合理的文本。你让它写一封邮件、润色一段文案、翻译一篇文章，它表现优秀——因为这些任务不需要它”知道事实”，只需要它”组织语言”。

但你让它查一个具体的法条、引用一篇具体的论文、给你一个具体的历史数据——你就是在让一个演讲高手去当百科全书。他会给你一个答案，而且说得很有底气，但这个答案可能是现场编的。

理解了这个区别，你就掌握了使用AI的核心心法：永远区分”AI在帮你组织语言”还是”AI在帮你查找事实”。前者可信，后者必须核实。

AI输出可信度三级分类

三级可信度：什么时候信它，什么时候查它

搞清楚了原理，实操就简单了。我把AI输出分成三个可信度等级：

高可信度——直接用

改写、润色、翻译、格式转换、代码补全、文案生成。这些任务的共同点是：AI不需要”知道事实”，它只需要”处理语言”。你给它原材料，它帮你加工——原材料的正确性由你保证，加工的质量由它保证。这个分工很清晰，出错概率很低。

中可信度——用了要抽查

总结、分析、方案设计、代码架构建议。这些任务AI的逻辑通常是对的——它见过太多类似的模式了。但具体的数据、比例、名称可能会编。比如它帮你做竞品分析，框架和维度选得很好，但里面引用的某个”行业报告数据”可能是它推测的。用它的框架，但核实它的数据。

低可信度——必须全部核实

引用出处、法律法规、统计数据、人名地名、历史日期、学术文献。这些是AI幻觉的重灾区。原因你已经知道了：这些都是需要”精确事实”的任务，而AI的工作原理就不是为精确事实设计的。

一个简单的判断口诀：如果你能用搜索引擎在30秒内验证AI的回答，那就花这30秒。 特别是当AI给你一个带有具体数字、具体人名、具体引用的回答时——越具体的东西，越值得怀疑。

三招识破AI幻觉

三个快速验证技巧

知道了该验证，问题是怎么验证。三个方法，都不复杂，但很管用。

技巧一：同一个问题，换个马甲再问一遍。 你问”X事件是哪年发生的？”它说2019。你换个说法再问一次，它说2020。恭喜你，抓到一个现行的。真实的事实不会因为你换了个问法就变——但AI编的故事每次都不一样，因为它不是在回忆，它是在即兴创作。

技巧二：揪着细节往死里追问。 AI编故事有个致命弱点——宏观叙事滴水不漏，但细节经不起盘。你让它给一个案例，它讲得头头是道。你追一句”判决书编号是多少？”——它要么开始含糊其词，要么甩给你一个格式完美但人间不存在的编号。这招就像审讯：说谎的人最怕被问第三个”然后呢”。

技巧三：让它交出证据。 直接在prompt里加一句”请给出每条信息的来源链接”。真实信息有出处，编造的”出处”往往指向一个404页面。你点一下就知道了——点链接这个动作，三秒钟，但能帮你避开一个大坑。

这三招不是万能的，但能帮你滤掉八成以上的幻觉。剩下那两成——AI编得跟真的一样、只有领域专家才能分辨的——老老实实去查权威来源吧，这个没有捷径。

别把AI当百科全书

回到开头那个不存在的法条。

你再问ChatGPT一次，它可能会给你一个不同的条号、不同的引用文字，但一样不存在。因为它的”编造”不是故意的，而是结构性的——只要你问它”精确事实”类的问题，它就有可能编。而且它永远不会主动告诉你”我不确定”。

AI最好的使用方式，不是让它给你答案，而是让它帮你思考。

让它帮你梳理思路、搭建框架、发现盲点、优化表达——这些是它真正擅长的事情。然后，你自己去确认那些关键的事实、数据和引用。

把AI当成一个极其聪明但从不查资料的同事。他能帮你想问题、理逻辑、改文案，但你绝不会让他替你去签一份合同——因为他可能连甲方名字都能写错，还写得特别工整。

AI的幻觉不会消失，就像即兴演讲高手不会突然变成百科全书。但你可以学会一件事：听他讲完之后，自己去查一下。

这不难。难的是克服那个念头——”AI说得这么有道理，应该不会错吧。”

会的。它经常错。而且错得特别有底气。