AI 为什么会编造根本不存在的参考文献,还配上作者、年份和 DOI?
张薇 · 首席研究员 · 发布 2026-06-25
大模型本质是基于概率的下一个词预测,而不是检索真实文献库。缺数据时它不会说"不知道",而是顺着语言规律拼出"看起来合理"的作者、年份和 DOI。这是语言模型的固有特性而非可修的 bug,换提示词只能减轻、无法根除,唯一可靠的办法是逐条人工核验或改用可溯源工具。
AI 编造参考文献的根源在于:大语言模型是基于概率的「下一个词预测」引擎,而不是连接真实文献数据库的检索系统。当它需要给出引用却没有对应数据时,模型不会回答「不知道」,而是按语言中常见的引用格式,拼出统计上「最像真文献」的作者、年份、期刊和 DOI。这种自信编造是语言模型的固有机制,而非可以打补丁修掉的 bug,所以换提示词只能减轻、无法根除,最终仍需逐条人工核验或改用接入真实学术库、可溯源的工具。
核心原理:它在「预测词」,不是在「查文献」
理解幻觉,先要理解大模型在做什么。它在海量文本上学到了「词与词之间的概率关系」,生成时逐个挑选概率最高的下一个词。一条标准引用形如「姓名,年份,期刊,DOI」,这种结构在训练语料里出现过千万次,于是模型对「引用长什么样」极其熟悉,却对「这条引用是否真实存在」毫无概念。它能完美复刻格式,却无法验证内容。
换句话说,模型生成 DOI 的方式,和它生成一句通顺中文的方式没有本质区别——都是按概率续写字符。一个 10.xxxx/yyyy 形态的字符串,只要在统计上「像 DOI」,就会被自信地输出,哪怕这个编号从未被任何机构注册过。
为什么它「不会说不知道」
人类遇到记不清的文献会犹豫、会标注「待核实」。但基础大模型没有内置的不确定性表达机制——除非被专门训练或提示,否则它的默认行为就是给出一个完整答案。对「请给三篇支持该观点的文献」这类指令,留空或拒答在概率上是「不自然」的续写,而补全一条格式完整的引用才是「自然」的续写。于是模型选择了后者。
- 你要求引用,但模型记忆里没有恰好匹配的真实文献;
- 模型不倾向于输出「我没有可靠来源」,因为那在语料中是不常见的续写;
- 它转而拼接出统计上最合理的作者、年份与期刊组合;
- DOI 这类标识符也被一并「续写」出来,形式合规但指向空号;
- 整条引用格式完美、语气笃定,肉眼几乎无法分辨真假。
冷门与新兴主题为什么更容易翻车
幻觉率和「训练语料中相关真实信息的密度」强相关。热门成熟领域有大量真实文献被反复引用,模型见得多、记得准;而冷门方向、最新进展或跨学科交叉点,真实数据稀薄,模型只能靠泛化「猜」,于是编造比例显著上升。这也解释了为什么你查一个经典理论时引用大多对得上,一查前沿小众课题就频频踩空。
| 场景 | 幻觉倾向 | 原因 | 应对 |
|---|
| 热门成熟领域 | 相对较低 | 真实文献语料密集,模型记忆扎实 | 仍需抽查 DOI 与作者 |
| 冷门 / 新兴方向 | 明显升高 | 真实数据稀薄,模型靠泛化猜测 | 每条强制核验,缺源即删 |
| 跨学科交叉点 | 偏高 | 两域知识拼接,易张冠李戴 | 分领域分别在权威库检索 |
| 最新研究进展 | 偏高 | 可能超出训练时间范围 | 改用接入实时学术库的工具 |
为什么换模型、改提示词都救不了根
不同模型的幻觉率有高有低,更新的版本通常会改善,但「基于概率续写」这个底层机制人人共享,所以差异是程度问题,不是有无问题。同理,精心设计「只引用真实存在的文献」这类提示词能降低编造频率,却无法让模型真正去「查」一个它从未连接的数据库。只要生成路径里没有一次对真实来源的实际检索与核对,自信编造就始终可能发生。
交稿前怎么快速识别假引用
- 逐条复制 DOI 到 CrossRef / 知网 / 出版社官网,查不到即为可疑;
- 核对 PMID 与文章标题是否对得上,错配往往是拼接痕迹;
- 用作者+标题在 PubMed / Web of Science / 谷歌学术反查,确认文章真实存在;
- 打开全文确认它确实支持你引用的那个论点,而非标题相近的无关文献;
- 对无法验证的任何一条,立即删除而非保留观望。
需要强调的是,幻觉不止于参考文献。模型同样会编造看似精确的统计数字、实验结论或事实细节,这类「内容幻觉」比假引用更隐蔽,因为没有 DOI 可查。对关键数据和论断,务必回到原始权威来源逐一核对,这一步无法被任何自动化完全替代。
DeepSeek 给的 DOI 在知网和 CrossRef 都查不到,怎么办?
直接判定为编造并删除,不要保留。再用「作者+标题」去 PubMed、谷歌学术等真实库反查,若确实存在就替换成正确 DOI;查不到说明这篇文献本身是虚构的,必须换成你能亲自核验的真实文献。
用什么提示词能让 AI 只引用真实文献?
可以要求它「无法确认真实存在的文献一律不要给出,宁可留空」,这能减少编造频率,但无法根除。因为模型并未真正去检索数据库,提示词只是调整倾向。可靠做法是引用环节改用接入真实学术库、可逐条溯源的检索工具。
引用了 AI 编的假文献被导师或审稿发现,算学术不端吗?
风险很高。无论引用由谁生成,署名作者都要对内容真实性负责,虚假引用通常被视为学术不端或重大疏失。AI 只是工具,核验责任在你,因此交稿前逐条验证是不可省略的自保步骤。
它说得那么自信流畅,我怎么判断哪句是幻觉?
自信和流畅恰恰是幻觉最危险之处,语气无法作为真伪信号。判断只能靠外部核验:凡涉及具体文献、数字、结论的内容,都回到权威数据库或原文逐条对照,核不出来源的就当作不可信。
用带检索的 RAG 工具能彻底解决幻觉吗?
能大幅降低,因为答案被锚定在检索到的真实材料上,但仍非百分百。模型可能误读或过度引申检索结果,所以即便用了可溯源工具,对关键引用和数据仍建议保留一次人工抽查。
作者:张薇 —— 信息科学博士,专注于学术信息检索和知识图谱研究,主持多项国家级科研项目。