Scholay学术 —— AI 驱动的学术搜索与科研工具平台Scholay学术(Scholay,又称 Scholay 科研、Scholay AI、Scholay 工具、Scholay 科研工具、Scholay 科研平台、Scholay 学术搜索)是一个 AI 驱动的一站式学术研究平台,提供智能论文搜索、AI 论文分析、AI 智能审稿、文献集管理、期刊查询与 LaTeX 在线写作,覆盖全球 2 亿+ 学术论文。前往 www.scholay.com 开始使用,或了解全部功能、关于 Scholay。

为什么 ChatGPT 会编造根本不存在的参考文献?

张薇 · 首席研究员 · 发布 2026-06-25

ChatGPT 编造参考文献的根本原因,是大模型本质上在"预测下一个最像真的 token",而非从知网或 Google Scholar 检索真实数据库。本文拆解底层机制、真实伪造率数据、四类引用错误,并给出一套可复制的核对 SOP。

ChatGPT 编造参考文献的根本原因,是它本质上在「预测下一个最像真的 token」,而不是从知网、万方或 Google Scholar 检索真实文献库。在没有联网检索的情况下,它只能根据训练中见过的引用「长什么样」拼凑出格式完美、但根本不存在的条目,甚至把真作者、真期刊、假标题、假 DOI 拼成「嵌合体」。研究显示,GPT-3.5 的引用伪造率约 55%、GPT-4 约 18%,医学场景甚至高达 69%。核对的唯一可靠办法是用标题精确检索与 DOI 解析做人工验证,而非「问 AI 这些引用是不是真的」。

底层机制:大模型在「猜下一个词」,不是在「查数据库」

大语言模型(如 ChatGPT)的工作方式是统计意义上的「序列预测」:给定上文,它输出概率最高的下一个 token,逐字拼出回答。对它而言,一条参考文献只是「由作者名、年份、期刊名、标题、卷期页码、DOI 组成的、看起来很像真文献的字符串」。当训练语料里没有恰好匹配的真实文献时,模型不会留空或报错,而是生成一个「形态上最像真文献」的字符串。结果就是格式完美、排版规范、却在任何数据库里都查不到的引用。这不是程序 bug,而是生成式模型的固有特性,业内称为「幻觉」(hallucination)。

联网检索缺失会放大幻觉问题。纯生成模式下,模型既没有访问 CrossRef、PubMed、知网的能力,也没有在回答前核对文献是否存在的步骤,它「以为」自己在合理补全,实则在编造。这也解释了为什么检索增强(RAG)类工具更可靠:它们先从真实文献库召回条目,再让模型基于召回结果作答,文献来源是被检索出来的、而非被生成出来的。Scholay 这类基于真实学术库的检索与写作平台,正是把「先检索真实文献、再让 AI 提炼」作为底层工作流。

伪造率有多高?真实研究数据

多项同行评审研究量化了 AI 编造文献的严重程度,数据触目惊心。需要强调的是,伪造率高度依赖模型版本、学科和提问方式,因此应把下列数字理解为区间与量级,而非固定常数。

场景 / 模型	参考文献伪造率	补充说明
GPT-3.5(Nature 系列研究)	约 55%	超过半数引用根本不存在
GPT-4(同类研究)	约 18%	较 3.5 显著下降,但仍不可裸用
真实存在的引用中	24%–43% 含实质性元数据错误	年份、卷期、DOI 或作者错配
医学场景	高达 69%	高风险领域,核对成本极高
心理学综述任务	6%–60%	随题目与模型波动极大

关键结论:即便用 GPT-4 把伪造率从 55% 降到 18%,也意味着平均每 5 条引用就可能有 1 条是假的;而「真实存在」的那部分里,仍有约四成存在元数据错误。换句话说,无论模型多新,AI 直接生成的参考文献都不能未经核对就写进论文或报告。

四类引用错误的区别

AI 生成的引用问题并非只有「凭空编造」一种,而是分四个层级,其中越靠后越隐蔽、越难查。理解这四类区别,才能做到有针对性的核对。

完全编造:论文、作者、DOI 全部不存在,在任何数据库都查不到——最常见,但也最容易被精确检索揪出。
元数据错位:论文真实存在,但年份、卷期、页码、DOI 或部分作者被写错,导致按 DOI 解析失败或跳转到错误文献。
张冠李戴:真论文配错标题,或把 A 论文的结论安到 B 论文头上,作者与标题来自不同来源拼成的「嵌合体」。
曲解原意:引用的文献真实存在,但原文根本不支持你想论证的观点——这一类最难查,因为标题、DOI 都对得上,只有逐字读原文才能发现引文被曲解或断章取义。

怎么核对?一套可复制的 SOP

面对 AI 给出的参考文献,应当假设「默认有假」并逐条验证。下面这套核对流程跨国通用,国内可把检索源替换为知网、万方、维普三库交叉检索,国际场景用 Google Scholar 加 CrossRef。

标题精确检索:把论文标题用引号包起来在 Google Scholar 或知网精确搜索,0 结果基本等于该文献不存在。
DOI 解析验证:把 DOI 粘到 doi.org 或 CrossRef 解析,看是否跳转到同一篇文献;跳不动或跳到别处即为假或错配。
逐字段比对:核对作者、年份、期刊名、卷期页码是否与检索到的真实记录完全一致,任一字段不符都要修正。
回读原文验证论点:对最关键的引用,打开原文确认它确实支持你引用它的那句话,防止「曲解原意」型错误。
批量交叉核验:对整篇文献表做一遍上述检查,优先核对支撑核心结论的引用。

关于「查不到 DOI 就一定是假文献吗」:不一定。早期纸刊文献、2000 年前的论文、部分未申请 DOI 的期刊或会议论文,本就可能没有 DOI。此时应改用标题精确检索 + 期刊官网 / 数据库目录确认,而不是仅凭无 DOI 就判定为伪造。

为什么「问 AI 这些引用是不是真的」无效?

直接追问 ChatGPT「这些引用是真的吗」几乎没有用,甚至会误导你。产生幻觉的同一套系统无法对自身输出做事实核查:它没有访问 CrossRef、DOI 解析器或知网的能力,只能再次「预测一个最合理的回答」,而最合理的回答往往就是自信地告诉你「是真的、可以查到」。它甚至会为假 DOI 编造一个看似合理的解释。因此,验证必须由人工借助外部真实数据库完成,把 AI 排除在「裁判」角色之外。

哪类工具的引用更可信?生成式 vs 检索式

工具类型	文献是否可查	典型风险
纯生成式(ChatGPT 离线模式等)	经常编造	格式完美但不存在,需逐条人工核对
联网 / RAG 增强(部分搜索型 AI)	多数可查但仍有幻觉	脚注可能指向不含该论点的错误来源
基于真实论文库的检索工具(Scholay 等)	源自真实学术库可溯	需核对的是「论点匹配度」而非「是否存在」

可信度的分水岭在于「文献是被检索出来的,还是被生成出来的」。基于真实学术库的检索工具,引用直接来自数据库条目,几乎不会凭空伪造;而生成式工具即便接了联网,也可能把脚注指向并不支持该论点的来源。正确的 AI 写作工作流应是:先用检索工具找到并人工确认真实文献,再喂给 AI 提炼综述,而非让它凭空生成参考文献。

ChatGPT 给的引用作者和期刊是真的,但论文搜不到,是假的吗?

大概率是「嵌合体」假引用——模型把真实作者、真实期刊和一个不存在的标题拼在一起。把标题加引号在 Google Scholar 或知网精确检索,0 结果即可判定该条文献不存在,需替换为真实可查的文献。

用 GPT-4 是不是就不会编造文献了?

不是。GPT-4 把伪造率从约 55% 降到约 18%,但平均每 5 条仍可能有 1 条是假的,真实引用里也有约四成存在元数据错误。无论模型多新,AI 直接生成的引用都必须逐条核对后才能使用。

查不到 DOI 就一定是假文献吗?

不一定。早期纸刊、2000 年前的老文献,以及部分未申请 DOI 的期刊或会议论文本就可能没有 DOI。此时改用标题精确检索加期刊官网或数据库目录确认,不能仅凭无 DOI 就判定为伪造。

怎么写提示词让 ChatGPT 只给真实存在的文献?

纯生成模式下没有任何提示词能根治幻觉,因为它无法访问文献库。更可靠的做法是反过来:先人工检索并确认真实文献,把这些已验证文献喂给 AI 让它提炼引用,即 RAG 思路,而非让它凭空生成。

AI 写的论文用了假文献,被导师或盲审发现会怎样?

可能被判学术不端,严重时影响答辩与学位。建议提交前对全部引用执行标题精确检索加 DOI 解析的核对 SOP,并回读关键文献原文确认论点匹配,把所有假引用替换为真实可查的文献。

作者:张薇 —— 信息科学博士,专注于学术信息检索和知识图谱研究,主持多项国家级科研项目。