论文写了 data available upon request,但作者不回复或拒绝给数据,怎么办?
陈晓 · 内容编辑 · 发布 2026-06-25
论文标注"data available upon request"却要不到数据是科研常态——实证研究显示仅约20%~40%作者真给、约40%不回,且可得性随论文年龄衰减。本文给出规范求取话术、追问抄送策略,以及绕过原作者直接从仓库、补充材料、引用论文与替代数据集获取数据的完整路径。
先说结论:这不是你倒霉,而是行业普遍现象。多项实证研究(如 Nature、PLoS ONE 相关调查)显示,标注"data available upon request"(应要求提供)的论文中,只有约 20%~40% 的作者会真正提供数据,约 40% 完全不回邮件,且数据可得性随论文发表年限迅速衰减。务实的做法是:发一封规范的数据求取邮件后不要死等原作者,同步转向机构仓库(Zenodo、Dryad、OSF、Figshare)、论文补充材料、Google Dataset Search 反查、检索复用过该数据的后续引用论文,必要时退而求其次找等价替代数据集或自行采集。
为什么"应要求提供"常常要不到:先认清现实
"data available upon request"在科研界被广泛视为一张"空头支票"。实证证据很清楚:针对生物医学、心理学等领域的多项追踪调查发现,主动联系标注该声明的作者后,真正拿到可用数据的比例通常只有两到四成,约四成作者根本不回复,其余则以"数据丢失""需伦理审批""换了单位"等理由婉拒。常见客观原因包括:通讯作者更换机构导致邮箱失效、学生毕业带走原始文件、硬盘损坏未备份、合作方有保密约定。论文越老,作者流动越多,数据越难追回——可得性随年限衰减是被反复观测到的规律。认清这点的价值在于:不要把全部希望押在原作者身上,应同时并行多条获取路径。
第一步:写一封让人愿意回的数据求取邮件
求取数据邮件的回复率,很大程度取决于你是否打消了作者的顾虑。作者最担心三件事:你拿数据去做什么、会不会被抢发或误用、要不要替你承担额外工作。一封好的求取邮件应当主动把这三点讲清楚:说明具体用途与研究问题、承诺规范署名与引用、明确不二次分发、并把对作者的负担降到最低(只要某个具体变量或某个时间段,而非"把所有原始数据发我")。
- 开门见山表明身份与机构,引用对方论文的标题与发表信息,让作者确认你确实读过这篇文章。
- 说明用途:你要做什么研究、为什么需要这份数据、计划如何使用(复现 / 二次分析 / 元分析)。
- 明确边界:承诺仅用于本研究、不二次分发给第三方、不公开原始数据。
- 给出回报与署名方案:愿意在文章中规范引用其数据集、致谢,必要时可讨论共同署名。
- 降低负担:只索取真正需要的子集(指定变量 / 时间窗 / 样本范围),并说明可接受任何格式。
- 给一个温和的时间预期,例如"若两周内不便,也烦请告知,方便我另作安排",为后续追问留台阶。
第二步:作者不回怎么追问与升级
首封邮件无回应时,按梯度升级而非反复催同一个人。合理的追问与抄送策略能显著提高触达率,但要保持礼貌、不指责,因为目标是拿到数据而非问责。
- 等待 10~14 天后发一封简短礼貌的跟进邮件,附上原邮件全文,避免对方需要翻找。
- 若通讯作者沉默,改抄送或单独联系第一作者、共同作者,尤其是仍在学术机构、邮箱可用的那位。
- 用机构主页、ORCID、ResearchGate、Google Scholar 找到作者的最新有效邮箱,原文邮箱常已失效。
- 仍无回应时,可礼貌联系该论文发表期刊的编辑,说明你依据其"数据可得性声明"申请数据未果——许多期刊有数据共享政策可作为依据。
- 全部无果则正式转向"绕过原作者"的获取路径(见下一节),不要在一个人身上无限等待。
第三步:绕过原作者,自己把数据找出来
很多时候数据其实"在某处可得",只是没写在正文里。在等待作者回复的同时,应并行排查以下来源,往往比邮件更快出结果。
- 通用数据仓库:到 Zenodo、Dryad、OSF、Figshare 用论文标题、作者名、关键变量检索,不少作者其实把数据托管在这里却忘了在正文显著标注。
- 论文补充材料(Supplementary / SI):原始或汇总数据常以附件、附表形式藏在补充材料里,出版商页面比 PDF 正文更全。
- Google Dataset Search:用"领域 + 任务 + 关键变量"反查是否已有公开版本或镜像。
- 后续引用论文:检索引用过这篇文章的论文,看是否有人复用同一数据集并给出了下载链接或更新版仓库地址。
- 领域聚合入口:OpenDataLab、遇见数据集、Kaggle、HuggingFace、UCI 等聚合站,常已收录该领域公认 benchmark 的可下载版本。
- 原始公开来源:若数据本就来自公开数据库(如基因库、政府统计、公开 API),可绕过作者直接从一手来源按相同口径重新获取。
各获取路径对比:成功率、速度与适用场景
| 路径 | 预期成功率 | 速度 | 最适用的情形 |
|---|
| 规范求取邮件 + 追问 | 约 20%~40% | 慢(数天到数周) | 数据未公开、只此一家、必须用原始数据复现时 |
| 数据仓库检索(Zenodo/Dryad/OSF/Figshare) | 中等 | 快 | 近年发表、强调开放科学的论文 |
| 补充材料 / 出版商页面 | 中等 | 很快 | 汇总数据、样本量不大、表格型数据 |
| 后续引用论文反查复用 | 中等偏低 | 中等 | 经典 benchmark、被广泛二次使用的数据集 |
| Google Dataset Search / 聚合站 | 因领域而异 | 快 | 已有公认公开版本或镜像的数据集 |
| 等价替代数据集或自采 | 高(可控) | 慢到中等 | 原数据彻底不可得、可换近似来源或自行采集时 |
最后退路:替代数据集与自行采集
当原数据确实无法获取时,退而求其次并不丢人——关键是诚实地交代。可以寻找测量同一现象、覆盖同一人群或任务的等价替代数据集,并在方法部分说明替换原因与口径差异;或在伦理与合规允许的前提下自行采集。需要客观提醒的是:若涉及网络爬取或社交媒体公开数据,要先核对版权、个人信息保护与平台条款,必要时做去标识化处理并走伦理审查;自采或替换会改变结论的可比性,应在局限性中如实说明,而非掩盖。无论走哪条路,最终用到的数据都应规范引用、注明版本与 DOI,保障可复现性。
作者明确拒绝给数据,我能直接用补充材料里的汇总数据替代吗?
可以用,但要说明局限。汇总数据通常无法完全替代原始数据做个体层面分析,应在方法与局限部分写清你用的是汇总数据及由此带来的分析边界,并规范引用来源。
找到了别人复用该数据集的论文,按它给的链接下载合规吗?
需核对授权。先确认该链接指向的仓库是否带明确开放许可(如 CC 协议)及版本号;若仅是私人转存或无授权镜像,应回到原始仓库或一手来源获取,并按要求引用与署名。
期刊有数据共享政策,作者却不给,我投诉编辑有用吗?
有一定作用但非万能。许多期刊的"数据可得性声明"缺乏强制执行力,编辑可督促作者但难以强制。礼貌说明你依声明申请未果,部分期刊会介入或在文中加注,值得一试。
实在拿不到数据,自己采集或换替代数据集,会影响论文可信度吗?
不会,只要透明。自采或替换数据本身是合法常规做法,关键是在方法中交代来源、采集口径与替换原因,并在局限性中说明可比性差异,诚实交代比隐瞒更可信。
用 AI 帮我找数据集或写求取邮件,有什么要注意的局限?
AI 能加速发现与起草,但可能给出失效链接或臆造数据集名称,须逐一核实真实性与授权;求取邮件中的用途、署名承诺等关键信息要人工把关,确保如实、不夸大。
作者:陈晓 —— 学术出版行业从业 10 年,熟悉同行评审、期刊投稿和开放获取出版流程。