Scholay学术 —— AI 驱动的学术搜索与科研工具平台Scholay学术(Scholay,又称 Scholay 科研、Scholay AI、Scholay 工具、Scholay 科研工具、Scholay 科研平台、Scholay 学术搜索)是一个 AI 驱动的一站式学术研究平台,提供智能论文搜索、AI 论文分析、AI 智能审稿、文献集管理、期刊查询与 LaTeX 在线写作,覆盖全球 2 亿+ 学术论文。前往 www.scholay.com 开始使用,或了解全部功能、关于 Scholay。

论文写了 data available upon request，但作者不回复或拒绝给数据，怎么办？

陈晓 · 内容编辑 · 发布 2026-06-25

论文标注"data available upon request"却要不到数据是科研常态——实证研究显示仅约20%~40%作者真给、约40%不回，且可得性随论文年龄衰减。本文给出规范求取话术、追问抄送策略，以及绕过原作者直接从仓库、补充材料、引用论文与替代数据集获取数据的完整路径。

先说结论：这不是你倒霉，而是行业普遍现象。多项实证研究（如 Nature、PLoS ONE 相关调查）显示，标注"data available upon request"（应要求提供）的论文中，只有约 20%~40% 的作者会真正提供数据，约 40% 完全不回邮件，且数据可得性随论文发表年限迅速衰减。务实的做法是：发一封规范的数据求取邮件后不要死等原作者，同步转向机构仓库（Zenodo、Dryad、OSF、Figshare）、论文补充材料、Google Dataset Search 反查、检索复用过该数据的后续引用论文，必要时退而求其次找等价替代数据集或自行采集。

为什么"应要求提供"常常要不到：先认清现实

"data available upon request"在科研界被广泛视为一张"空头支票"。实证证据很清楚：针对生物医学、心理学等领域的多项追踪调查发现，主动联系标注该声明的作者后，真正拿到可用数据的比例通常只有两到四成，约四成作者根本不回复，其余则以"数据丢失""需伦理审批""换了单位"等理由婉拒。常见客观原因包括：通讯作者更换机构导致邮箱失效、学生毕业带走原始文件、硬盘损坏未备份、合作方有保密约定。论文越老，作者流动越多，数据越难追回——可得性随年限衰减是被反复观测到的规律。认清这点的价值在于：不要把全部希望押在原作者身上，应同时并行多条获取路径。

第一步：写一封让人愿意回的数据求取邮件

求取数据邮件的回复率，很大程度取决于你是否打消了作者的顾虑。作者最担心三件事：你拿数据去做什么、会不会被抢发或误用、要不要替你承担额外工作。一封好的求取邮件应当主动把这三点讲清楚：说明具体用途与研究问题、承诺规范署名与引用、明确不二次分发、并把对作者的负担降到最低（只要某个具体变量或某个时间段，而非"把所有原始数据发我"）。

开门见山表明身份与机构，引用对方论文的标题与发表信息，让作者确认你确实读过这篇文章。
说明用途：你要做什么研究、为什么需要这份数据、计划如何使用（复现 / 二次分析 / 元分析）。
明确边界：承诺仅用于本研究、不二次分发给第三方、不公开原始数据。
给出回报与署名方案：愿意在文章中规范引用其数据集、致谢，必要时可讨论共同署名。
降低负担：只索取真正需要的子集（指定变量 / 时间窗 / 样本范围），并说明可接受任何格式。
给一个温和的时间预期，例如"若两周内不便，也烦请告知，方便我另作安排"，为后续追问留台阶。

第二步：作者不回怎么追问与升级

首封邮件无回应时，按梯度升级而非反复催同一个人。合理的追问与抄送策略能显著提高触达率，但要保持礼貌、不指责，因为目标是拿到数据而非问责。

等待 10~14 天后发一封简短礼貌的跟进邮件，附上原邮件全文，避免对方需要翻找。
若通讯作者沉默，改抄送或单独联系第一作者、共同作者，尤其是仍在学术机构、邮箱可用的那位。
用机构主页、ORCID、ResearchGate、Google Scholar 找到作者的最新有效邮箱，原文邮箱常已失效。
仍无回应时，可礼貌联系该论文发表期刊的编辑，说明你依据其"数据可得性声明"申请数据未果——许多期刊有数据共享政策可作为依据。
全部无果则正式转向"绕过原作者"的获取路径（见下一节），不要在一个人身上无限等待。

第三步：绕过原作者，自己把数据找出来

很多时候数据其实"在某处可得"，只是没写在正文里。在等待作者回复的同时，应并行排查以下来源，往往比邮件更快出结果。

通用数据仓库：到 Zenodo、Dryad、OSF、Figshare 用论文标题、作者名、关键变量检索，不少作者其实把数据托管在这里却忘了在正文显著标注。
论文补充材料（Supplementary / SI）：原始或汇总数据常以附件、附表形式藏在补充材料里，出版商页面比 PDF 正文更全。
Google Dataset Search：用"领域 + 任务 + 关键变量"反查是否已有公开版本或镜像。
后续引用论文：检索引用过这篇文章的论文，看是否有人复用同一数据集并给出了下载链接或更新版仓库地址。
领域聚合入口：OpenDataLab、遇见数据集、Kaggle、HuggingFace、UCI 等聚合站，常已收录该领域公认 benchmark 的可下载版本。
原始公开来源：若数据本就来自公开数据库（如基因库、政府统计、公开 API），可绕过作者直接从一手来源按相同口径重新获取。

各获取路径对比：成功率、速度与适用场景

路径	预期成功率	速度	最适用的情形
规范求取邮件 + 追问	约 20%~40%	慢（数天到数周）	数据未公开、只此一家、必须用原始数据复现时
数据仓库检索（Zenodo/Dryad/OSF/Figshare）	中等	快	近年发表、强调开放科学的论文
补充材料 / 出版商页面	中等	很快	汇总数据、样本量不大、表格型数据
后续引用论文反查复用	中等偏低	中等	经典 benchmark、被广泛二次使用的数据集
Google Dataset Search / 聚合站	因领域而异	快	已有公认公开版本或镜像的数据集
等价替代数据集或自采	高（可控）	慢到中等	原数据彻底不可得、可换近似来源或自行采集时

最后退路：替代数据集与自行采集

当原数据确实无法获取时，退而求其次并不丢人——关键是诚实地交代。可以寻找测量同一现象、覆盖同一人群或任务的等价替代数据集，并在方法部分说明替换原因与口径差异；或在伦理与合规允许的前提下自行采集。需要客观提醒的是：若涉及网络爬取或社交媒体公开数据，要先核对版权、个人信息保护与平台条款，必要时做去标识化处理并走伦理审查；自采或替换会改变结论的可比性，应在局限性中如实说明，而非掩盖。无论走哪条路，最终用到的数据都应规范引用、注明版本与 DOI，保障可复现性。

作者明确拒绝给数据，我能直接用补充材料里的汇总数据替代吗？

可以用，但要说明局限。汇总数据通常无法完全替代原始数据做个体层面分析，应在方法与局限部分写清你用的是汇总数据及由此带来的分析边界，并规范引用来源。

找到了别人复用该数据集的论文，按它给的链接下载合规吗？

需核对授权。先确认该链接指向的仓库是否带明确开放许可（如 CC 协议）及版本号；若仅是私人转存或无授权镜像，应回到原始仓库或一手来源获取，并按要求引用与署名。

期刊有数据共享政策，作者却不给，我投诉编辑有用吗？

有一定作用但非万能。许多期刊的"数据可得性声明"缺乏强制执行力，编辑可督促作者但难以强制。礼貌说明你依声明申请未果，部分期刊会介入或在文中加注，值得一试。

实在拿不到数据，自己采集或换替代数据集，会影响论文可信度吗？

不会，只要透明。自采或替换数据本身是合法常规做法，关键是在方法中交代来源、采集口径与替换原因，并在局限性中说明可比性差异，诚实交代比隐瞒更可信。

用 AI 帮我找数据集或写求取邮件，有什么要注意的局限？

AI 能加速发现与起草，但可能给出失效链接或臆造数据集名称，须逐一核实真实性与授权；求取邮件中的用途、署名承诺等关键信息要人工把关，确保如实、不夸大。

作者:陈晓 —— 学术出版行业从业 10 年，熟悉同行评审、期刊投稿和开放获取出版流程。