实验做不出来、数据不显著怎么办?(在学术诚信底线内的正确处理)
张薇 · 首席研究员 · 发布 2026-06-25
实验做不出来或数据不显著时,正确做法是先系统排查(方法、样本量、操作、仪器、前提假设),再认识到"不显著本身也是一种结果、阴性结果同样有价值",然后诚实地把它写进论文或调整研究问题——绝不能 p-hacking、删数据、编数据。本文给出可落地的排查清单、诚实写作方式和不可逾越的底线。
实验做不出来、数据不显著,首先不是失败,而是需要被诚实对待的信息。正确顺序是:先系统排查(方法设计、样本量与统计功效、操作与仪器、前提假设是否成立),确认结果可靠后,接受"不显著也是一种结果、阴性结果有价值"这一事实,然后诚实地把它写进论文,或据此调整研究问题、补充分析。绝对不能做的是 p-hacking、选择性删数据、事后编造假设或直接造假——这是学术诚信的红线,一旦越过,代价远大于一篇"不漂亮"的论文。
第一步:先系统排查,而不是急着下结论
"数据不显著"可能意味着两件完全不同的事:要么是真实的阴性结果(效应确实不存在或很小),要么是研究本身有缺陷掩盖了真实效应。在改写论文或放弃课题之前,先逐项排查,区分这两种情况。
- 样本量与统计功效:样本太小是"假阴性"的头号原因。回头做功效分析(power analysis),看在你假设的效应量下,当前样本量能否检出。如果功效不足,不显著只能说"证据不足",不能说"没有效应"。
- 方法与设计:对照组设置是否合理?是否存在混杂变量、批次效应、顺序效应?测量指标是否真的反映你想测的构念(效度问题)?
- 操作与重复性:实验操作是否稳定?试剂、细胞、动物批次是否一致?能否在独立重复中复现同样的趋势?偶发的操作失误常被误读为"效应消失"。
- 仪器与数据质量:仪器是否校准?是否有信号漂移、检测限以下的读数、异常值?异常值要按事先约定的、可公开的标准处理,而不是看哪个让 p 值变好就删哪个。
- 前提假设:统计检验的前提(正态性、方差齐性、独立性)是否满足?选错检验方法会让真实效应被淹没,也会制造虚假显著。
- 分析口径:有没有用对的模型?是否需要控制协变量、做配对分析或混合效应模型?换更合适的模型不等于 p-hacking,关键看是否事先有理论依据、是否如实报告所有尝试。
第二步:理解"不显著也是结果、阴性结果有价值"
科研文化长期存在"发表偏倚"——只有阳性、显著的结果容易发表,导致大量阴性结果被埋没。但这恰恰是问题所在:一个设计良好、功效充足的研究,即便得出"没有显著差异",也在告诉学术共同体"这个方向可能行不通"或"这个效应被高估了",这本身就是有价值的科学贡献。许多领域的可重复性危机,部分原因正是阴性结果没有被诚实发表。所以,确认排查无误后,你的任务不是"把不显著变显著",而是"如实、严谨地报告不显著"。
诚实处理 vs 越界操作:一张对照表
| 情境 | 诚实、合规的做法 | 越界 / 学术不端(禁止) |
|---|
| 数据中有异常值 | 按事先设定且可公开说明的标准判断,报告处理前后的结果 | 专挑让 p 值变好的点删除,不作说明 |
| 主分析不显著 | 如实报告;若做探索性分析,明确标注为"探索性、未预注册" | 反复尝试各种亚组/变量,只报告变显著的那一个(p-hacking) |
| 结果与假设不符 | 在讨论中诚实解释,可调整后续研究问题 | 事后把假设改写成"早就预测了这个结果"(HARKing) |
| 样本量不够 | 说明功效局限,呼吁更大样本的重复研究 | 持续加样本直到 p<0.05 就停(optional stopping) |
| 数据缺失或难看 | 如实披露缺失与局限 | 编造、篡改或挑选性呈现数据(造假,最严重红线) |
第三步:把不显著结果诚实写进论文
不显著的结果完全可以写成一篇严谨的论文,关键在于框架和表述要诚实。具体可以这样做:在方法部分如实报告样本量与功效分析,说明你预设的分析计划;在结果部分用效应量和置信区间来呈现,而不是只盯着 p 值——置信区间能告诉读者"效应即使存在也最多多大";在讨论部分坦诚局限,并解释这个阴性结果对该领域意味着什么。如果区分了"验证性分析"和"探索性分析",务必明确标注后者,不要把事后发现伪装成事先假设。
- 用效应量 + 置信区间替代单一 p 值,让"不显著"变得信息丰富。
- 考虑等效性检验(equivalence test)或贝叶斯因子,正面回答"是否真的没有效应"。
- 明确分开预注册/验证性结果与探索性结果,避免 HARKing。
- 在讨论中把阴性结果与文献对话:支持了谁、挑战了谁、下一步该怎么做。
- 如果整体不构成完整故事,可投向接受阴性结果的期刊,或作为预印本、注册报告(Registered Report)发表。
第四步:必要时调整研究问题或补充分析(而非粉饰)
如果排查后发现真实情况更复杂,你可以诚实地调整方向:把原来的因果问题改成机制探索、把单一效应改成边界条件研究(在什么条件下效应才出现)、或补充一个设计更严谨的重复实验。这与 p-hacking 的根本区别在于透明度——调整后的探索性发现要老老实实标注为探索性,并最好通过新的预注册研究去验证。换句话说,调整研究问题是为了更接近真相,而不是为了让现有数据看起来显著。
不可逾越的底线
无论压力多大,有几条线绝对不能碰:不编造数据、不篡改数据、不选择性删除让结果"变好"的数据点、不做 p-hacking(反复试到显著为止)、不做 HARKing(事后把假设改成与结果一致)。这些行为属于学术不端,被发现会导致论文撤稿、声誉受损,甚至断送职业生涯。相比之下,一篇诚实的"不显著"论文,或者一段坦白的局限说明,永远是安全且值得尊重的选择。记住:科学的价值在于可信,而不在于每次都"显著"。
数据不显著,我能不能多加样本直到 p<0.05?
不能这样做。一边收数据一边反复检验、看到显著就停(optional stopping)会大幅抬高假阳性率,属于 p-hacking。正确做法是在开始前用功效分析确定样本量;如果功效确实不足,应在论文中说明局限,或重新设计一个样本量充足的研究(最好预注册),而不是凑到显著为止。
阴性结果(不显著)真的能发表吗?
可以。越来越多期刊和"注册报告"机制明确接受阴性结果,因为它们有助于纠正发表偏倚、缓解可重复性危机。关键是研究设计要严谨、功效要充足、报告要诚实(用效应量和置信区间呈现)。一个设计良好的阴性结果,是对学术共同体的真实贡献。
换一种统计方法让结果显著了,算不算 p-hacking?
要看动机和透明度。如果换方法是因为原方法的前提假设不满足、有事先的理论依据,并且你如实报告了所有做过的分析,那是合理的稳健性检查;如果是把多种方法都试一遍、只挑显著的那个报告、隐瞒其余尝试,那就是 p-hacking。诚实的判别标准是:你是否愿意公开所有分析过程。
实验完全做不出来、连趋势都没有,这门课题是不是废了?
不一定。先确认是真阴性还是方法缺陷:做功效分析、检查仪器与操作、尝试独立重复。如果确认是真实的阴性结果,可以把它写成诚实的报告,或把研究问题调整为机制/边界条件探索。"做不出预期效应"本身可能就是有价值的发现,前提是你严谨且诚实地对待它。
作者:张薇 —— 信息科学博士,专注于学术信息检索和知识图谱研究,主持多项国家级科研项目。