做定量研究样本量(n)到底怎么确定?对照组和检验效能要怎么设?
张薇 · 首席研究员 · 发布 2026-06-25
样本量不是拍脑袋,而是由效应量、显著性水平α、检验效能(常取0.8)和单/双侧检验四个参数算出来的。本文讲清四要素、依据可信度排序、脱落率预留、G*Power/PASS 怎么填参数,以及对照组设置和生物学/技术重复的区别。
样本量(n)不是凭经验拍脑袋,而是一个可计算的工程问题。它由四个要素共同决定:预期效应量(effect size)、显著性水平 α(通常 0.05)、检验效能 power(通常取 0.80)、以及单侧还是双侧检验。把这四个数填进 G*Power 或 PASS,就能反算出每组所需 n,再按脱落率(常 ≤20%)上调即得实际招募量。配套还要把对照组(阴性/阳性对照、组间均衡)和湿实验里的生物学重复 vs 技术重复设清楚,否则统计和结论会全盘失效。
为什么样本量必须事先计算,而不是越多越好
样本量过小会导致检验效能不足,真实存在的效应也检测不出来(假阴性,即第二类错误),做了实验等于白做;样本量过大则浪费经费、动物伦理上不可接受,还可能把毫无实际意义的微小差异检验成『统计显著』。事先做样本量估算(sample size calculation / power analysis)是审稿人、伦理委员会和基金评审的硬性要求,也是研究可重复性的基础。换句话说,n 是设计阶段就要锁定的参数,不能等数据收完再补算。
影响样本量的四个要素分别是什么
- 效应量(Effect Size):你预期组间差异有多大,用标准化指标表示,如均值比较的 Cohen's d、相关分析的 r、卡方的 w。效应量越小,需要的 n 越大。这是四要素里最难定、也最关键的一个。
- 显著性水平 α:即愿意承担的假阳性(第一类错误)概率,惯例取 0.05;做多重比较时需校正(如 Bonferroni)收得更严。α 越小,需要的 n 越大。
- 检验效能 Power(1−β):正确检出真实效应的概率,惯例取 0.80,部分高要求研究取 0.90。Power 越高,需要的 n 越大。
- 单侧 vs 双侧检验:除非有充分先验理由确信效应只可能朝一个方向,否则默认用双侧检验。双侧比单侧更保守,需要的 n 略大。审稿人通常对『为省样本而改单侧』非常警惕。
效应量从哪来?依据可信度排序
样本量计算最大的难点是『效应量从哪来』,因为它直接决定算出的 n。来源的可信度有明确高低之分,优先用更可靠的依据,实在没有才退而求其次。下表按可信度从高到低排列常见来源。
| 效应量来源 | 可信度 | 说明 |
|---|
| 自己的预实验(pilot study) | 最高 | 在相同人群/相同测量条件下得到,最贴合本研究,但小样本预实验的效应量估计本身有波动,宜偏保守取值。 |
| 针对性元分析(meta-analysis) | 高 | 汇总多项同类研究的合并效应量,稳健性好,优于单篇文献。 |
| 高度相似的已发表文献 | 中 | 选测量工具、人群、干预最接近的研究取其报告的效应量或可反算的均值±标准差。 |
| 领域惯例阈值(Cohen 基准) | 较低 | 如 Cohen 对 d 给出 0.2/0.5/0.8 为小/中/大效应。仅在毫无依据时作为兜底,需在论文中说明取值理由。 |
用 G*Power 算样本量的基本步骤(含示例参数)
G*Power 是免费、广泛接受的样本量计算软件,PASS 是功能更全的商业软件,两者思路一致:选检验类型 → 选计算模式(A priori,即事先算 n)→ 填四要素 → 读出每组 n。下面以『两独立样本均值比较(独立样本 t 检验)』为例走一遍。
- Test family 选 t tests,Statistical test 选 Means: Difference between two independent means (two groups)。
- Type of power analysis 选 A priori: Compute required sample size(给定效应量、α、power,反算 n)。
- Tail(s) 选 Two(双侧);Effect size d 填预期效应量,例如根据文献取 0.5(中等效应);α err prob 填 0.05;Power (1−β err prob) 填 0.80;Allocation ratio N2/N1 填 1(两组等量)。
- 点击 Calculate,读出 Sample size group 1 / group 2。以 d=0.5、α=0.05、双侧、power=0.80 为例,每组约需 64 例,合计约 128 例。
- 把 d 改为 0.8(大效应)再算一遍做敏感性对比:每组会降到约 26 例。务必报告你最终采用的那组参数及其来源。
脱落率怎么预留:从『所需 n』到『实际招募 n』
G*Power 算出的是『完成研究并纳入分析所需的样本量』,但现实中会有受试者失访、退出、数据不合格等损耗,临床与纵向研究尤其明显。脱落率(attrition/dropout rate)通常按 10%–20% 预留,具体看随访时长和人群依从性。换算公式:实际招募量 = 所需 n ÷ (1 − 脱落率)。例如每组所需 64 例、预计脱落 20%,则每组实际招募 64 ÷ 0.8 = 80 例。脱落率应基于同类研究的经验值,并在方案中说明出处。
对照组怎么设:阴性、阳性与组间均衡
对照组的作用是为实验组提供可比较的基线,排除非干预因素带来的变化。设计时通常需要两类对照:阴性对照(negative control)用于确认在不施加有效干预时不出现预期效应,排除假阳性和系统误差;阳性对照(positive control)用一个已知有效的处理,验证实验体系本身能检出效应,排除假阴性。两者缺一,实验结果都难以解读。
- 阴性对照:如空白对照、安慰剂对照、溶剂/载体对照(vehicle control),确认背景噪音水平。
- 阳性对照:用已知有效的药物/处理,确认检测系统灵敏可用,结果可信。
- 组间均衡(balance):通过随机化(randomization)让各组在年龄、性别、基线指标等潜在混杂因素上分布一致;必要时用分层随机或区组随机,避免某一混杂集中在某组。
- 盲法(blinding):条件允许时对受试者和/或评估者设盲,降低期望偏倚,与对照设计配套使用。
生物学重复 vs 技术重复:搞错会让结论全盘失效
湿实验里最容易致命的错误,是把技术重复当成样本量来做统计。两者本质不同:生物学重复(biological replicate)是独立的生物学个体或独立来源的样本,反映的是生物学变异,这才是统计推断中真正的 n;技术重复(technical replicate)是对『同一个样本』的多次测量,只反映仪器/操作的测量误差,用来提高单个测量的精度,不能当作 n。把技术重复算进样本量会人为虚高自由度,导致 p 值被严重低估、出现假阳性,结论无法重复。
| 对比维度 | 生物学重复 (biological replicate) | 技术重复 (technical replicate) |
|---|
| 来源 | 独立的生物个体/独立样本 | 同一个样本反复测量 |
| 反映的变异 | 生物学个体间变异 | 仪器/操作测量误差 |
| 能否算作统计 n | 可以,是真正的样本量 | 不可以,会人为虚高自由度 |
| 典型做法 | 3 只独立小鼠 / 3 批独立细胞 | 同一管样本上机测 3 次取平均 |
| 处理方式 | 进入组间统计推断 | 先取均值,代表该生物学样本的单个测量值 |
实践原则:技术重复先在样本内部取平均,得到该生物学样本的一个代表值;再用若干个生物学重复之间的差异做组间统计。论文方法部分应明确写出『n 指生物学重复数』,并分别交代生物学重复与技术重复各做了几次,这是审稿人核查统计严谨性的常规关注点。
写方法学章节时,样本量这段该交代什么
审稿人想看到的不是一个孤零零的数字,而是这个数字的正当性论证。一段合格的样本量说明应包含:采用的统计检验、效应量取值及其来源(预实验/元分析/文献)、α 与双/单侧、目标 power、计算软件及版本、算出的每组 n、预留的脱落率及最终招募量。把这些要素串成一句可复核的话,既满足伦理与基金评审,也让结果的可信度可被复现。
检验效能(power)一定要取 0.80 吗?可以更高吗?
0.80 是被广泛接受的惯例下限,意味着允许 20% 假阴性风险。对结论代价高、需要更强把握的研究(如确证性临床试验),常取 0.90 甚至 0.95,但这会显著增大所需样本量,需权衡经费与可行性。
实在找不到效应量依据,样本量还能算吗?
可以,但要诚实标注。在毫无预实验和文献依据时,可退而采用 Cohen 的小/中/大效应基准(如 d=0.2/0.5/0.8)作兜底,并在论文中说明这是保守假设;条件允许时优先补一个小规模预实验,可信度更高。
什么时候可以用单侧检验?
只有当存在充分先验理由,确信效应在理论上不可能朝相反方向时才考虑单侧检验。绝大多数情况默认双侧,因为审稿人会对『为减小样本量而改单侧』高度警惕,可能要求改回双侧重算。
我已经收完数据了,再做一次 power 分析(事后效能)有意义吗?
用观测效应量做的『事后效能分析』(post-hoc power)在方法学上争议很大,常被认为是循环论证,意义有限。检验效能应在设计阶段事先计算;数据收完后更应报告效应量及其置信区间,而不是补算 power。
样本量算出来太大、招募不到怎么办?
可考虑:选用更灵敏的测量或配对/纵向设计以提高效应量、放宽对极小效应的检测目标、采用多中心协作扩大来源,或如实下调研究目标并在局限性中说明。不要靠改单侧、降 power 或硬塞技术重复来凑数,这会损害结论可信度。
作者:张薇 —— 信息科学博士,专注于学术信息检索和知识图谱研究,主持多项国家级科研项目。