在科学研究的规划阶段,样本量的确定无疑是提交给伦理委员会的文件中最常见但解释最薄弱的部分之一。研究人员在伦理委员会表单中填写诸如 “参考文献中的类似研究,认为 30 个受试者已足够”、“由于时间和预算限制,选择了 30 个受试者” 或 “我们的导师认为这样合适” 之类的陈述,在当今的科学标准下已不再是可接受的理由。那么,为什么 “30” 这个数字会变成一个科学神话,而这种做法现在为什么被视为方法论上的错误呢?
从历史进程来看,数字 30 是统计学文献中与中心极限定理相关的阈值。从统计学上讲,当样本量达到 30 或以上时,样本分布被认为趋于正态分布。然而,这并不意味着 “30 个受试者对每项研究都足够”。决定一项研究效能(Power)的核心因素不是中心极限定理的假设,而是研究试图检测的效应量(Effect Size)。 如果你研究中的实际效应量非常小,那么 30 个受试者是不可能使这种效应在统计学上显著的。在这种情况下,一项只有 30 个受试者的研究在开始之前就注定会失败。
伦理委员会不会将研究的科学有效性与其伦理责任分开。如果一项研究因为样本量不足而导致效能过低(underpowered),无法得出有意义的结果,那么这项研究在伦理上也必须受到质疑。为了一个预先可以预见无法得出有意义结果的研究而冒着风险使用生物受试者或患者数据,这与科学伦理原则是不相符的。伦理委员会现在期望研究人员不仅说明将与 “多少人” 合作,还要证明这个数字是基于哪些 “效应量”、“Alpha 错误率” 和 “统计效能” 参数计算得出的。
对于 “为什么是 30 个受试者?” 这一问题的回答必须是数学上的必然,而非个人观点。 样本量计算必须根据研究类型、所使用的统计检验类型以及预期效应量的大小每次重新构建。 例如,t 检验所需的受试者数量与 ANOVA 设计或逻辑回归模型完全不同。在一种情况下 15 个人可能就足够了,而在另一种情况下,为了捕捉同样的效应,可能需要 200 人。忽视这一点并以数字 30 来对待每一项研究会导致统计盲区。
研究人员面临的最大风险是,如果伦理委员会注意到这种缺乏依据的方法,项目可能会被拒绝或要求修改。目标是在受人尊敬的学术期刊上发表论文的研究人员,应该在方法论部分提供具体数据,例如 “使用 G*Power/PWR 软件,在 0.80 的效能和 0.05 的显著性水平下,为检测出 0.50 的效应量,计算出总共需要 128 名参与者”,而不是使用 “约 30 人” 之类的表达。这不仅是为了获得伦理委员会的批准,也是为了证明研究的方法论质量和严肃性。
总之,30 个受试者的陈词滥调是一种落后于现代科学方法论的习惯。如果你希望你的研究结果不仅仅是对 “显著性”(p 值)的追求,而是建立在真正可观察和可重复的效应之上,你应该根据统计效能而非传统来确定你的样本数量。在科学研究中,样本量不应根据研究人员的预算或习惯来塑造,而应根据数据的本质和你想要测量的现象的大小来决定。 请记住,伦理委员会不仅监督受试者的保护,还监督所进行的研究在科学上是否有意义和具有附加值。 强大的方法论基础既能加速伦理委员会的审批,也能增加论文被录用的机会。
