什么是功效分析（Power Analysis）？

4 4 月 2026 Dr. F. Ikiz Genel, 基本概念 Cite

功效分析是科学研究设计的基石，也是决定统计推断可靠性的最关键过程之一。特别是在医学、心理学、社会科学和工程学等以实验数据为驱动的领域，研究的成功不仅取决于所获得的 p 值，还取决于研究探测真实效应的能力，即其统计功效（Statistical Power）。在本文中，我们将详细探讨功效分析的理论基础、组成部分、实施时机以及其对于学术研究的必要性。

统计假设检验的主要目标是根据从样本中获得的数据对总体进行推断。在此过程中，研究人员面临犯两类错误的风险。I 类错误（α）是指在实际上不存在差异时声称存在差异（假阳性）；相反，II 类错误（β）是指在确实存在差异或关系时未能探测到（假阴性）。功效分析旨在控制 II 类错误的风险。统计功效在数学上表示为公式“1 – β”。该值代表了在原假设（H0）确实错误时拒绝它的概率。换句话说，功效回答了这样一个问题：“如果存在某种效应，我发现它的概率是多少？”按照学术标准，一项研究的功效预期应至少为 0.80（80%）。这意味着研究人员接受 20% 的风险遗漏一个真实存在的效应。

构成功效分析的四个核心且紧密相关的组成部分是：样本量（N）、显著性水平（α）、效应量（Effect Size）和统计功效。这四个变量处于一种平衡状态；当已知其中三个时，第四个可以通过数学方法计算得出。样本量是功效分析中最常寻求的结果。研究人员通常寻求回答的问题是：“为了在我的研究中获得显著结果，我必须招募多少受试者？”随着样本量的增加，标准误会减小，从而提高检验的功效。然而，样本量增加超过必要限度是低效的，这不仅在伦理上（特别是在涉及活体受试者的研究中）是不合适的，在成本和时间方面也是如此。

显著性水平（α 值或 p 值）通常被接受为 0.05。α 水平越严格（例如 0.01），就越难避免 I 类错误，这随后会降低检验的功效。效应量是功效分析中最具科学价值的部分。它是一种标准化度量，显示了两组之间差异的大小或变量之间关系的强度。它可以用不同的单位表示，如 Cohen’s d、Pearson’s r 或比值比（Odds Ratio, OR）。虽然检测微小效应需要极大的样本量，但检测大效应可能只需要少量的受试者。在确定效应量时，研究人员要么借鉴现有文献中的类似研究，要么基于临床感兴趣的最小效应量。

根据实施时间，功效分析分为两类：事前（a priori）和事后（post hoc）。从学术角度来看，最有价值且被广泛接受的方法是前瞻性功效分析（在研究规划阶段进行）。该分析在研究开始和数据收集阶段之前进行，能够优化研究资源。它为伦理委员会申请或科研项目中所选定的样本量提供了科学依据。如果研究人员未进行功效分析就直接开展研究，研究可能会处于“低效能”（underpowered）状态。这往往导致研究人员在辛苦工作数月后，仅仅因为样本量不足，就将一个真实存在的效应判定为“统计学不显著”。这不仅是资源的浪费，还通过将假阴性结果引入文献而延缓了科学的进步。

事后功效分析是在研究完成后，通过观察所获得的 p 值和样本量进行的。然而，这种方法在方法论上存在争议。许多统计学家认为，当 p 值不显著时，声称“结果如此是因为功效过低”是一种同义反复。在学术出版中，报告置信区间而不是进行回顾性功效分析被认为是证明结果精确度更稳健的方法。只有当计划的样本量与最终（获得）的样本量之间存在显著差异时，通常才需要进行后续的事后功效分析。

功效分析的复杂性因所使用的统计检验类型而异。例如，比较两组独立样本均值的 t 检验的功效分析，其参数要求与逻辑回归或多层建模的分析不同。如今，除了 G*Power 等免费且全面的软件外，专业工具如 R（pwr 包）、SAS 和 SPSS 也被用于这些计算。同样，易于使用、清晰且实用的网页接口（SaaS 项目）——比如您现在正在阅读的这个网站——通过简化这些服务，为广大学者提供了极大的便利。对于统计学家或研究人员而言，使用这些工具时最大的挑战是估计正确的效应量。如果文献中没有类似的研究，最准确的方法是通过进行一项预实验（Pilot Study）来估计该值。

从伦理角度来看，功效分析直接关系到人类和动物权利。使用比必要数量更少的受试者进行研究，意味着将受试者置于无谓的潜在风险中，因为该研究缺乏得出科学结论的能力。使用比必要数量更多的受试者也是一种伦理违规，因为它涉及有限资源的滥用以及不必要地将生物体纳入实验。因此，现代医学伦理和出版伦理指南要求所有类型的实验研究必须进行事前（a priori）功效分析。

总之，功效分析不仅是一个数值计算，更是一种研究策略。结构良好的功效分析揭示了研究的局限性，使研究人员能够管理误差范围，并提高了研究结果的外部效度。在学术论文中报告功效分析的细节——明确说明所使用的软件、假设的效应量、α 和功效水平以及目标样本量——对于研究的透明度和可重复性至关重要。这一过程是科学严谨性的体现，也是研究人员在从数据中产生知识的旅程中最有力的指南。强大的功效分析不仅仅是为了追求“p < 0.05”，而是为了努力理解我们距离真相有多近。

如果不进行功效分析会怎样？

不进行功效分析最直接的后果是 II 类错误（Beta 错误）发生的概率失控。当一项研究未能探测到组间差异或变量间的关系，而实际上它们存在时，就会发生 II 类错误，导致研究得出“无差异”的结论。因此，一种有效的药物或方法可能会仅仅因为它没有在足够的受试者身上进行测试而被标记为“无效”。这导致了将假阴性结果纳入科学文献中，并可能导致那些可以挽救生命或改进流程的发现被摒弃。当研究人员在数月的数据收集结束后，发现 p 值大于 0.05 时，他们永远无法知道这一结果是源于效应本身的缺失，还是仅仅因为样本量不足。

第二个主要问题是资源和精力的浪费。每一项科学研究都需要时间、预算、技术设备和人力投入。在没有功效分析的情况下确定的样本量要么是“效能不足”（underpowered），要么是“效能过剩”（overpowered）。当样本效能不足时，研究缺乏得出统计学显著结果的能力，导致所有投入的资源付诸东流。相反，当样本效能过剩时，则花费了超过必要的预算和时间。这导致了显著的效率低下，特别是在资金有限的学术项目中。

另一个问题出现在您计划向科学期刊投稿时；您将不可避免地被问到：“样本量是基于什么确定的？”在这种情况下，诸如“我们随机决定的”、“我们一直都是这么做的”，或者在论文中回答“我们的导师要求的”这类随意的回答，没有任何科学效力，通常会导致论文被拒稿。

作者

Dr. F. Ikiz

Emergency Medicine Specialist & Medical Data Scientist.

查看个人资料

什么是功效分析（Power Analysis）？

如果不进行功效分析会怎样？

Dr. F. Ikiz

Cite This Article

APA Style

AMA Style

Vancouver Style

Chicago/Turabian Style

Harvard Style