Zwei grundlegende Prozesse, die in den Planungs- und Abschlussphasen wissenschaftlicher Forschung von entscheidender Bedeutung sind, in der Literatur jedoch häufig verwechselt werden, sind die Power-Analyse (Teststärke-Analyse) und die statistische Analyse. Der methodische Erfolg einer Studie hängt nicht nur von der Analyse der gewonnenen Daten ab, sondern direkt davon, auf welchen probabilistischen Grundlagen diese Analysen aufgebaut sind. Insbesondere in Bereichen wie der Medizin und den Gesundheitswissenschaften, in denen die Fehlerquote direkte Auswirkungen auf die menschliche Gesundheit hat, ist die Unterscheidung und Integration dieser beiden Konzepte ein Erfordernis akademischer Sorgfalt.
Die statistische Analyse ist der Prozess der Überprüfung der Richtigkeit einer Hypothese anhand eines vorhandenen Datensatzes. Der Forscher versucht, die Beziehung oder den Unterschied zwischen Variablen anhand des p-Wertes unter Verwendung der durch Experimente oder Beobachtungen gewonnenen Daten zu interpretieren. Das Hauptziel dieses Prozesses besteht darin, festzustellen, ob der beobachtete Unterschied zufällig entstanden ist. Die statistische Analyse allein bietet jedoch keine Gewähr für die Angemessenheit des Umfangs oder der Stichprobengröße der Untersuchung. Ein p-Wert von mehr als 0,05 bedeutet nicht immer, dass kein Unterschied zwischen den Gruppen besteht; manchmal ist dies darauf zurückzuführen, dass die Studie nicht über eine ausreichend große Stichprobe verfügt, um den vorhandenen Unterschied festzustellen. An diesem Punkt kommen die Konzepte der Power-Analyse und der Effektstärke ins Spiel (Was ist das Konzept der Effektstärke?).
Die statistische Analyse stellt die Ergebnisse, Schlussfolgerungen oder die wissenschaftliche Bewertung des von Ihnen gewonnenen Datensatzes dar. In akademischen Arbeiten sind statistische Ergebnisse kurz gesagt der Teil der Befunde (Results).
Die Power-Analyse (Teststärke-Analyse) berechnet die Wahrscheinlichkeit, mit der eine Studie einen tatsächlich vorhandenen Effekt oder Unterschied auf statistisch signifikantem Niveau erfassen kann. Dieses Konzept, das als Formel 1-Beta ausgedrückt wird, ist die Fähigkeit, einen Typ-2-Fehler (falsch-negativ) zu vermeiden. Während die statistische Analyse nach der Datenerhebung nach einer Antwort auf die Frage „Was haben wir gefunden?“ sucht, konzentriert sich die Power-Analyse idealerweise vor der Datenerhebung auf die Frage „Wie viele Daten benötigen wir?“ oder nach der Datenerhebung auf „Wie groß war unsere Chance, den nicht gefundenen Unterschied zu entdecken?“.
Die Power-Analyse ist eine Vorbewertung der Haupthypothese in der Planungsphase ve wird verwendet, um die Mindeststichprobenanzahl zu bestimmen, die erforderlich ist, damit die Teststärke der Studie bei 80 % oder höher liegt. Kurz gesagt wird diese Analyseart bei der Planung und Festlegung der Zielstichprobenanzahlen verwendet. Falls während der Datenerhebungsphase Probanden- oder Stichprobenverluste aufgetreten sind, wird eine Post-hoc-Power-Analyse für die endgültige Teststärke der Studie durchgeführt.
Eine in der Designphase einer Forschung durchgeführte prospektive Power-Analyse stellt das mathematische Gleichgewicht zwischen dem Typ-1-Fehler (Alpha), der angestrebten Teststärke (1-Beta), der erwarteten Effektstärke (Effect Size) und dem Stichprobenumfang her. Diese vier Variablen sind eng miteinander verknüpft. Wenn wir beispielsweise eine kleinere Effektstärke (einen klinisch weniger ausgeprägten Unterschied) erfassen möchten, müssen wir die Stichprobenanzahl erhöhen, um die statistische Teststärke konstant zu halten. In akademischen Studien liegt das allgemein akzeptierte Power-Niveau bei 80 % oder 90 %. Eine Studie mit 80 % Power wird einen realen Unterschied zwischen den Gruppen, sofern vorhanden, mit einer Wahrscheinlichkeit von 80 % finden; die restlichen 20 % repräsentieren das Risiko, den Unterschied zu übersehen (Was ist eine Power-Analyse?).
Während der in der statistischen Analyse verwendete p-Wert nur die Wahrscheinlichkeit der Ablehnung der Nullhypothese (H0) angibt, liefern uns die Effektstärke und die Power-Analyse Informationen über die klinische Signifikanz. Bei statistischen Analysen mit sehr großen Stichproben können selbst kleinste Unterschiede, die klinisch bedeutungslos sind, zu einem Ergebnis von p < 0,05 führen. Dies ist der größte Beweis dafür, dass statistische Signifikanz nicht immer mit der klinischen Realität übereinstimmt. Die Power-Analyse hilft dem Forscher, sich nicht nur auf den p-Wert zu konzentrieren, sondern die Wirkung und Sensitivität der Studie im Voraus zu bestimmen.
Einer der kritischsten Punkte ist der umstrittene Status von Post-hoc-Power-Analysen (Analysen nach der Untersuchung) in akademischen Kreisen. Wenn der p-Wert in einer Studie nicht signifikant ausgefallen ist, ist es oft irreführend, die Power basierend auf den vorliegenden Daten zu berechnen, um die Frage zu beantworten: „Haben wir den Unterschied nicht gefunden, weil die Power der Studie unzureichend war?“ Daher führt der Weg zu einem echten wissenschaftlichen Beitrag über eine sorgfältige Stichprobenberechnung vor Beginn der Studie.
Zusammenfassend lässt sich sagen: Während die statistische Analyse die aus Ihren Daten gewonnenen Befunde darstellt, ist die Power-Analyse ein Zustand, der bestimmt, wie zuverlässig und verallgemeinerbar Ihre Ergebnisse sind. Dass Akademiker und Ärzte bei der Interpretation ihrer Studienergebnisse nicht nur Signifikanztests, sondern auch die Stichprobenangemessenheit und das Konfidenzniveau beherrschen, wird die Informationsverschmutzung in der Literatur verhindern und die Grundlagen der evidenzbasierten Medizin festigen. Die transparente Angabe sowohl der Effektstärken als auch der angestrebten Power-Werte in Forschungsberichten ist das höchste Anzeichen für wissenschaftliche Integrität und methodische Qualität.
Quellen
- Kemal Ö. Power Analysis and Sample Size, When and Why? Turk Arch Otorhinolaryngol. 2020 Mar;58(1):3-4. doi: 10.5152/tao.2020.0330. Epub 2020 Mar 1. PMID: 32313887; PMCID: PMC7162597.
- Lu N, Han Y, Chen T, Gunzler DD, Xia Y, Lin JY, Tu XM. Power analysis for cross-sectional and longitudinal study designs. Shanghai Arch Psychiatry. 2013 Aug;25(4):259-62. doi: 10.3969/j.issn.1002-0829.2013.04.009. PMID: 24991165; PMCID: PMC4054560: https://pmc.ncbi.nlm.nih.gov/articles/PMC4054560/.
