Forschung & Lehre 04/2024

4|24 Forschung & Lehre 241 STANDPUNKT Der p-Wert, eingeführt vor fast 100 Jahren von Ronald A. Fisher, ist zur wichtigsten und zugleich unverstandensten Kennzahl in den Lebenswissenschaften avanciert. Er kann dort über Publikation, Promotion und am Ende sogar Professur mitentscheiden. Denn nur wenn dieser Wert „signifikant“ ist, da ist man sich einig, hält man einen Befund für berichtenswert oder ein Studienergebnis für so relevant, dass es einer Veröffentlichung wert sei. Fatalerweise beruht aber all dies auf grundsätzlichem, folgenschwerem statistischen Unverständnis. Viele Wissenschaftlerinnen und Wissenschaftler denken nämlich, der p-Wert quantifiziere, wie wahrscheinlich es ist, dass ihre Hypothese richtig oder zwei Versuchsgruppen unterschiedlich sind. Insbesondere verwechseln viele den p-Wert mit dem Risiko, eine falsche Schlussfolgerung zu ziehen. Und nehmen an, dass ein signifikantes Ergebnis, wenn nämlich der p-Wert eine bestimmte Schwelle (häufig 0.05) unterschreitet, auch bedeutet, dass das Ergebnis bedeutsam ist. Auch die Vorstellung, dass Ergebnisse mit einem niedrigen p-Wert leicht in neuen Studien wiederholt werden können, ist weit verbreitet. Umgekehrt denken viele, dass ein p-Wert über einer Schwelle (ebenfalls häufig 0.05) bedeutet, dass es keinen Unterschied zwischen Versuchsgruppen gibt. All dies ist falsch. Nicht nur hat Fisher diese Schwelle absolut willkürlich bei fünf Prozent angesetzt. Wird sie unterschritten, so damals sein Rat, lohne es sich „genauer hin zu sehen“, nicht mehr, nicht weniger. Tatsächlich sagt der p-Wert nämlich nur aus, wie ungewöhnlich die Daten sind, wenn wir von einer grundlegenden Annahme ausgehen. Und da liegt auch schon der Kern des Problems, denn wir wissen doch gar nicht, wie wahrscheinlich diese Annahmen (zum Beispiel unsere Hypothesen) sind. Genau deshalb führen wir ja eine Studie durch. Ein Beispiel: Wenn die Wahrscheinlichkeit zehn Prozent wäre, dass unsere Hypothese stimmt, wir das allgegenwärtige fünf Prozent-Signifikanzniveau verwenden und unsere Teststärke einen tatsächlich vorhandenen Effekt in 80 Prozent der Fälle auch wirklich entdecken kann, sind fast 40 Prozent der statistisch signifikanten Ergebnisse (p<0.05!) falsch positiv! Und eben nicht weniger als fünf Prozent, wie die Mehrheit der Wissenschaftlerinnen und Wissenschaftler irrtümlich glaubt (weiterführendes Material siehe https://bit.ly/FundL_p-Wert). Wer dies hingegen verstanden hat und weiß, dass viele Studien Teststärken von 80 Prozent gar nicht erreichen, wird nicht nur seine eigenen Ergebnisse, sondern auch die gesamte (biomedizinische) Literatur viel kritischer interpretieren. Und den Titel eines der meistzitierten (und nie widerlegten) biomedizinischen Artikel verstehen: „Why most published research findings are false“. Ein signifikantes Problem Ulrich Dirnagl ist Professor für Klinische Neurowissenschaften und Gründungsdirektor des QUEST Center for Responsible Research, BIH, Charité – Universitätsmedizin Berlin. Foto: BIH-Thomas Rafalzyk

RkJQdWJsaXNoZXIy MjMxMzg=