Blog der Hauptbibliothek

p-hacking – kein Kavaliersdelikt

19. November 2019 | Martina Gosteli | Keine Kommentare |

This post is also available in: English

Gastbeitrag von Dr. Eva Furrer, Center for Reproducible Science, UZH

p-hacking, unter anderem auch data dredging oder fishing for significance genannt, ist eine von mehreren fragwürdigen Forschungspraktiken, die seit einigen Jahren vermehrt angeprangert und bekämpft wird. Die Erkenntnis der Problematik ist jedoch gar nicht neu, z.B.:

  • „The Meaning of “Significance” for Different Types of Research“, de Groot 1956, im original auf niederländisch, hier übersetzt von E.J. Wagenmakers.
  • „The scandal of poor medical research“, Altman 1994 in BMJ.
  • „Why Most Published Research Findings Are False“, Ioannidis 2005 in PLOS Medicine.

Was ist also p-hacking? Der Wikipedia Artikel zu p-hacking beginnt so:

“p-Hacking, auch als specification searching bekannt, bezeichnet die Verzerrung und Manipulation von Forschungsresultaten durch nachträgliche Anpassung der Testparameter.

Der p-Wert wird „gehackt“, also künstlich unter die 5-%-Grenze gedrückt, sodass die Wahrscheinlichkeit steigt, dass dieses Forschungsergebnis publiziert wird. Dies führt dazu, dass selektiv Analysen mit statistisch signifikanten Resultaten publiziert werden, wobei Analysen, die nicht signifikante Resultate aufweisen, unveröffentlicht bleiben (File-Drawer-Problem). Somit geht p-Hacking oft mit einem Publikationsbias einher. Die häufige Fehlinterpretation von p-Werten und die Anwendung von p-Hacking hat zu unzähligen falschen Forschungsresultaten geführt, die der Wissenschaft geschadet haben. p-Hacking kann durch die Benutzung von Metaanalysen aufgedeckt werden und als Antwort der Autoren auf die Tatsache angesehen werden, dass Studien mit signifikanten Ergebnissen für die Publikation präferiert werden.” 

Eindrückliche Beispiele davon, wie massiv der Schaden sein kann, führen von Andrew Wakefield über Diedrik Stapel zu Brian Wansink. Dabei sind solche medienwirksamen Fälle, die in verschiedener Ausprägung Betrug darstellen, vergleichsweise selten. Jedoch scheint die Wissenschaft im allgemeinen in Fragen der Reproduzuierbarkeit ein grosses Verbesserungspotential zu haben, siehe zum Beispiel Baker 2016 in Nature.

Zu p-hacking verwandte und ähnlich fragwürdige Praktiken sind:

  • HARKing (Hypothesizing After the Results are Known): statistisch signifikante Ergebnisse im Nachhinein als diejenigen ausgeben, nach denen man von Anfang gesucht hat
  • Optional stopping: solange weiter experimentieren bis das Resultat statistisch signifikant ist
  • Selective reporting: nur statistisch signifikante Ergebnisse publizieren, nicht-signifikante landen im Aktenschrank.

Insgesamt führen diese Praktiken dazu, dass die gesamte Literatur verzerrt ist durch zu viele publizierte falsch positive und zu wenige publizierte korrekt negative Ergebnisse. Im Zusammenspiel mit zu kleinen Stichprobengrössen führt dies zu grossen Problemen, siehe zum Beispiel Button et al 2016 in Nature.  Wer als statistischer Laie das Problem der zu vielen falsch positiven Resultate besser verstehen möchte, sollte sich dieses Video von The Economist anschauen.

Es gibt einige vielversprechende Lösungsansätze, um die Probleme der Krise zu überwinden:

  • Klare Trennung von explorativer und konfirmatorischer Forschung, siehe zum Beispiel Kraft et al. über genome-wide association studies oder Kimmelman et al. über präklinische Forschung
  • Blinded data analysis, z.B. vorgeschlagen durch McCoun und Perlmutter in Anlehnung an Konventionen in der Teilchenphysik und Kosmologie.
  • Registrierung von Studienprotokollen bevor die Datensammlung beginnt, eine erprobte Massnahme der klinischen Forschung, siehe Kaplan and Irvin, 2015 bzgl. der Auswirkungen auf die Verzerrung der Literatur.

Eine ganze Serie von Artikeln zu Verbesserungvorschlägen für die wissenschaftliche Praxis erschien 2014 in The Lancet, Research: increasing value, reducing waste. An der UZH wurde 2018 das Center for Reproducible Science gegründet, das zum Ziel hat, über gute wissenschaftliche Praxis aufzuklären und Lücken in der diesbezüglichen Ausbildung zu schliessen. Schlussendlich soll durch Training, Kollaborationen und methodische Forschung eine solche von der Lancet Serie angeregte Wertsteigerung und Verschwendungsreduktion an der UZH erreicht werden.

Präsentation von Dr. Eva Furrer

Abgelegt unter: Coffee LecturesGut zu wissenTipps für Ärzte und MTTB-BerufeTipps für Forschende
Tags: