Die Verdrängung des selektiven Publizierens: 7 Fallstudien von prominenten Sozialpsychologen

Inoffizieller Beitrag zum Themenheft zur Replikationskrise in der Psychologischen Rundschau

Im Herbst 2015, kontaktierte mich Christoph Klauer mit der Frage, ob ich einen Beitrag zu einem Themenheft in der Psychologischen Rundschau zur Replikationskrise in der Psychologie schreiben wollte.  Ich hatte mit Moritz Heene an einer Diskussion im Diskussionsforum der DGfP teilgenommen und war bereit einen Beitrag zu liefern.  Der Beitrag sollte Ende März 2016 fertig sein und mit einer Woche Verspätung reichten Moritz und ich unseren Beitrag ein.  Wir wussten, dass der Beitrag starke Reaktionen hervorrufen würde, da wir an mehreren persönlichen Fallbeispielen zeigten, wie viele Sozialpsychologen versuchen die Replikationskrise zu verdrängen.  Wir waren auf heftige Kritik von Gutachtern gefasst.  Aber dazu kam es nicht.  In einer überaus verständnisvollen und auch zustimmenden email, erklärte Christoph Klauer warum unser Beitrag nicht in das geplante Themenheft passt.

Vielen Dank für das interessante und lesenswerte Manuskript. Ich habe es mit Vergnügen gelesen und kann den meisten Punkten und Argumenten zustimmen. Ich glaube, diese ganze Debatte wird der Psychologie (und hoffentlich auch der Sozialpsychologie) gut tun, auch wenn sich mancher derzeit noch schwer tut. Das Bewusstsein für die Schädlichkeit mancher früher verbreiteten Gewohnheiten und die Einsicht in die Wichtigkeit von Replikationen hat meinem Eindruck nach jedenfalls in den letzten zwei bis drei Jahren bei sehr vielen Kolleginnen und Kollegen deutlich zugenommen. Leider passt das Manusrkipt aus formalen Gründen nicht so gut in das geplante Sonderheft.  (Christoph Klauer, email April 14, 2016).

Da wir uns einige Mühe mit dem Beitrag gemacht haben und es schwer ist etwas auf Deutsch in anderen Fachzeitschriften zu veröffentlichen haben wir beschlossen unseren Beitrag inoffiziell, d.h., ohne fachliche Begutachtung von Kollegen, zu veröffentlichen. Für nachträgliche Kommentare und Kritik sind wir offen und dankbar.  Wir hoffen dass unserer Beitrag zu weiterer Diskussion über die Replikationskrise insbesondere in der Sozialpsychologie führt. Wir glauben, dass unser Beitrag eine einfache und klare Botschaft hat.  Die Zeit der geschönten Ergebnisse ist vorbei. Es ist Zeit, dass Psychologen ihre Laborbefunden offen und ehrlich berichten, denn geschönte Ergebnisse verlangsamen oder verhindern den wissenschaftlichen Fortschritt.

++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++

Wie glaubwürdig ist die Sozialpsychologie?

Ulrich Schimmack1

Moritz Heene2
1 University of Toronto, Mississauga, Kanada

2 Learning sciences Research Methodologies, Department of Psychologie, Ludwig Maximilians Universität München

Zusammenfassung

Eine große Replikationsstudie von 100 Studien zeigte, dass nur 25% sozialpsychologischer Studien und 50% kognitionspsychologischer Studien repliziert werden konnten.  Dieser Befund steht im Einklang mit Befunden, dass die statistische Power oft gering ist und Zeitschriften nur signifikante Ergebnisse berichten.  Dieses Problem ist seit 60 Jahren bekannt und erklärt die Ergebnisse des Replikationsprojekts.  Wir zeigen hier auf, wie prominente Sozialpsychologen auf diesen Befund reagiert haben.  Die Kommentare lenken von dem Hauptproblem des Publikationsbias ab und versuchen das Ergebnis schönzureden.  Wir entkräften diese Argumente und fordern Psychologen auf Forschungsergebnisse offen und ehrlich zu berichten.

Keywords: Replikationskrise, Replizierbarkeit, Power

Wie glaubwürdig ist die Sozialpsychologie?

Im Jahr 2011 wurde die Glaubwürdigkeit der Sozialpsychologie durch zwei Ereignisse in Frage gestellt.  Erst stellte sich heraus, dass der Sozialpsychologe Diederik Stapel massiv Daten erfunden hatte.  Inzwischen sind über 50 seiner Artikel zurückgezogen worden (Retraction Watch, 2015).  Dann publizierte das Journal of Personality and Social Psychologie einen Artikel, der angeblich zeigte, dass extravertierte Personen extrasensorische Fähigkeiten haben und, dass man Testergebnisse verbessern kann wenn man nach dem Test lernt (Bem, 2011).  Bald darauf zeigten Forscher statistische Probleme mit den berichteten Ergebnissen auf und Replikationsstudien konnten diese Ergebnisse nicht replizieren (Francis, 2012; Galak, LeBoeuf, Nelson, & Simmons, 2012; Schimmack, 2012).  In diesem Fall waren die Daten nicht gefälscht, sondern Bem hat höchstwahrscheinlich seine Daten so erhoben und ausgewertet, wie es viele Sozialpsychologen gelernt haben. Es stellte sich daher die Frage, wie glaubwürdig andere Ergebnisse in der Sozialpsychologie sind (Pashler & Wagenmakers, 2012).

Als einige Forscher die Effekte zum „elderly priming“ nicht replizieren konnten, sah der Nobelpreisträger Daniel Kahneman eine Krise vorher (Yong, 2012).  Im Jahr 2015 ist diese Krise nun eingetroffen.  Unter der Leitung von Brian Nosek haben hunderte von Psychologen versucht 100 Ergebnisse zu replizieren, die im Jahr 2008 in drei renommierten Fachzeitschriften (Journal of Experimental Psychology: Learning, Memory, and Cognition, Journal of Personality and Social Psychology, & Psychological Science) veröffentlicht wurden (Open Science Collective, 2015).  Während 97% der Originalstudien ein signifikantes Ergebnis berichteten, war die Erfolgsquote in den Replikationsstudien mit 35% deutlich niedriger.  Es zeigte sich jedoch auch ein Unterschied zwischen den Disziplinen.  So war die Replikationsrate für die Kognitive Psychologie 50%, die der Sozialpsychologie hingegen nur 25%.  Da wir uns in diesem Artikel auf die Sozialpsychologie konzentrieren, stellt sich die Frage, wie die 25% Replikationsrate zu interpretieren ist.

Selektives Publizieren von signifikanten Ergebnissen

Vor über 50 Jahren deutete Sterling (1959) bereits darauf hin, dass die Erfolgsquote in psychologischen Zeitschriften unwahrscheinlich hoch ist und stellte die Hypothese auf, dass Publikationsbias dafür verantwortlich ist.  Drei Jahrzehnte später zeigten Sterling und Kollegen, dass die Erfolgsquote weiterhin über 90% lag (Sterling et al., 1995).  Der Artikel machte auch deutlich, dass diese Erfolgsquote nicht mit Schätzungen der statischen Power in der Psychologie übereinstimmt.  Im optimalen Fall haben Psychologen immer die richtige Alternativhypothese (die Nullhypothese ist immer falsch).  Wenn dies der Fall ist, ist die Erfolgsquote in einer Serie von Studien durch die statische Power bestimmt.  Dies ergibt sich aus der Definition von statistischer Power als die relative Häufigkeit von Studien, in denen die Stichprobeneffektgröße zu einem statistisch signifikanten Ergebnis führt. Wenn die Studien unterschiedliche Power haben, ist die Erfolgsquote eine Funktion der durchschnittlichen Power.  Cohen (1962) schätzte, dass sozialpsychologische Studien rund 50% Power haben, um ein signifikantes Ergebnis mit einem Alphaniveau von 5% zu erreichen.  Sedlmeier and Gigerenzer (1989) replizierten diesen Schätzwert 25 Jahre später; es gibt auch keine Anzeichen dafür, dass sich die typische Power seitdem erhöht hat (Schimmack, 2015c).  Wenn die tatsächliche Erfolgswahrscheinlichkeit 50% ist und die berichtete Erfolgsquote publizierter Studien fast 100% ist, ist es deutlich, dass Publikationsbias zu der hohen Erfolgsquote in der Sozialpsychologie beiträgt.

Publikationsbias liegt dann vor, wenn signifikante Ergebnisse veröffentlicht werden und nicht-signifikante Ergebnisse unveröffentlicht bleiben.  Der Begriff Publikationsbias erklärt jedoch nicht wie es zu der Selektion von signifikanten Ergebnissen kommt.  Als Sterling seinen ersten Artikel dazu 1959 schrieb, war es üblich, dass ein Artikel eine einzige Studie berichtete.  Wenn dies der Fall ist, ist es möglich, dass mehrere Forscher eine ähnliche Studie machen, aber nur diejenigen Forscher, die Glück hatten und ein signifikantes Ergebnis beobachteten, ihre Ergebnisse zur Veröffentlichung einreichen.  Sozialpsychologen waren sich diesem Problem bewusst.  Daher wurde es üblich, dass ein Artikel mehrere Studien berichten musste.  Bem (2011) beispielsweise berichtete 10 Studien und 9 davon hatten ein signifikantes Ergebnis (bei Alpha = 5%, einseitige Testung).  Es ist extrem unwahrscheinlich, dass sich Glück mehrfach wiederholt. Daher kann Glück alleine die hohe Erfolgsrate bei Bem und in anderen Artikeln mit mehreren Studien nicht erklärt (Schimmack, 2012).  Um 6 oder mehr Erfolge zu haben, wenn die Erfolgswahrscheinlichkeit nur 50% ist, müssen Forscher dem Glück etwas nachhelfen.  Es gibt eine Reihe von Erhebungs- und Auswertungsmethoden, die die Erfolgswahrscheinlichkeit artifiziell erhöhen (John, Loewenstein, & Prelec, 2012).  Diese fragwürdigen Methoden haben gemeinsam, dass mehr Ergebnisse produziert als berichtet werden.  Entweder werden ganze Studien nicht berichtet oder es werden nur die Analysen berichtet, die zu einem signifikanten Ergebnis führten.  Einige Sozialpsychologen haben offen zugegeben, dass sie diese fragwürdigen Methoden in ihrer Forschung benutzt haben (z.B., Inzlicht, 2015).

Es gibt also eine einfache Erklärung für die große Diskrepanz zwischen der berichteten Erfolgsquote in sozialpsychologischen Zeitschriften und der niedrigen Replikationsrate im Reproduktionsprojekt: Sozialpsychologen führen wesentlich mehr statistische Tests durch als in den Zeitschriften berichtet werden, aber nur die Tests die eine Hypothese bestätigen werden berichtet.  Man braucht kein Wissenschaftstheoretiker zu sein, um zu sehen, dass Publikationsbias ein Problem ist, aber zumindest US Amerikanische Sozialpsychologen haben sich eingeredet, dass die Selektion von signifikanten Ergebnissen kein Problem ist. Bem (2010, S. 5) schrieb „Last uns falsche Entdeckungen machen.“ (Let’s err on the side of discovery.) und dieses Kapitel wurde in vielen Methodenkursen benutzt, um Doktoranden Forschungsmethoden zu lehren.

Gibt es andere Erklärungen?

Ironischerweise kann die öffentliche Reaktion von einigen Sozialpsychologen auf die Ergebnisse des Replikationsprojekts gut mit psychologischen Theorien der Verdrängung erklärt werden (siehe Abbildung 1).  So kommt das Wort „Publikationsbias“ in Stellungnahmen von Sozialpsychologen wie zum Beispiel der offiziellen Stellungnahme der Deutschen Gesellschaft für Psychologie kaum vor. Die unangenehme Wahrheit, dass die Glaubwürdigkeit vieler Befunde in Frage steht scheint zu bedrohlich zu sein, um offen damit umzugehen.  Dies ist jedoch notwendig, damit die nächste Generation von Sozialpsychologen nicht die Fehler ihrer Doktorväter und Doktormütter wiederholt.  In einer Reihe von Fallstudien zeigen wir die Fehler in Argumenten von Sozialpsychologen auf, die Selektionsbias offenbar nicht wahrhaben wollen.

 

repressionpsychologist2

Abbildung 1.   Nicht-signifikante Ergebnisse werden verdrängt.

Fallstudie 1: Die 25% Erfolgsquote ist nicht interpretierbar

Alison Ledgerwood ist eine prominente US-amerikanische Sozialpsychologien, die Artikel zur Glaubwürdigkeit der Sozialpsychologie veröffentlicht hat (Ledgerwood & Sherman, 2012). Sie schrieb auch ein Blog über die Ergebnisse des Replikationsprojekts und behauptet, dass die Replikationsquote von 36% nicht interpretierbar ist (“36, it turned out, was the answer. It’s just not quite clear what the question was”). Ihr Hauptargument ist, dass es nicht klar ist wie viele erfolgreiche Replikationen man hätte erwarten können.  Bestimmt nicht 100%.  Vielleicht ist es ja realistischer nur 25% erfolgreiche Replikationen für die Sozialpsycholgie zu erwarten.  Und in diesem Fall stimmt die tatsächliche Erfolgsrate mit der erwarteten Erfolgsrate perfekt überein; ein hundert prozentiger Erfolg. Aber warum sollten wir einen Erfolg von 25% erwarten? Warum nicht 10%? Dann wäre die tatsächliche Erfolgsquote doch sogar 150% höher als die erwartete Erfolgsquote. Das wäre doch noch besser.  Es ist ja eine alte Weisheit, dass niedrige Erwartungen das Glück erhöhen.  Es macht daher Sinn für das Wohlbefinden der Sozialpsycholgen die Erwartungen herunterzuschrauben. Jedoch ist diese niedrige Erwartung nicht mit der nahezu perfekten Erfolgsquote in den Zeitschriften vereinbar. Alison Ledgerwood ignoriert die Diskrepanz zwischen der öffentlichen Erfolgsrate und der impliziten wahren Erfolgsrate in sozialpsychologischen Laboren.

Ledgerwood behauptet weiterhin, dass die Replikationsstudien niedrige Power hatten und man daher keine hohe Erfolgsquote erwarten könnte.  Sie übersieht dabei jedoch, dass viele Replikationsstudien größere Stichproben als die Originalstudien hatten, was bedeutet, dass die Power der Originalstudien im Durchschnitt niedriger war als die Power der Replikationsstudien.  Es bleibt daher unklar, wie die Originalstudien mit weniger Power eine wesentlich höhere Erfolgsquote erreichen konnten.

Fallstudie 2:  Negative Replikationen sind Normal (Lisa Feldman Barrett)

In einem Kommentar in der New York Times schrieb Lisa Feldmann Barrett, dass es normal sei, wenn eine Replikationsstudie einen originalen Befund nicht repliziert.  Die Ergebnisse des Replikationsprojekts zeigen daher nur, dass die Sozialpsychologie die Glaubwürdigkeit ihrer Ergebnisse prüft und Fehler korrigiert. Dieses Argument ignoriert die Tatsache, dass selektives Publizieren von signifikanten Ergebnissen die Fehlerrate erhöht. Während Ergebnisse berichtet werden als ob die Wahrscheinlichkeit eines falschen Effekts maximal 5% ist (d.h., man erwartet 5% signifikante Ergebnisse, wenn die Null-Hypothese immer stimmt und all Ergebnisse berichtet werden), ist die wahre Fehlerwahrscheinlichkeit wesentlich höher.  In Statistikkursen wird gelehrt, dass Forscher Studien so planen sollen, dass mit einer 80 prozentigen Wahrscheinlichkeit ein signifikanten Effekt beobachtet wird, wenn die Alternativhypothese gilt.  Studien mit 25% Power durchzuführen und dann nur die Ergebnisse zu berichten, die mit Hilfe des Zufalls/Stichprobenfehlers signifikant wurden, ist nicht wissenschaftlich. Daher ist die 25% Replikationsrate kein Zeichen dafür, dass in der Sozialpsychologie alles in Ordnung ist.  Die Kollegen in der klassischen kognitiven Psychologie (nicht in der Neuropsycholgie) schaffen immerhin 50%.  Selbst 50% ist nicht besonders gut.  Die renommierten Psychologen Kahneman and Tversky (1971) beschrieben eine Power von 50% als lächerlich („ridiculously low“). Die Autoren gehen noch weiter, wenn sie die Wissenschaftlichkeit von Forschern in Frage stellen, die bewusst Studien mit weniger als 50% power durchführen („We refuse to believe that a serious investigator will knowingly accept a .50 risk of failing to confirm a valid research hypothesis“ p. 110).

Fallstudie 3: Die wahre Erfolgsquote ist 68%  (Stroebe & Hewstone)

In einem Kommentar für The Times of Higher Education behaupten Stroebe und Hewstone (2015), dass die 25% Erfolgsquote nicht besonders informativ ist.  Gleichzeitig heben sie hervor, dass es möglich ist, eine Metaanalyse der Originalstudien und der Replikationsstudien durchzuführen.  Diese Analyse wurde schon in der ursprünglichen Science Veröffentlichung  (OSC, 2016) durchgeführt und führt zu einer Schätzung der Replikationsrate von 68%.  Stroebe und Hewstone finden dies bemerkenswert und interpretieren diesen Befund als die bessere Schätzung der Replizierbarkeit von sozialpsychologischen Ergebnissen („In other words, two-thirds of the results could be replicated when evaluated with a simple meta-analysis that was based on both original and replication studies”).  Es ist jedoch nicht möglich die Erfolgsquote der Originalstudien mit den Replikationsstudien derart zu vereinen, um die Replizierbarkeit von Originalstudien in der Sozialpsychologie zu schätzen, da der Selektionsbias in den Originalstudien nicht korrigiert wird und daher die Effektgröße weiterhin erhöht bleibt. was zu einer Überschätzung der Replizierbarkeit führt.  Die Replikationsstudien haben keinen Selektionsbias da sie durchgeführt wurden um die Replizierbarkeit von Originalstudien in der Psychologie zu untersuchen.  Daher kann die Replikationsrate der Replikationsstudien direkt zur Schätzung der Replizierbarkeit interpretiert werden.  Das Ergebnis für die Sozialpsychologie ist eine Rate von 25% und nicht 68%.

Fallstudie 4:  Die Ergebnisse des Replikationsprojekts zeigen nicht das Sozialpsychologie nicht vertrauenswürdig ist (Offizielle Stellungnahme der DGPs)

Offenbar in Reaktion auf kritische Artikel in den Medien sahen sich die DGPs Vorstandsmitglieder veranlasst eine offizielle Stellungnahme zu veröffentlichen.  Diese Stellungnahme wurde von einigen Mitgliedern der DGPs kritisiert, was zu einer öffentlichen, moderierten Diskussion führte.  Die offizielle Stellungnahme behauptet, dass die Replikationsrate von 36% (für kognitive und soziale Psychologie) kein Grund ist die Glaubwürdigkeit psychologischer Forschung in Frage zu stellen.

„Wenn in der medialen Berichterstattung teilweise die Zahl „36%“ in den Mittelpunkt gestellt und als Beleg für die mangelhafte Replizierbarkeit psychologischer Effekte verwendet wird, so bedeutet das nicht, dass die berichteten Ergebnisse in den Originalstudien falsch oder nicht vertrauenswürdig sind. Dies wird auch von den Autorinnen und Autoren des SCIENCE Artikels betont.“  (DGPs, 2015)

Es ist in der Tat wichtig zwischen zwei Interpretationen einer Replikationsstudie mit einem nicht-signifikanten Ergebnisse zu unterscheiden.  Eine Interpretation ist, dass die Replikationsstudie zeigt, dass ein Effekt nicht existiert.  Eine andere Interpretation ist, dass die Replikationsstudie zeigt, dass die Originalstudie keine oder nicht genug Evidenz für einen Effekt bietet, selbst wenn dieser Effekt existiert.  Es ist möglich, dass die Medien und die Öffentlichkeit die 36% Erfolgsrate so interpretiert haben, dass 64% der Originalstudien falsche Evidenz für einen Effekt geliefert haben, der nicht existiert.  Diese Interpretation ist falsch, da es unmöglich ist zu zeigen, dass ein Effekt nicht existiert. Es ist nur möglich zu zeigen, dass es sehr unwahrscheinlich ist, dass der Effekt mit einer bestimmten Größe existiert.  Beispielsweise ist der Stichprobenfehler für den Vergleich von zwei Mittelwerten mit 1600 Probanden .05 Standardabweichungen (Cohens d = .05). Wenn die abhängige Variable standardiziert ist, reicht das 95% Konfidenzinterval um 0 von -.10 bis +.10. Wenn die Differenz der Mittelwerte in diesem Intervall liegt, kann man daraus schließen, dass es wenn überhaupt nur einen schwachen Effekt gibt. Da die Stichproben in den Replikationsstudien oft zu klein waren, um schwache Effekte auszuschließen, sagen die Ergebnisse nichts über die Anzahl von falschen Befunden in den Originalstudien aus.  Dies bedeutet jedoch nicht, dass die Ergebnisse in Originalstudien glaubwürdig oder vertrauenswürdig sind.  Da viele Ergebnisse nicht repliziert wurden, bleibt unklar ob diese Effekte existieren.  Die Frage wie oft die Originalstudien die Richtung eines wahren Mittelwertunterschieds richtig vorhersagen ist also von der Replikationsrate zu unterscheiden und die Replikationsrate ist 25%, selbst wenn weitere Studien mit größeren Stichproben eine höhere Erfolgsquote haben könnten.

Fallstudie 5:  Die Reduktion der Erfolgsquote ist ein normales statistisches Phänomen (Klaus Fiedler)

Im Diskussionsforum der DGPs  bot Klaus Fiedler eine weitere Erklärung für die niedrige Replikationsrate.  (Die gesamte Diskussion kann unter https://dl.dropboxusercontent.com/u/3670118/DGPs_Diskussionsforum.pdf abgerufen werden.)

Klaus Fiedler bezog sich insbesondere auf eine Graphik im Science Artikel, die die Effektgrößen der Replikationsstudie als Funktion der Effektgrößen in den Originalstudien zeigt.  Die Graphik zeigt, dass die Effektgrößen der Replikationsstudien im Durschnitt niedriger sind als die Effektgrößen in den Originalstudien. Der Artikel berichtet, dass sich die durchschnittliche Effektgröße von r = .40 (d = 1.10) auf r = .20 (d = .42) reduzierten.  Die publizierten Effektgrößen überschätzen daher die wahren Effektgrößen um mehr als 100%.

Klaus Fiedler behauptet, dass dies kein empirisches Phänomen sei, sondern nur ein bekanntes statistisches Phänomen der Regression zur Mitte wiederspiegelt  (On a-priori-grounds, to the extent that the reliability of the original results is less than perfect, it can be expected that replication studies regress toward weaker effect sizes. This is very common knowledge).

Klaus Fiedler behauptet weiterhin, dass Effektgrößen schrumpfen können, selbst wenn kein Selektionsbias vorliegt.

The only necessary and sufficient condition for regression (to the mean or toward less pronounced values) is a correlation less than zero [Fiedler probably meant to write less than one]. This was nicely explained and proven by Furby (1973). We all “learned” that lesson in the first semester, but regression remains a counter-intuitive thing.

Wir waren überrascht zu lesen, dass Regression zur Mitte auch ohne Selektion auftreten kann. Dies würde bedeuten, dass wir bspw. das Körpergewicht nur mit ungenauen Messinstrumenten messen müssen und dann das Durchschnittsgewicht bei der zweiten Messung geringer wäre.  Wenn dem so wäre, könnten wir die „Regressionsdiät“ benutzen, um ein paar Kilo abzunehmen.  Leider ist dies nur Wunschdenken, ebenso wie sich Klaus Fiedler wünscht, dass die 25% Replikationsrate kein Problem für die Sozialpsychologie darstellt. Wir haben Klaus Fiedlers Quelle nachgelesen und fanden, dass Furbys Beispiel und Beweis explizit eine Selektion voraussetzte (Furby, 1973, S. 173): „Now let us choose a certain aggression level at Time 1 (any level other than the mean)“ (Hervorhebungen von den Autoren).  Furby (1973) zeigt also genau das Gegenteil von dem, was Hr. Fiedler als Beleg für die Erklärung der Ergebnisse alleine durch die Regression zur Mitte heranzog.

Der Vollständigkeit halber wiederlegen wir an dieser Stelle nochmals die These, dass alleine eine Korrelation von kleiner als 1 zwischen den Effektgrößen der Originalstudien und der Replikationsstudien ausreichend ist, um die Ergebnisse des Reproduzierbarkeitsprojektes zu erklären. Halten wir uns zunächst an die Definition der Regression zur Mitte nach bspw. Shepard und Finison (aber siehe auch Maraun, 2011 für eine umfassende Darstellung). Das Ausmaß der Regression zur Mitte ist gegeben durch  mit r: Korrelation zwischen der ersten und zweiten Messung, µ: Mittelwert der Effektgröße in der Population, M: Mittelwert in der selegierten Gruppe, hier: durchschnittliche Effektgröße der originalen Studien. Siehe hierzu Shepard und Finison (1983, S. 308: „The term in square brackets, the product of two factors, is the estimated reduction in BP [blood pressure] due to regression.“ Ist nun eine Korrelation zwischen beobachteten Effektgrößen der originalen Studien und denen aus dem Reprodizierbarkeitsprojekt von kleiner als 1 eine notwendige und hinreichende Bedingung, wie Hr. Fiedler schrieb? Die Aussagenlogik lehrt uns die folgenden Definitionen:

Notwendig:

~p -> ~q

,wobei „~“ die Negation bezeichnet.

Angewandt auf die obige mathematische Definition der Regression zur Mitte hießt dies:

Falls r nicht kleiner als 1 ist, tritt die Regression zur Mitte nicht auf. Diese Aussage ist wahr, wie man anhand der Formel oben sehen kann.

Hinreichend:

p -> q

Falls r kleiner als 1 ist, tritt die Regression zur Mitte auf. Diese Aussage ist falsch wie man wiederum an der Formel oben sehen kann. Zu diesem Punkt schrieben wir auch im DGPS-Forum: „Wenn bspw. r = .80 (also kleiner eins wie von Hr. Fiedler vorausgesetzt) und der Mittelwerte der selegierten Gruppe gleich dem Populationsmittelwert, also M = µ, also bspw. M = µ = .40, dann tritt kein Regressionseffekt auf, denn (1 – .80)*(.40 – .40) = .20*0 = 0. Folglich ist die Bedingung r < 1 zwar eine notwendige, aber keine hinreichende Bedingung für die Regression zur Mitte. Nur wenn r < 1 und M ungleich µ, tritt dieser Effekt auf.“

Fiedlers Regressionsargument ist daher in perfekter Übereinstimmung mit unserer Erklärung der niedrigen Erfolgsquote im Replikationsprojekt.  Die hohe Erfolgsquote in den Originalstudien beruht auf einer Selektion signifikanter Ergebnisse, welche mit Hilfe von Zufallsfehler signifikant wurden.  Ohne die Hilfe des Zufalls kommt es zu einer Regression der Effektgrößen zum wahren Mittelwert und die Erfolgsquote sinkt. Erstaunlich und beunruhigend ist nur wie stark der Selektionseffekt und wie niedrig die wahre Erfolgsquote in der Sozialpsychologie ist.

Fallstudie 6:  Die Autoren des Replikationsprojekts waren inkompetent (Gilbert)

Vor kurzem veröffentlichten Daniel Gilbert und Kollegen eine Kritik des OSF Science Artikel (Gilbert, King, Pettigrew, & Wilson, 2016).  In der Harvard Gazette behauptet Gilbert, dass das Replikationsprojekt schwere Fehler gemacht habe, und dass die negativen Implikationen für die Glaubwürdigkeit der Sozialpsychologie total ungerechtfertigt sind („the OSC made some serious mistakes that make its pessimistic conclusion completely unwarranted.”) (Reuell, March 2016).  Gilbert führen eigene Berechnungen an und behaupten, dass die Ergebnisse mit einer wahren Erfolgsquote von 100% vereinbar sind („When this error is taken into account, the number of failures in their data is no greater than one would expect if all 100 of the original findings had been true.“).

Gilbert et al. (2016) führen drei Argumente auf, um die Ergebnisse des Replikationsprojekts in Frage zu stellen:

Das erste Argument ist, dass die Autoren die Daten falsch ausgewertet haben.  Dies Argument ist aus zwei Gründen nicht stichhaltig.  Erstens vermeiden es Gilbert et al. die 25% Erfolgsquote zu erwähnen.  Dieses Ergebnis bedarf kein tiefes Wissen über statistische Methoden.  Zählen alleine reicht und der Science-Artikel berichtet die richtige Erfolgsquote von 25% für die Sozialpsychologie.  Um von diesem klaren Ergebnis abzulenken, fokussieren Gilbert et al. ihre Kritik auf einen Vergleich der Effektgrößen in den Originalstudien und den Replikationsstudien.  Dieser Vergleich ist jedoch nicht besonders informativ, da die Konfidenzintervalle der Originalstudien sehr weit sind.  Wenn eine Studie eine Effektgröße von .8 Standardabweichungen berichtet und der Befund gerade mal signifikant ist (bei Alpha = 5%), reicht das 95% Konfidenzintervall von ein bisschen über Null bis zu 1.6 Standardabweichungen.  Selbst wenn die Replikationsstudie einen Effekt von Null zeigen würde, ist dieses Ergebnis nicht signifikant von dem Ergebnis der Originalstudie verschieden, da die Effektgröße der Replikationsstudie auch einen Messfehler hat und das Konfidenzintervall mit dem der Originalstudie überlappt. Wenn mal also diese Methode anwendet ist selbst ein echtes Nullergebnis eine gelungene Replikation eines starken Originaleffekts.  Dies macht keinen Sinn, während es durchaus sinnvoll ist einen Originalbefund in Frage zu stellen, wenn eine Replikationsstudie diesen Befund nicht replizieren kann.  Auf jeden Fall ändert der Vergleich von Konfidenzintervallen nichts an der Tatsache, dass die Erfolgsquote von nahe 100% auf 25% schrumpfte.

Das zweite Argument ist, dass die Replikationsstudien eine zu niedrige Power hatten, um die Replizierbarkeit der Originalstudien zu testen.  Wie bereits erwähnt war die Power der Replikationsstudien im Durschnitt höher als die Power der Originalstudien und die Replikationsstudien hatten daher eine bessere Chance die originalen Ergebnisse zu replizieren als die Originalstudien.  Die niedrige Replikationsrate von 25% kann daher nicht auf eine zu niedrige Power in den Replikationsstudien zurückgeführt werden.  Stattdessen kann die hohe Erfolgsquote in den Originalstudien mit Selektionsbias erklärt werden.  Gilbert et al. vermeiden es jedoch Selektionsbias zu erwähnen und zu erklären wie die Originalstudien ihre signifikanten Ergebnisse erreicht haben.

Das dritte Argument hat etwas mehr Gewicht.  Gilbert et al. stellten die Qualität der Replikationsstudien in Frage.  Erstens behaupteten die OSF Autoren, dass sie eng mit den Autoren der Originalstudien zusammengearbeitet haben, als sie die Replikationsstudien planten und dass die Originalautoren dem Replikationsplan zustimmten („The replication protocol articulated the process of … contacting the original authors for study materials, …  obtaining review of the protocol by the original authors, …”, p. 349).  Gilbert et al. fanden jedoch, dass einige Studien nicht von den Originalautoren begutachtet wurden oder dass die Originalautoren bedenken hatten.  Gilbert et al. fanden auch einige Beispiele, in denen die Replikationsstudie in einer anderen Sprache durchgeführt wurde, was Fragen über die Äquivalenz der Studien aufwirft.  Es stellt sich daher die Frage, ob die unterschiedlichen Erfolgsquoten auf mangelnde Äquivalenz zurückgeführt werden können.  Diese Frage gehen wir in der nächsten Fallstudie genauer nach.  Insgesamt sind die Argumente von Gilbert et al. jedoch schwach. Zwei Argumente sind schlicht falsch und das Problem exakte Replikationen in der Psychologie durchzuführen bedeutet nicht, dass die niedrige Erfolgsquote von 25% einfach ignoriert werden kann.  Viele echte Befunde wie der Ankereffekt lassen sich gut replizieren auch wenn die Studie in unterschiedlichen Ländern stattfindet (Klein et al., 2014). Außerdem erhöht die Notwendigkeit strenger Äquivalenz von experimentellen Bedingungen nicht die Glaubwürdigkeit von sozialpsychologischen Studien. Wenn diese Ergebnisse stark von den experimentellen Bedingungen abhängig sind, ist es nicht klar, unter welchen Bedingungen diese Befunde repliziert werden können.  Da die Probanden oft Studenten an einer Uni sind wo ein Sozialpsychologe beschäftigt ist, bleibt es unklar ob diese Befunde auch an anderen Unis oder mit Probanden die nicht Studenten sind repliziert werden können.  Selbst wenn die 25% Erfolgsquote die Erfolgsquote für strikte Replikationen unterschätzt bleibt es beunruhigend, dass es so schwer ist originelle Befunde zu wiederholen.

Fallstudie 7:  Replikationsstudien sind nicht interpretierbar (Strack)

In einem hochzitierten Artikel haben Fritz Strack und Wolfgang Stroebe (2014) den Sinn von Replikationstudien in Frage gestellt.  Der Artikel wurde veröffentlicht, bevor die Ergebnisse des OSF-Replikationsprojekt bekannt waren, aber das Projekt war den Autoren bekannt.  Die Autoren stellen zunächst in Frage ob die Sozialpsychologie eine Replikationskrise hat und stellen fest, dass es nicht genug Evidenz gibt um von einer Krise zu sprechen („We would argue that such a conclusion is premature.“ (p.  60).  Die Evidenz hat jetzt das Replikationsprojekt geliefert. Jedoch behaupten Strack und Stroebe, dass diese Ergebnisse ignoriert werden können, weil die Forscher den Fehler machten die originellen Studien so exakt wie möglich zu replizieren (das genaue Gegenteil von Gilberts Argument, dass die Studien zu verschieden waren).

Strack and Stroebe argumentieren, dass die Sozialpsychologie vorwiegend allgemeine Theorien zu testen.  Wenn man jedoch diese allgemeine Theorie immer nur unter denselben Bedingungen testet ist es unklar ob die Theorie wirklich gültig ist („A finding may be eminently reproducible and yet constitute a poor test of a theory”, p. 60).  Das stimmt zwar, aber das Problem der Sozialpsychologie ist ja, dass selbst unter möglichst gleichen Bedingungen originale Ergebnisse nicht repliziert werden konnten.  Und wenn das Replikationsprojekt die Experimente verändert hätte, wären diese Veränderungen vermutlich auch für die niedrige Replikationsrate verantwortlich gemacht worden (siehe Fallstudie 6). Diese Kritik an exakten Replikationen ist also höchst unlogisch.

Das bestätigen die Autoren sogar selbst wenn sie darauf hinweisen, dass Replikationen wertvoll sind wenn eine Studie sehr neue und unerwartete Befunde zeigt („Exact replications are also important when studies produce findings that are unexpected and only loosely connected to a theoretical framework“, p. 61).  Die Autoren führen eine berühmte Primingstudie als Beispiel an („It was therefore important that Bargh et al. (1996) published an exact replication of their experiment in the same paper” p. 61).  Und tatsächlich berichteten Bargh et al. (1996) Ergebnisse von zwei exakt gleichen Studien mit 30 Probanden.  Beide Studien zeigen ein signifikantes Ergebnis. Dies macht es sehr unwahrscheinlich, dass es ein Zufallsbefund war. Während eine Studie eine Fehlerwahrscheinlichkeit von 5% (1 / 20) hat, ist die Wahrscheinlichkeit für 2 Studien wesentlich kleiner 0.25% (1 / 400).  Wenn diese Ergebnisse jedoch nicht auf die speziellen Bedingungen von Barghs Labor in den Jahren 1990 bis 1995 beschränkt sind, sollten weitere Studien ebenfalls den Effekt zeigen.  Als aber andere Wissenschaftler den Effekt nicht fanden, wurde dieser Befund als Fehler der Replikationsstudie interpretiert („It is therefore possible that the priming procedure used in the Doyen et al. (2012) study failed in this respect, even though Doyen et al. faithfully replicated the priming procedure of Bargh et al. (1996)” (p. 62).  Es jedoch ebenso möglich, dass Bargh nicht alle Ergebnisse seines 5-jährigen Forschungsprogramms berichtet hat und dass Selektionsbias zu den signifikanten Ergebnissen die im Originalartikel berichtet wurden beigetragen hat.  Diese Möglichkeit wird jedoch von Strack und Stroebe (2014) nicht erwähnt, als ob es Selektionsbias nicht gäbe.

Die Verdrängung von Selektionsbias führt zu weiteren fragwürdigen Behauptungen. So behaupten Strack und Stroebe, dass ein nicht-signifikantes Ergebnis in einer Replikationsstudie als ein Interaktionseffekt interpretiert werden muss („In the ongoing discussion, “failures to replicate” are typically taken as a threat to the existence of the phenomenon. Methodologically, however, nonreplications must be understood as interaction effects in that they suggest that the effect of the crucial influence depends on the idiosyncratic conditions under which the original experiment was conducted”).  Diese Behauptung ist schlicht falsch und dies sollte den Autoren aus ihrer eigenen Forschung klar sein.  Im klassischen 2 x 2- Design der Sozialpsychologie kann man nur von einer Interaktion sprechen, wenn die Interaktion statistisch signifikant ist.  Wenn hingegen zwei Gruppen einen signifikanten Unterschied zeigen und zwei andere Gruppen keinen signifikanten Unterschied zeigen, kann dies auch ein zufälliges Ereignis sein. Entweder ist der signifikante Unterschied ein Type-I -Fehler oder der nicht-signifikanter Unterschied ist ein Type-II-Fehler.  Es ist daher wichtig mit einem Signifikanztest zu zeigen, dass Zufall eine unwahrscheinliche Erklärung für die unterschiedlichen Ergebnisse ist.  Im Replikationsprojekt sind die Unterschiede jedoch oft nicht signifikant.

Strack und Stroebes Argumentation würde bedeuten, dass Stichprobenfehler nicht existieren und daher jeder Mittelwertunterschied bedeutungsvoll ist.  Diese Argumentationslinie führt zu der absurden Schlussfolgerung, dass es Stichprobenfehler nicht gibt und Sozialpsychologische Ergebnisse 100% richtig sind.  Das stimmt zwar, wenn es um Stichprobenmittelwerte geht, aber die wirkliche Frage ist ja ob eine experimentelle Manipulation für diesen Unterschied verantwortlich ist, oder ob der Unterschied reiner Zufall ist.  Es ist daher nicht möglich die Ergebnisse von Originalstudien als unanfechtbare Wahrheiten anzusehen die ewige Gültigkeit haben.  Insbesondere wenn Selektionsbias groß ist, ist es möglich, dass viele veröffentlichte Befunde nicht replizierbar sind.

Abschließende Bemerkung

Es sind viele Artikel geschrieben worden, wie die Glaubwürdigkeit psychologischer Forschung erhöht werden kann.  Wir wollen nur einen Vorschlag machen, der ganz einfach und ganz schwer umzusetzen ist.  Psychologen müssen einfach nur alle Ergebnisse, signifikant oder nicht-signikifkant, in Fachzeitschriften berichten (Schimmack, 2012).  Die selektive Berichterstattung von Erfolgsmeldungen ist nicht mit den Zielen der Wissenschaft zu vereinbaren.  Wunschdenken und irren sind menschlich, aber gerade in den Sozialwissenschaften ist es wichtig diese menschlichen Fehler zu minimieren.  Die Krise der Sozialpsychologie zeigt jedoch, wie schwer es ist objektiv zu bleiben, wenn die eigenen Motive ins Spiel kommen.  Es ist daher notwendig, klare Regeln zu schaffen, die den Einfluss dieser Motive auf die Wissenschaft reduzieren.  Die wichtigste Regel ist, dass Wissenschaftler sich nicht aussuchen können, welche Ergebnisse sie berichten.  Der Artikel von Bem (2011) zur übersinnlichen Wahrnehmung zeigte eindeutig wie sinnlos die wissenschaftliche Methode ist, wenn sie missbraucht wird.  Wir begrüßen daher alle Initiativen die den Forschung- und Publikationsprozess in der Psychologie offener und transparenter machen.

References

Barrett, L. F. (2015, September 1). Psychology Is Not in Crisis. The New York Times. Abgerufen von http://www.nytimes.com/2015/09/01/opinion/psychology-is-not-in-crisis.html

Bem, D. J. (2000). Writing an empirical article. In R. J. Sternberg (Ed.), Guide to publishing in psychological journals (pp. 3–16). Cambridge, England: Cambridge University Press. doi:10.1017/CBO9780511807862.002.

Bem, D. J. (2011). Feeling the future: Experimental evidence for anomalous retroactive influences on cognition and affect. Journal of Personality and Social Psychology, 100, 407–425. doi:10.1037/a0021524

Cohen, J. (1962). Statistical power of abnormal–social psychological research: A review. Journal of Abnormal and Social Psychology, 65, 145–153. doi:10.1037/h0045186

DGPs (2015). Replikationen von Studien sichern Qualität in der Wissenschaft und bringen die Forschung voran.  Abgerufen von https://www.dgps.de/index.php?id=143&tx_ttnews%5Btt_news%5D=1630&cHash=6734f2c28f16dbab9de4871525b29a06

Francis, G. (2012b). Too good to be true: Publication bias in two prominent studies from experimental psychology. Psychonomic Bulletin & Review, 19, 151–156. doi:10.3758/s13423-012-0227-9

Fiedler, K. (2015).  https://dl.dropboxusercontent.com/u/3670118/DGPs_Diskussionsforum.pdf
Furby, L. (1973). Interpreting regression toward mean in developmental research.  Developmental Psychology, 8, 172-179.

Galak, J., LeBoeuf, R. A., Nelson, L. D., & Simmons, J. P. (2012).  Correcting the Past: Failures to Replicate Psi.  Journal of Personality and Social Psychology, 103, 933-948.  DOI: 10.1037/a0029709

Gilbert, D. T., King, G., Pettigrew, S., / Wilson, T. D. (2016). Comment on “Estimating the reproducibility of psychological science”. Science, 351, 6277, 1037

John, L. K., Loewenstein, G., & Prelec, D. (2012). Measuring the prevalence of questionable research practices with incentives for truth telling. Psychological Science, 23, 524–532. doi:10.1177/0956797611430953

Ledgerwood, A. (2016).  36 is the new 42.  Abgerufen von http://incurablynuanced.blogspot.ca/2016/02/36-is-new-42.html

Ledgerwood, A., & Sherman, J. W. (2012). Short, sweet, and problematic? The rise of the short report in psychological science. Perspectives on Psychological Science, 7, 60–66. doi:10.1177/1745691611427304

Maraun, M. D., Gabriel, S., & Martin, J. (2011). The mythologization of regression towards the mean. Theory & Psychology, 21(6), 762-784. doi: 10.1177/0959354310384910

Open Science Collaboration. (2015). Estimating the reproducibility of psychological science. Science, 349, 6251, DOI: 10.1126/science.aac4716

Pashler, H., & Wagenmakers, E.-J. (2012). Editors’ Introduction to the Special Section on Replicability in Psychological Science: A Crisis of Confidence?  Perspectives on Psychological Science, 7, 528-530.  DOI: 10.1177/1745691612465253

Retraction Watch. (2015).  Diederik Stapel now has 58 retractions.  Abgerufen von http://retractionwatch.com/2015/12/08/diederik-stapel-now-has-58-retractions/

Reuelle, P. (2016). Study that undercut psych research got it wrong. http://news.harvard.edu/gazette/story/2016/03/study-that-undercut-psych-research-got-it-wrong/

Schimmack, U. (2012).  The ironic effect of significant results on the credibility of multiple-study articles.  Psychological Methods, 17, 551–566.

Schimmack, U. (2015a).  The test of insufficient variance (TIVA).  Abgerufen von https://replicationindex.wordpress.com/2014/12/30/the-test-of-insufficient-variance-tiva-a-new-tool-for-the-detection-of-questionable-research-practices/

Schimmack, U. (2015b).  Introduction to the Replicability Index.  Abgerufen von https://replicationindex.wordpress.com/2016/01/31/a-revised-introduction-to-the-r-index/

Schimmack, U. (2015c). Replicability Report for Psychological Science.  Abgerufen von https://replicationindex.wordpress.com/2015/08/15/replicability-report-for-psychological-science/

Sedlmeier, P., & Gigerenzer, G. (1989). Do studies of statistical power have an effect on the power of studies? Psychological Bulletin, 105, 309–316. doi:10.1037/0033-2909.105.2.309

Tversky, A., & Kahneman, D. (1971). Belief in the law of small numbers.  Psychological Bulletin, 76, 105-110.

Sterling, T. D. (1959). Publication decisions and their possible effects on inferences drawn from tests of significance— or vice versa. Journal of the American Statistical Association, 54(285), 30–34. doi:10.2307/2282137

Sterling, T. D., Rosenbaum, W. L., & Weinkam, J. J. (1995). Publication decisions revisited: The effect of the outcome of statistical tests on the decision to publish and vice-versa. American Statistician, 49, 108–112. doi:10.2307/2684823

Stroebe, W., & Hewstone, M. (2015). What have we learned from the Reproducibility Project?  Times of Higher Educationhttps://www.timeshighereducation.com/opinion/reproducibility-project-what-have-we-learned.

Stroebe, W., & Strack, F. (2014). The alleged crisis and the illusion of exact replication. Perspectives on Psychological Science, 9(1), 59-71.

Yong, E. (October, 3, 2012). Nobel laureate challenges psychologists to clean up their act: Social-priming research needs “daisy chain” of replication.  Nature.  Abgerufen von http://www.nature.com/news/nobel-laureate-challenges-psychologists-to-clean-up-their-act-1.11535

Advertisements

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s