THEMEN DER ZEIT
Klinische Studien und Statistik: Von der Wahrscheinlichkeit des Irrtums


Zeichnungen: Ralf Brunner
Das nachfolgend wiedergegebene Gespräch findet auf der Terrasse eines großen internationalen Hotels in Venedig statt. Teilnehmer sind drei Ärzte, die sich anlässlich eines Kongresses hier getroffen hatten. Sie diskutierten über die Bedeutung von klinischen Studien. Zunächst wurden die fünf Standardargumente der kritischen Ärzte besprochen:
1. Eine Studie kann schlecht geplant und schlampig durchgeführt sein.
2. Die Ergebnisse können gefälscht oder geschönt sein.
3. Auch ein signifikantes Ergebnis ist definitionsgemäß in fünf Prozent der Fälle falsch.
4. Signifikanz ist nicht gleich Wirksamkeit.
5. Der Durchschnittspatient der Studie unterscheidet sich vom konkreten Patienten in der Praxis.
Aber selbst wenn man alle diese Bedenken außer Acht lässt und von idealen Studien und idealen Forschern ausgeht, ist es – das war die ungeheuerliche Behauptung von Salviati – nicht möglich, von der Signifikanz einer Studie auf die Irrtumswahrscheinlichkeit zu schließen.
Sagredo: Unser gestriges Gespräch hat mich in so gewaltige Zweifel gestürzt, dass ich sehr unruhig geschlafen habe. Ich träumte, ich wäre in einen tiefen Strudel gestürzt und konnte weder auf dem Grunde festen Fuß fassen, noch zur Oberfläche emporschwimmen.
Simplicio: Das kommt davon, wenn man immer nur Mineralwasser trinkt. Ich für meinen Teil weiß gar nicht mehr, worüber wir gesprochen haben.
Salviati: Wir nehmen es dir nicht übel, lieber Simplicio, dass du den Wein liebst, aber du solltest nicht versuchen, eine Tugend daraus zu machen. Sagredo meint sicher unsere Diskussion über die Frage, inwieweit uns klinische Studien helfen können, für unsere Patienten die richtige Therapie zu finden.
Sagredo: Genau. Du hattest die unglaubliche Behauptung aufgestellt, klinische Studien in der Form, wie sie derzeit durchgeführt werden, könnten uns keinen Aufschluss darüber geben, ob ein Medikament wirksam ist oder nicht. Habe ich dich in diesem Punkt richtig verstanden?
Salviati: Exakt.
Sagredo: Es wäre sicher nützlich, deine Argumente für unseren Freund Simplicio noch einmal kurz zusammenzufassen, denn ich weiß, er ist den geistigen Freuden ebenso zugetan wie den irdischen.
Salviati: Ich komme deiner Bitte gern nach, Sagredo. Wie ihr wisst, dreht sich in der klinischen Forschung alles um die Signifikanz. Sie ist geradezu zum Fetisch geworden. Wenn in einer klinischen Studie gezeigt werden kann, dass ein Medikament einer Placebobehandlung signifikant überlegen ist, dann hat die Forschergruppe die besten Chancen, dass ihr Ergebnis auch in einer hochkarätigen Fachzeitschrift veröffentlicht wird. Ich behaupte jedoch, dass die Signifikanz nicht das misst, was sie zu messen vorgibt.
Simplicio: Bit-te, Salviati, erwarte nicht, dass wir eine solche Aussage ernst nehmen können. Die Signifikanz ist unbestritten das Maß der Wahl für die Verlässlichkeit der Ergebnisse. Nichts könnte klarer und deutlicher sein.
Sagredo: Ich muss Simplicio Recht geben. Du willst sicher nur sagen, dass Studien schlecht geplant oder schlampig durchgeführt werden oder dass man den Ergebnissen nicht trauen kann, weil sie oft geschönt oder sogar gefälscht sind?
Salviati: Nein, es gibt zwar die von euch beschriebenen Missstände, aber das Besondere an meiner Behauptung ist, dass sie auch zutrifft, wenn Studien dem Goldstandard entsprechen.
Sagredo: Du meinst, deine Feststellung trifft auch auf Studien zu, die randomisiert, placebokontrolliert und doppelblind durchgeführt worden sind?
Simplicio: Jetzt verstehe ich. Du willst darauf hinaus, dass die Signifikanz kein Maß für die Wirksamkeit ist, dass eine Studie ein signifikantes Ergebnis haben kann, ohne dass der nachgewiesene Effekt eine klinische Relevanz hat. Das ist trivial!
Salviati: Es kommt sicher häufig vor, dass ein minimaler Effekt signifikant ist, aber auch darum geht es mir nicht.
Simplicio: Oder hältst du es für problematisch, von den Durchschnittswerten sorgfältig ausgewählter und genau überwachter Patienten in einer süditalienischen Studie ableiten zu wollen, was genau für den Patienten, der in deiner Praxis in Nordhessen vor dir sitzt, das Richtige ist?
Salviati: Auch das ist ein Problem, aber keines, das in diesem Zusammenhang ein Rolle spielt.
Sagredo: Du machst uns neugierig.
Salviati: Es geht darum, dass es einen tief verwurzelten Glauben unter Ärzten gibt, das Signifikanzniveau einer Studie mit der Irrtumswahrscheinlichkeit gleichzusetzen, also der Wahrscheinlichkeit, ein zufälliges Ergebnis für bare Münze zu nehmen.
Sagredo: Was könnte näher liegend sein? Aber sollten wir nicht, bevor wir fortfahren, die Begriffe so deutlich wie möglich klären?
Simplicio: Gern. Wenn ein Medikament gegen Placebo getestet wird, dann sind im Prinzip vier Ergebnisse möglich (Tabelle 1). Bei der Signifikanz geht es allein um die Möglichkeit, dass ein falsch positives Ergebnis vorliegt. Die Lehrbuchdefinition lautet: Der p-Wert ist die Wahrscheinlichkeit, dass die Studie zufällig ein positives Ergebnis zeigt, obwohl die untersuchten Behandlungen sich in Wirklichkeit nicht unterscheiden. Wenn diese Wahrscheinlichkeit kleiner als fünf Prozent ist, nennt man das Ergebnis statistisch signifikant.
Sagredo: Das klingt komplizierter, als ich vermutet habe. Signifikant auf dem 5-Prozent-Niveau heißt also:
Wenn man ein unwirksames Medikament in 20 Studien gegen Placebo testen würde, ist aufgrund statistischer Schwankungen damit zu rechnen, dass dabei in einer Studie ein falschpositives Ergebnis herauskommen würde, das heißt, man würde in fünf Prozent der Fälle irrtümlich annehmen, das Medikament sei wirksam. Da dies aber sehr unwahrscheinlich ist, nimmt man an, dass das Medikament mit 95 Prozent Sicherheit wirkt.
Simplicio: Das ist richtig.
Sagredo: Mich würde noch interessieren, wie man diese fünf Prozent errechnet.
Simplicio: Das ist schwierig, aber ich will dir das an einem absichtlich stark vereinfachten Beispiel verdeutlichen. Ein neues Medikament wird an vier Herzinfarkt-Patienten getestet: Zwei Patienten bekommen das Medikament (Verum) und zwei Patienten ein Scheinpräparat (Placebo). Nach einem Jahr haben beide Patienten in der Verumgruppe überlebt, die zwei Patienten in der Placebogruppe sind verstorben. Die Frage ist nun, ob das Medikament tatsächlich wirksam ist oder ob es sich um ein Zufallsergebnis handelt. Die kleine Studie hat 16 mögliche Ergebnisse (Tabelle 2) aufgelistet.
Du findest das Ergebnis Erfolg-Erfolg-Fehlschlag-Fehlschlag an der vierten Position. Die Wahrscheinlichkeit, dass es sich um einen zufälligen Befund handelt, beträgt also eins zu 16, das entspricht ungefähr sechs Prozent. Wie wir gehört haben, reicht das zwar gerade nicht aus, um in einem medizinischen Fachartikel von einem signifikanten Ergebnis sprechen zu können. Hierfür müsste die Wahrscheinlichkeit fünf Prozent oder weniger betragen; aber es ist nahe daran.
Sagredo: Aber niemand würde doch ernsthaft eine Statistik über vier Patienten machen.
Simplicio: Du hast Recht. Die Patientenzahl ist viel zu gering, um daraus einen verlässlichen Schluss ziehen zu können. Statistisch gesprochen ist die power zu gering. Ich werde später noch einmal darauf zurückkommen.
Sagredo: O. K. Ich weiß nun, was Signifikanz bedeutet und wie sie im Prinzip errechnet wird. Aber aufgrund dessen, was Simplicio gerade gesagt hat, ist es doch evident, lieber Salviati, dass Signifikanz gleich Irrtumswahrscheinlichkeit ist. Sie ist doch genau so definiert.
Salviati: Fast alle denken das. Und trotzdem ist ein Haken dabei. Stelle dir einmal vor, der Arzt, der diese Mini-Studie durchgeführt hat (und nehmen wir der Einfachheit halber an, sie sei auf dem 5-Prozent-Niveau signifikant), ist gerade dabei, einen Artikel für eine Fachzeitschrift zu schreiben, als ihn ein Kollege anruft. Voller Stolz berichtet er von seinem Ergebnis, worauf ihm der andere mitteilt: „Merkwürdig. Wir haben dasselbe gemacht, aber bei uns kam genau das Umgekehrte heraus: Die Patienten in der Placebogruppe überlebten, die in der Verumgruppe starben.“ Die Frage ist nun, ob die Signifikanz der ersten Studie durch das Ergebnis der zweiten Studie beeinflusst wird?
Simplicio: Das eine hat mit dem anderen nichts zu tun. Das Ergebnis der ersten Studie bleibt auf dem 5-Prozent-Niveau signifikant.
Salviati: Bist du sicher? Hat sich nicht die Wahrscheinlichkeit, dass es sich um ein Zufallsergebnis handelt, durch das Telefonat erheblich erhöht?
Salviati: Das heißt: Um zu wissen, wie groß die Irrtumswahrscheinlichkeit ist, braucht man nicht nur die Signifikanz, sondern man muss auch wissen, wie viele Studien über dieses Medikament durchgeführt wurden und welchen Ausgang sie hatten.
Sagredo: Hatten wir nicht eben festgestellt, Simplicio, wenn ein unwirksames Medikament in 20 Studien geprüft wird, ist es nahezu wahrscheinlich, dass es sich in einer Studie als signifikant wirksam erweist? Wenn nun aber nur das positive Ergebnis veröffentlicht wird und die 19 negativen im Papierkorb landen, bedeutet dann die Signifikanz von fünf Prozent tatsächlich immer noch, dass auch die Irrtumswahrscheinlichkeit fünf Prozent beträgt?
Salviati: Ich muss staunen, Sagredo. Du hast das Problem auf den Punkt gebracht.
Simplicio (aufgebracht): Das sind scholastische Spitzfindigkeiten, mit denen man jede vernünftige Überlegung ad absurdum führen kann. Ich will nicht bestreiten, dass deine Überlegung für den Extremfall zutrifft, aber sie stellt die wirkliche Forschungspraxis auf den Kopf. Meinst du wirklich, ein Pharmaunternehmen würde ein Medikament gleichzeitig in 20 Studien testen lassen? Das ist absurd!
Salviati: Zunächst einmal ist es nicht absurd, dass positive Ergebnisse eher veröffentlicht werden als negative. Das Phänomen ist als die so genannte publication bias bekannt. Insofern ist Sagredos Beispiel nicht weit von der Wirklichkeit entfernt. Und auch das Gedankenexperiment mit den 20 Studien ist keineswegs verrückt. Denn seine Überlegungen sind auch dann zutreffend, wenn 20 verschiedene Medikamente in je einer Studie geprüft werden. Und sie gelten sogar auch, wenn (wie in unserem Beispiel) nur zwei Studien durchgeführt werden und nur eine davon positiv ist und veröffentlicht wird. In jedem Fall ist die Irrtumswahrscheinlichkeit höher als die Signifikanz; übrigens auch dann, wenn nicht ein, sondern mehrere Endpunkte untersucht werden.
Simplicio: Ich bleibe dabei: Die Signifikanz hat nur etwas mit der Studie zu tun, für die sie berechnet wurde, und nichts mit anderen veröffentlichten oder nicht veröffentlichten Studien. Das wäre ja geradezu gespenstisch, der Einfluss einer obskuren Fernkraft, wenn eine Studie in Tokio über ein Medikament X, die nicht veröffentlicht wird, einen geheimnisvollen Einfluss auf die Signifikanz einer in Würzburg durchgeführten Studie über Medikament Y hätte.
Salviati: Mir ist sehr wohl bewusst, dass das starker Tobak ist. Vielleicht geht das mit der „Fernkraft“ des japanischen Forscherteams zu weit, aber die Irrtumswahrscheinlichkeit hängt von einem völlig subjektiven und nicht berechenbaren Faktor ab, dem „guten Händchen“ oder dem „Riecher“ einer Forschungsgruppe.
Sagredo: Das musst du uns näher erklären.
Salviati: Auch hierfür ein Beispiel. Die Forschergruppe um Professor A prüft, ohne lange nachzudenken, jede Substanz, die ihm von der Pharmaindustrie angeboten wird, dagegen ist Professor B sehr viel wählerischer. Er erkundigt sich genau nach dem vermuteten Wirkungsmechanismus und den Ergebnissen der Tierexperimente. Dementsprechend sieht die Bilanz aus: Nur eines von zehn geprüften Medikamenten erweist sich bei Professor A als signifikant wirksam, während Professor B in vier von zehn Studien ein positives Ergebnis erzielt. Ich stelle die These auf: Obwohl beide Medikamente mit der gleichen Signifikanz wirksam sind, ist die Wahrscheinlichkeit, dass Medikament B wirksam ist, höher als die, dass Medikament A wirksam ist.
Simplicio: Ungeheuerlich! Beweise!
Salviati: Betrachtet bitte die folgenden beiden Tabellen. Die Signifikanz entspricht der Wahrscheinlichkeit, dass der Fehler begangen wird, ein unwirksames Medikament als wirksam zu deklarieren. Die Irrtumswahrscheinlichkeit ist jedoch etwas ganz anderes: Sie ergibt sich aus dem Verhältnis von richtig positiven zu der Gesamtzahl positiver Ergebnisse. Obwohl das Signifikanzniveau in beiden Studien fünf Prozent beträgt, beträgt die Wahrscheinlichkeit, dass Forschungsgruppe A sich irrt, 36 Prozent und die Wahrscheinlichkeit, dass Forschungsgruppe B sich irrt, neun Prozent*.
Sagredo: Bevor ihr weiter diskutiert, bitte eine Erläuterung. Warum wird in der zweiten Zeile 40 Prozent mit dem Faktor 0,80 multipliziert und in der dritten 60 Prozent mit 0,05?
Salviati: Das hat mathematische Gründe, die ich hier nur andeuten kann und die du mir einfach glauben musst. Bei dem Faktor 0,80 handelt es sich um die so genannte power. Sie ist die Wahrscheinlichkeit, dass ein tatsächlich vorhandener Unterschied zwischen zwei Therapien in einer Studie bemerkt wird. Die power wird umso größer, je mehr Patienten in einer Studie sind. Ich habe sie hier etwas willkürlich auf 0,80 gesetzt, wie es für gute Studien mit ausreichender Fallzahl zutrifft. 0,05 ist unsere Signifikanz (fünf Prozent = fünf zu 100 = 0,05). Worauf es ankommt, ist, dass die Wahrscheinlichkeit, dass bei einem positiven Studienergebnis das geprüfte Medikament wirklich wirksam ist, vom Verhältnis der positiven und negativen Studienergebnisse und damit vom „Riecher“ der jeweiligen Forschungsgruppe abhängt.
Sagredo: Ich bin wirklich überrascht. Ich muss gestehen, auch ich habe bisher die Signifikanz und die Irrtumswahrscheinlichkeit für Synonyme gehalten. Aber jetzt sehe ich, dass das eine nichts mit dem anderen zu tun hat. Jetzt wird mir auch klar, warum sich so viele statistisch signifikante Ergebnisse, die mit großem Brimborium in unseren Fachzeitschriften veröffentlicht wurden, in der Folgezeit als Enten erwiesen haben.
Simplicio: Nein, nein und abermals nein! Salviati führt uns wie ein böser Geist an der Nase herum. Seine Überlegungen mögen zwar geistreich klingen, aber sie sind ebenso unhaltbar wie unfruchtbar. Außerdem: Wenn sie richtig und so einfach sind, wie er sie darstellt, dann wundert es mich, warum der Irrtum so lange unentdeckt bleiben konnte.
Sagredo: Mir ist gerade derselbe Gedanke durch den Kopf gegangen. Wenn du wirklich Recht hättest, lieber Salviati, müsste dann deine Erkenntnis nicht wie eine Bombe einschlagen?
Salviati: Ich fürchte, das Gegenteil wird der Fall sein. Niemand wird sie
zur Kenntnis nehmen. Wie Simplicio richtig bemerkt hat, ist der Gedanke zu einfach, um sich vorzustellen, dass ihn intelligente Forscher Jahrzehnte übersehen haben, er ist zu erschütternd (im wahrsten Sinn des Wortes), um ihn wahrhaben zu wollen, und – vor allem – er nutzt keinem: Mediziner würden nach neuen Möglichkeiten suchen müssen, um zu Ruhm und Ehren zu gelangen, medizinische Statistiker würden an dem Ast sägen, auf dem sie sitzen, Pharmafirmen müssten sich neue Strategien einfallen lassen, um ihre Medikamente an den Mann beziehungsweise den Arzt zu bringen. Die einzigen, die davon profitieren würden, wären die Patienten, aber die werden nie erfahren, dass dieses Problem existiert.
Salviati: Nein, sicher nicht. Aber es bleibt dabei. Die Signifikanz täuscht eine Sicherheit des Ergebnisses vor, die so nicht existiert. Für alle guten
und sehr guten Studien, die auf dem 5-Prozent-Niveau signifikant sind und mit denen wir unser therapeutisches Tun begründen, gilt, dass die Wahrscheinlichkeit, dass es sich um ein Zufallsergebnis handelt, nicht bei fünf Prozent, sondern irgendwo zwischen zehn Prozent (sehr selten) und 40 Prozent (häufig) liegt.
Sagredo: Wie ist es mit der evidenzbasierten Medizin? Kann die uns nicht aus der Klemme helfen?
Salviati: Die „evidence based medicine“ hat sich zum Ziel gesetzt, alle gut ausgeführten Studien in Metaanalysen zusammenfassend zu beurteilen. Aber sie kann sich eben auch nur auf alle verfügbaren Studien beziehen – und damit beißt sich die Katze in den Schwanz. Die Schwierigkeit ist, dass es keine mir bekannte Methode gibt, den „Riecher“ von Forschern zu quantifizieren, und solange man das nicht kann, sind Signifikanzberechnungen für die Katz.
Sagredo: Es gibt also keine Alternative?
Salviati: Höchstens diese: Die Hauptforderung an naturwissenschaftliche Experimente ist die Reproduzierbarkeit. In der klinischen Forschung scheinen sich jedoch alle Untersucher die größte Mühe zu geben, die Studiendesigns so unterschiedlich zu gestalten, dass ein Vergleich der Studien untereinander nicht möglich ist, auch wenn sie dasselbe Medikament betreffen. Das ist ein beklagenswerter Missstand. Wenn es jedoch Pflicht würde, jede Studie mit einem signifikant positiven Ergebnis von einer anderen Forschergruppe überprüfen und bestätigen zu lassen, dann wäre viel gewonnen.
Sagredo: Liebe Freunde, ich muss gestehen, dass mich Salviati mit seinen Argumenten sehr verunsichert hat, obwohl ich das Gefühl nicht loswerde, auf einen Taschenspielertrick hereingefallen zu sein. Auch du, Simplicio, hast deine Position überzeugend und mit einer guten Portion gesunden Menschenverstands vertreten. Ich habe gemerkt, wie wenig ich mich im Grunde genommen mit der Statistik auskenne. Dazu kommt das Bedürfnis, uns auf unsicherem Terrain abzusichern und mit dem Strom zu schwimmen. Wir müssten wieder Mut haben, uns unseres eigenen Verstandes zu bedienen.
Aber es ist spät geworden, lasst uns zusammen essen gehen. Ich kenne ein gemütliches Restaurant ganz in der Nähe vom Palazzo Foscari. Sie schenken dort – das wird dich interessieren, lieber Simplicio – einen herrlichen Rotwein aus, den der Wirt von seinem Bruder bezieht, der ein Weingut in der Toskana hat ...
Wir sehen die drei die Via Tremonti hinuntergehen. Man hört im Abendwind Gesprächsfetzen, die immer leiser wer-den: „... Das Hauptproblem der klinischen Forschung ist die Bestechlichkeit ... mephistophelische Zersetzung ... alles schwankt ... geistreiche Schwiemelei ... beruhigt euch ... ich hoffe, der Wein ist wirklich so gut, wie du ihn geschildert hast ...“
Den hier vorgetragenen Ideen liegt das ebenso kluge wie witzige Buch „Der Schein der Weisen“ von Prof. Dr. rer. nat. Hans-Peter Beck-Bornholdt und Priv.-Doz. Dr. rer. nat. Hans-Hermann Dubben (Fachbereich Medizin der Universität Hamburg) zugrunde, das 2003 im rororo-Verlag erschienen ist.
Anschrift des Verfassers:
Dr. med. Wolfgang Weihe
Zum Köpfchen 17
34597 Bad Zwesten
* Für Statistiker: Um die Berechnungen nicht noch schwieriger zu machen, wurde der einseitige Test gewählt, was nicht ganz korrekt ist, aber die Aussagen, um die es hier geht, wurden nicht wesentlich verfälscht.
Tabelle 1
Tabelle 2
Tabelle 3
Tabelle 4
Pommer, Peter
Wellek, Stefan; Arsov, Christian; Albers, Peter
Krobot, Karl J.
Jonitz, Günther
Klauser, Andreas
Diehl, Rolf R.
Müller, Hans
Moll, Waldemar
Kommentare
Die Kommentarfunktion steht zur Zeit nicht zur Verfügung.