Wie Verblindung in Studien zu verlässlicherem Wissen zum Nutzen von Therapien führt

Vom Mehrwert des Nichtwissens

vom Recherche-Kollektiv Plan G:
8 Minuten
Eine Frau im gelben T-Shirt vor einem türkisfarbenen Hintergrund hält sich die Augen zu.

Ahnungslosigkeit kann tatsächlich zu verlässlicherem Wissen führen – wenn es um medizinische Studien geht. Dieser Beitrag klärt das scheinbare Paradox.

Wer mäkelige Esser zu Hause hat, kennt das vielleicht: Zucchini gelten bei vielen Kindern als das „grüne Gift“ und sichtbare Stücke davon in der Tomatensauce sind der ultimative Tabubruch. Eine solche Spaghetti-Sauce schmeckt so ekelhaft, dass sie unmöglich ein Mensch essen kann (außer Erwachsene vielleicht). Kommt jedoch der „Zauberstab“ zum Einsatz und sind die Zucchini-Stücke fein püriert, wird aus den gleichen Zutaten die beste Sauce der Welt.

Ganz klar: Was wir sehen, beeinflusst auch unsere Wahrnehmung. Ist Essen appetitlich angerichtet, schmeckt es gleich viel besser – auch wenn es eigentlich die gleichen Zutaten sind. Ein ähnliches Phänomen lässt sich übrigens auch in Studien beobachten, die den Nutzen von Therapien untersuchen. Und das kann die Ergebnisse der Studie ziemlich verzerren. Warum ist das so?

Das Wichtigste in Kürze

Besonders wenn eine Studie als Behandlungseffekt subjektive Größen wie zum Beispiel Schmerzen misst, kann sich schnell Verzerrung einschleichen. Dann ist es besonders wichtig, dass alle Beteiligten – Patient*innen, Ärzt*innen, Studienpersonal – nicht wissen, zu welcher Gruppe die jeweiligen Teilnehmenden gehören. Sind die Beteiligten in dieser Konstellation nicht oder nicht ausreichend verblindet, kann der Effekt der Behandlung in Wirklichkeit auch viel kleiner sein oder sogar fehlen.

Faire Vergleiche

Vergleichbare Ausgangsbedingungen sind eine Voraussetzung für faire Tests von Behandlungsmethoden. Entscheidend ist aber auch, dass die Fairness während der gesamten Studie erhalten bleibt. Was könnte zum Beispiel schief gehen?

Vielleicht kennst du das von deinen eigenen Krankheitserfahrungen: Wenn du mit einer schweren Erkältung im Bett liegst, tut es dir vermutlich gut, wenn sich jemand um dich kümmert, dir Tee und Taschentücher bringt oder sogar eine Hühnersuppe kocht (außer du magst einfach keinen Tee oder Hühnersuppe oder du gehörst zur Kategorie „grumpy sick“ – aber das ist nochmal eine ganz andere Geschichte …). Und diese Zuwendung wird sich vermutlich positiv darauf auswirken, wie du deine Beschwerden wahrnimmst – indirekt vielleicht sogar darauf, wie schnell du wieder auf den Beinen bist.

Was Wissen ausmacht

Ähnliches kann auch in einer Studie passieren: Diejenigen, die die Teilnehmenden betreuen – also zum Beispiel Pflegepersonal, Ärztinnen und Ärzte – haben oft eine Meinung dazu, welches der Mittel, die verglichen werden sollen, wohl besser sein könnte. Wenn sie jetzt wissen, welches Mittel die oder der jeweilige Teilnehmende bekommt, kann sich die Zuwendung unterscheiden. Das Wissen kann auch beispielsweise Entscheidungen beeinflussen, ob zusätzliche Behandlungen angeboten werden – die natürlich auch die Ergebnisse der Studie verändern.

Auch bei den Teilnehmenden der Studie selbst spielen Erwartungen eine Rolle – und die können sich sowohl auf den Körper als auch auf die Psyche auswirken. Vielleicht beobachten sich manche ängstlicher, um Nebenwirkungen nicht zu verpassen, wenn sie wissen, dass sie mit einem neuen Medikament behandelt werden [1]. Oder umgekehrt fühlen sie sich gleich viel besser, wenn sie exklusiv einen neu entwickelten Wirkstoff bekommen [2].

Gefühlte Wahrheiten

Diese Probleme setzen sich noch weiter fort, wenn es um die Auswertung der Studie geht. Wenig Einfluss hätte diese Voreingenommenheit, wenn es sich immer um objektive Messgrößen handeln würde. Ob jemand verstorben ist oder nicht – da gibt es in der Regel keinen Interpretationsspielraum. In medizinischen Studien geht es jedoch häufiger um deutlich „weichere“ Ergebnisse: Sind die Schmerzen besser geworden? Ist der Ausschlag verblasst und um wie viel? Wie hat sich die Beweglichkeit der Gelenke verändert? Und da kann es die Bewertung deutlich verzerren, wenn die Teilnehmenden und diejenigen, die die Ergebnisse beurteilen, wissen, welches der getesteten Mittel jeweils verwendet wurde [3].

Ein sehr eindrückliches Beispiel, wie Wunschdenken die vermeintliche Heilung beschleunigen kann, stammt übrigens schon aus dem 18. Jahrhundert. Damals betrieb der „Wunderheiler“ Franz Mesmer unter anderem in Paris eine florierende Praxis, in der er sehr erfolgreich die Erwartungen seiner Patient*innen bediente. Einer ordentlichen Überprüfung hielt seine Methode jedoch nicht stand. Die Geschichte trug aber dazu bei, dass heute Studien genau das Schutznetz einziehen, um das es in unserem Beitrag geht. Wer mehr über Mesmer hören will, dem sei dieser Podcast ans Herz gelegt.

Schutz durch Nicht-Wissen

Wie lässt sich das Problem jetzt lösen? Die Antwort darauf: Alle Beteiligten dürfen nicht wissen, wer welches Mittel einnimmt. Das wird erst ganz am Schluss der Studie, wenn alle Ergebnisse erhoben wurden, aufgelöst. Und dann kann die Auswertung starten.

Dieses Vorgehen bezeichnen Fachleute auch als „Verblindung“. Dazu gehört es zum Beispiel, dass sich die in der Studie verglichenen Mittel, etwa Medikamente, von außen nicht unterscheiden dürfen. Das betrifft sowohl die Verpackung als auch die Mittel selbst. Das hört sich in der Theorie ziemlich einfach an. In der Praxis kann das im Detail aber sehr knifflig werden. Ein paar Beispiele:

Aus der Trickkiste der Verblindung

Unproblematisch ist es oft, wenn ein neuer Wirkstoff als Tablette mit einem Scheinmedikament (Placebo) verglichen werden soll. Dann können die gleichen Tabletten einmal mit und einmal ohne Wirkstoff hergestellt werden. Ist der Wirkstoff farbig, können Farbstoffe im Placebo oder Überzüge auf den Tabletten die Situation retten.

Knifflig wird es aber, wenn ein Wirkstoff beispielsweise als Tablette gegeben werden kann, das Vergleichsmittel aber gespritzt werden muss. Oder das eine Mittel sich nur als Tablette herstellen lässt, das andere nur als Kapsel. In solchen Fällen würden alle Beteiligten schnell erkennen, was sie bekommen. Was dann gemacht wird, bezeichnet man im Fachjargon als „double dummy“-Design. Und das funktioniert so: Nehmen wir mal an, wir wollen Mittel A (die Tablette) mit Mittel B (der Kapsel) vergleichen. Dann bekommen die Teilnehmenden in der Gruppe A das echte Mittel in Tablettenform und zusätzlich ein Scheinmedikament in Kapselform. Gruppe B dagegen erhält das echte Mittel in Kapselform und zusätzlich das Placebo in Form einer Tablette. Alle Teilnehmenden nehmen also sowohl eine Kapsel als auch eine Tablette ein. Sie wissen aber nicht, was davon das echte Mittel und was davon das Scheinmedikament ist. In der Summe lassen sich so also Mittel A und Mittel B vergleichen.

Beispiel für ein double dummy Design: Wenn Tabletten und Kapseln miteinander verglichen werden, braucht es für eine Verblindung sowohl Placebo-Tabletten als auch Placebo-Kapseln. Alle Teilnehmenden nehmen dann sowohl eine Tablette als auch eine Kapsel ein – aber nur eine der Darreichungsformen enthält tatsächlich einen Wirkstoff.
So kann ein „double dummy“-Design aussehen.

Noch tiefer müssen die Forschungsteams in die Trickkiste greifen, wenn eins der Medikamente ganz charakteristische Eigenschaften hat, die sofort enttarnt werden können. Klassisches Beispiel: Mittel, die ätherische Öle oder Fischöl enthalten und leicht am Geschmack oder Geruch erkannt werden können. Manchmal kann es dann helfen, in das Scheinmedikament eine ganz kleine Menge des Wirkstoffs zu packen – so wenig, dass keine Wirkung zu erwarten ist, aber so viel, dass der Geschmack oder Geruch erhalten bleibt. Im Fachjargon nennt man das dann „aktives Placebo“.

Nicht immer vollständig möglich

Auch in anderen Konstellationen ist es schwierig bis unmöglich, die Beteiligten effektiv zu verblinden. Sollen zum Beispiel zwei verschiedene Behandlungsmethoden in der Physiotherapie verglichen werden, wissen zumindest die Therapeut*innen, welche Methode eingesetzt wurde – auch wenn Patient*innen der Unterschied möglicherweise gar nicht bewusst ist. In solchen Fällen ist es dann vielleicht nur möglich, den Behandlungserfolg durch Dritte bewerten zu lassen, die die vorherige Therapie der jeweiligen Studienteilnehmer nicht kennen.

Scheinbar unter dem Messer

Was aber, wenn letztlich nur die Patient*innen Auskunft zum Behandlungserfolg geben können – also zum Beispiel, wie stark die Schmerzen nach der Therapie noch sind? Dann müssen sich Forschungsteams etwas ganz Besonderes einfallen lassen, wie etwa in einer berühmten Studie [5] zur Kniespiegelung bei Arthrose, also Gelenkverschleiß. Bei der Kniespiegelung werden Haut und Gelenkkapsel mit kleinen Schnitten geöffnet und durch diese Stellen eine Kamera und kleine Werkzeuge eingeführt. In der Regel wird die Gelenkkapsel dann mit einer Flüssigkeit gespült und raue Stellen am Gelenk geglättet.

In der besagten Studie wurden die Patient*innen nach dem Zufallsprinzip auf drei Gruppen verteilt: Die eine erhielt eine echte Kniespiegelung mit dem vollen Programm von Glättung und Spülung, die zweite nur eine Kniespülung und die dritte nur eine Scheinbehandlung. Und die war ganz großes Kino – und auch nötig, weil die Placebogruppe nur ein starkes Beruhigungsmittel, aber keine Narkose bekam: Das Knie wurde genauso vorbereitet wie bei einer echten Behandlung, auch die Hautschnitte wurden gesetzt. Der verantwortliche Chirurg ließ sich alle notwendigen Instrumente anreichen und plätscherte mit einer Spüllösung, so dass auch die Geräuschkulisse stimmte. Und die Patient*innen in der Placebo-Gruppe blieben genauso lange im OP, wie es für eine echte Behandlung nötig gewesen wäre. Der Chirurg wusste natürlich, welches Verfahren er anwendete – er konnte also nicht verblindet werden. Er erfuhr aber erst unmittelbar vor dem Eingriff, was im konkreten Fall genau passieren sollte. Das beteiligte Pflegepersonal, das sich vor und nach dem Eingriff um die Patient*innen kümmerte, wusste nicht, was im OP passierte, genauso wenig wie diejenigen, die die Patient*innen regelmäßig nach ihren Knieproblemen befragten.

Und tatsächlich kam die Studie auch zu einem unerwarteten Ergebnis – im Gegensatz zu anderen Untersuchungen, bei denen die Beteiligten nicht verblindet waren: 24 Monate nach dem Eingriff war der Schmerzpegel in allen drei Behandlungsgruppen nicht zu unterscheiden. Allein die Tatsache, dass überhaupt etwas gemacht wurde, schien die Schmerzwahrnehmung also deutlich zu beeinflussen.

Lohnt die Mühe?

Effektive Verblindung ist also manchmal ein echt mühsames Geschäft. Und das wirft natürlich die Frage auf, ob sich das überhaupt lohnt oder einen großen Unterschied macht – von dem eindrucksvollen Beispiel der Kniespiegelung einmal abgesehen.

Um diese Frage zu beantworten, hat ein Forschungsteam Studien zusammengefasst [6], die die Ergebnisse von Untersuchungen mit und ohne bzw. mit unzureichender Verblindung vergleichen. Das Ergebnis: Verblindung macht dann den größten Unterschied, wenn in der Studie subjektive Einschätzungen erhoben werden. In unverblindeten Studien kann der Behandlungseffekt dann deutlich größer erscheinen, als er in Wirklichkeit ist.

Zum Weiterlesen

Weitere Maßnahmen, mit denen sich faire Vergleiche in Studien sicherstellen lassen, haben wir auch in anderen Beiträgen hier bei Plan G vorgestellt:

Quellen

[1] Dieser Artikel (hinter der Paywall) aus Gute Pillen – Schlechte Pillen erklärt den Nocebo-Effekt.

[2] Dieser frei zugängliche Beitrag aus Gute Pillen – Schlechte Pillen wirft noch ein paar interessante Schlaglichter auf den Placebo-Effekt.

[3] Noch mehr zu den Auswirkungen von fehlender Verblindung kannst du in diesem anschaulichen Artikel nachlesen (auf Deutsch und frei zugänglich): Schulz KF, Grimes DA. Verblindung in randomisierten Studien. ZEFQ 2007; 101:630–637

[4] Hier findest du noch mehr Details zu den Schwierigkeiten bei der Verblindung (auf Deutsch und frei zugänglich): Kleist P. Randomisiert. Kontrolliert. Doppelblind. Warum? Schweiz Med Forum 2006;6:46–52

[5] Die Studie im Volltext kannst du im New England Journal of Medicine nachlesen (auf Englisch, aber frei zugänglich): Moseley J u.a. A Controlled Trial of Arthroscopic Surgery for Osteoarthritis of the Knee. N Engl J Med 2002; 347:81–88

[6] Die Untersuchung befasst sich außerdem noch mit anderen Qualitätsmerkmalen guter Studien und welche Auswirkungen sich tatsächlich beobachten lassen. Der Artikel ist auf Englisch, aber frei zugänglich. Page MJ, Higgins JPT, Clayton G, Sterne JAC, Hróbjartsson A, Savović J (2016) Empirical Evidence of Study Design Biases in Randomized Trials: Systematic Review of Meta-Epidemiological Studies. PLoS ONE 11(7): e0159267

VGWort Pixel