Von Äpfeln, Birnen und unfairen Vergleichen

Was wir aus Beobachtungsstudien lernen können – und was nicht

iStock.com/gyasemin Auf blauem Hintergrund liegen viele Puzzle-Teile.

Endlich mal eine Studie mit einer Kontrollgruppe - darauf kannst du dich jetzt doch wirklich mal verlassen, oder? Leider ist es wie immer nicht ganz so einfach...

Rotwein schützt das Herz. Brokkoli verhindert Krebs. Und Kaffee verlängert das Leben. Oder doch nicht?

Vielleicht kennst du das auch: Je häufiger du in die Zeitung schaust, desto mehr widersprüchliche Studienergebnisse findest du. Letzte Woche noch sollen Rotwein, Brokkoli und Kaffee total gesund gewesen sein – und heute schon heimliche Killer. Wenn du dich von Berichten über Ernährungsstudien veralbert fühlst, bist du nicht allein.

Ein Grund für „heute so, morgen so“: Nicht selten beruhen solche Schlagzeilen auf Tier- oder Laborexperimenten, die keinerlei Rückschlüsse auf die Situation beim Menschen erlauben [1]. Aber – wenn du Glück hast – wurden für die neueste Studie tatsächlich Menschen untersucht. Vielleicht sogar mehrere tausend Menschen über viele Jahre. Und es sind nicht nur Erfahrungswerte, sondern es gibt einen echten Vergleich, sprich eine Kontrollgruppe.  

Und die, die mehr Rotwein tranken, bekamen seltener einen Herzinfarkt. Aber da gibt es doch auch eine Studie, in der die Rotweintrinker früher starben. Welche von diesen Studien stimmt denn jetzt?

Du ahnst es sicher schon: Auch kontrollierte Studien sind keine Garantie, dass wir nicht doch aufs Glatteis geführt werden. Aber woran liegt das?

Einfach vergleichen?

Zuerst sollten wir uns klarmachen, was der Begriff „verlässliche Ergebnisse“ genau bedeutet. Ein wichtiger Aspekt für Verlässlichkeit ist: Die Ausgangsbedingungen für alle Beteiligten müssen in der Studie gleich gewesen sein. Warum das so wichtig ist? Stell dir mal diesen Fall vor: In einem Rennen haben die Läuferinnen und Läufer ganz unterschiedliche Startpunkte. Wie aussagekräftig sind jetzt die gemessenen Zeiten, wenn sie dadurch unterschiedlich lange Strecken zurücklegen mussten? Nicht so besonders, oder? Anders ausgedrückt: Wenn die Ausgangsbedingungen nicht gleich sind, vergleicht die Studie eigentlich Äpfel mit Birnen.

Wie sieht das jetzt bei vielen der Ernährungsstudien aus? Oft werden Menschen für die Studien rekrutiert und müssen in bestimmten Abständen Ernährungsfragebögen ausfüllen. Sie geben also zum Beispiel an, wie viel und wie oft sie Fleisch essen, Obst und Gemüse verzehren oder Kaffee trinken. Über einen kürzeren oder längeren Zeitraum werden die Studienteilnehmer*innen dann beobachtet und der Gesundheitszustand erfasst [2]. Die Forscher*innen bilden aus diesen Angaben dann Gruppen: Im einfachsten Fall gehören dann zum Beispiel diejenigen, die fünfmal oder öfter pro Woche Obst essen, in die eine Gruppe. Wer seltener als fünfmal pro Woche Obst isst, wird Teil der Kontrollgruppe.

Und dann wird der Gesundheitszustand verglichen: Erkranken diejenigen, die häufiger Obst essen, seltener an Krebs? Oder bekommen sie seltener einen Herzinfarkt? Das hört sich erst einmal ganz intuitiv und simpel an. Wie so häufig steckt aber der Teufel aber im Detail.

Achtung Störfaktor!

Denn bei dieser Art von Studien entscheiden die Menschen selbst, was sie wann und in welcher Menge essen. Diese Entscheidung wird aber möglicherweise durch andere Faktoren bestimmt, die sich auch auf das Erkrankungsrisiko auswirken.

Ein Beispiel: Vielleicht lebt derjenige, der besonders viel Obst ist, auch sonst gesundheitsbewusst. Dann verzichtet er bestimmt auch aufs Rauchen und geht regelmäßig zum Sport. Diese beiden Gewohnheiten führen aber – unabhängig davon, wieviel Obst der Mensch isst – ebenfalls dazu, dass das Risiko für einen Herzinfarkt sinkt. Der gesundheitsbewusste Lebensstil würde dann einen schützenden Zusammenhang zwischen Obstverzehr und Herzinfarkt vorgaukeln, der in Wirklichkeit vielleicht gar nicht besteht oder nur einen kleinen Teil ausmacht. Solche Faktoren nennt man auch Störfaktoren oder auf Englisch „confounder“.

Ignoriert man solche Faktoren, können sich – im besten Fall – sehr lustige Zusammenhänge (Assoziationen) ergeben, bei denen du den Unfug auf den ersten Blick erkennst. Ein Beispiel: Wenn Menschen, die viel Käse essen, sich häufiger in ihren eigenen Bettlaken so verheddern, dass sie sterben [3]. Da wirst du sicher sofort stutzig. Aber im schlechtesten Fall wirst du total aufs Glatteis geführt, ohne Verdacht zu schöpfen. Schuld sind dann oft die Störfaktoren. Dieser Podcast erklärt das Phänomen sehr anschaulich.

Unfairer Vorteil

Solche Störfaktoren haben in unserer Ernährungsstudie eine sehr unangenehme Eigenschaft: Sie sorgen nämlich dafür, dass in den Gruppen mit niedrigem bzw. hohem Obstverzehr die Ausgangsbedingungen nicht vergleichbar sind. So finden sich vermutlich in der Gruppe mit dem hohen Obstverzehr mehr gesundheitsbewusste Menschen. Und die haben natürlich gegenüber weniger gesundheitsbewussten Menschen einen Startvorteil, der sich dann wahrscheinlich auch auf der Ziellinie noch widerspiegelt. 

Einen Teil der Störfaktoren können Forscher*innen messen bzw. abfragen und dann bei der Auswertung mit einrechnen. Allerdings ist das naturgemäß nicht für alle möglich und manche der möglichen Störfaktoren kennt man vielleicht auch noch gar nicht. Deshalb sind solche Beobachtungsstudien immer mit einem großen Teil Unsicherheit behaftet [4].


Wie es der Zufall will

Ähnliche Probleme gibt es übrigens auch bei Studien, die nicht Ernährung, sondern den Einsatz von Medikamenten anhand von solchen oder ähnlichen Studien untersuchen. Denn die Entscheidung, ein bestimmtes Medikament einzunehmen oder zu verschreiben, wird oft von Faktoren bestimmt, die sich auch auf das gesundheitliche Ergebnis der Studie auswirken. 

Was oft missverstanden wird: Die Auswirkungen von Störfaktoren lassen sich nicht durch die Verwendung von großen Datenmengen ausschließen (Stichwort „big data“), auch nicht, wenn die Daten aus der Routineversorgung (Stichwort „real world data“) stammen und damit vermeintlich besonders praxisnah erscheinen [5].

Aus gutem Grund fordern Zulassungsbehörden deshalb in der Regel eine besondere Vorsichtsmaßnahme in Studien, wenn ein neues Medikament auf den Markt kommen soll: In den Studien müssen die Teilnehmer*innen nach dem Zufallsprinzip auf die Behandlungs- und die Kontrollgruppe zugeordnet werden. Solche Untersuchungen werden entsprechend „randomisierte kontrollierte Studien“ genannt. Der Sinn der Randomisierung: Durch die zufällige Zuteilung verteilen sich die Störfaktoren hinreichend ähnlich in den Gruppen und damit starten alle Teilnehmer*innen mit den gleichen Voraussetzungen [6]. 

Das ist eine wichtige Voraussetzung dafür, damit sich die gemessenen oder beobachteten Effekte in den Studien auch tatsächlich auf die verwendeten Medikamente zurückführen lassen. Anders ausgedrückt: Nur so kann man herausbekommen, ob das Medikament auch tatsächlich für die Verbesserung des Gesundheitszustands verantwortlich ist, also ein kausaler Zusammenhang mit der Einnahme des Medikaments besteht. 

Trotzdem nicht nutzlos

Sind Beobachtungsstudien dann nicht vollkommen sinnlos? Nein, denn in einigen Zusammenhängen spielen sie trotz ihrer Beschränkungen eine wichtige Rolle. So beruht zum Beispiel die Erkenntnis, dass Rauchen ein wichtiger Risikofaktor für Lungenkrebs ist, zu einem großen Teil auf einer Beobachtungsstudie [7]. Diese Ergebnisse wurden aber zusätzlich durch einen sehr großen Effekt sowie weitere Daten, zum Beispiel aus Labor- und Tierexperimenten gestützt. 

Beobachtungsstudien, die Teilnehmer*innen über einen längeren Zeitraum beobachten, spielen auch für die Entdeckung von seltenen Nebenwirkungen von Medikamenten eine Rolle, für die die meisten randomisierten Studien nicht lange genug dauern [8]. In manchen Fällen ist es ethisch oder praktisch auch schwierig oder unmöglich, Menschen absichtlich bestimmten Einflüssen auszusetzen (etwa Schwangeren das Rauchen zu verordnen) oder sie dazu zu bewegen, sich an bestimmte Vorschriften zu halten (wie es etwa bei Ernährungsstudien über mehrere Jahrzehnte der Fall wäre). Dann ist es oft notwendig, auf die besten Daten zurückzugreifen, die zur Verfügung stehen – auch wenn es sich um Erkenntnisse aus Beobachtungsstudien handelt.

Allerdings muss man dabei immer im Hinterkopf behalten, dass es in Wirklichkeit ganz anders sein kann. Das zeigt ein Blick in die Vergangenheit: So erschien die Hormontherapie in den Wechseljahren auf der Basis von Beobachtungsstudien zuerst äußerst vorteilhaft für die Herz-Kreislauf-Gesundheit. Spätere randomisierte Studien widerlegten das aber – und zeigten sogar, dass gesundheitliche Gefahren auftreten können [9]. Fachleute gehen davon aus, dass Beobachtungsstudien die positiven Effekte von Therapien im Vergleich zu randomisierten Studien in der Regel tendenziell überschätzen [10].

Meldungen im Check

Was heißt das jetzt für Gesundheitsmeldungen, egal ob Online oder in Print, zu Ernährung oder anderen Fragen?

  1. Lass dich nicht von Überschriften aufs Glatteis führen: Nicht alles, was sich in dieser Kürzestfassung nach Ursache-Wirkung anhört, hält auch dem genauen Blick stand – selbst wenn es von einem scheinbar renommierten Absender kommt [11]. Lies deshalb immer auch den restlichen Text und schau genau hin, auf welchen Daten die Meldung beruht.  
  2. Ganz klar: Berichte über Tier- oder Laborversuche kannst du getrost in der Ablage “P” versenken. Falls sich die Ergebnisse mal irgendwann auf den Menschen übertragen lassen, wirst du es sicherlich erfahren.
  3. Gab es in der Studie eine Kontrollgruppe? Wenn nicht, brauchst du deine Zeit nicht weiter damit verschwenden. Die Gründe dafür kannst du in unserem Artikel zu Erfahrungswerten nachlesen, s.o.
  4. Wurden die Studienteilnehmer*innen zufällig/randomisiert den Gruppen zugeordnet? Das ist schonmal gut. Allerdings müssen auch in randomisierten kontrollierten Studien noch weitere Bedingungen erfüllt sein, um tatsächlich aussagekräftige Aussagen ableiten zu können. Aber dazu ein anderes Mal mehr. [Link folgt]
  5. Wenn es sich nicht um eine randomisierte Studie handelt: Ist es plausibel, dass eine zufällige Zuteilung für die Fragestellung nicht machbar ist? Thematisiert der Artikel, welche möglichen Probleme sich daraus ergeben, dass die Teilnehmer*innen nicht zufällig auf die Gruppen zugeteilt wurden? Und welche alternativen Interpretationen der Ergebnisse dadurch möglich sind? Verlässliche Informationen werden diesen Aspekt immer ansprechen. Natürlich ist es auch möglich, dass die Studie an sich sehr zuverlässig ist, aber die Meldung die Regeln für gute Gesundheitsinformationen ignoriert. Aber dann solltest du sowieso nach einer anderen Quelle suchen. Wenn du dazu mehr Infos willst, empfehlen wir dir zwei Artikel aus dem Angebot von Plan G:

In diesem Beitrag beschreiben wir die wichtigsten Kriterien für verlässliche Gesundheitsinformationen. Kurz gesagt: Woran kannst du erkennen, dass du den Infos in der Zeitschrift oder auf einer Webseite vertrauen kannst?

Wie du verlässliche Gesundheitsinfos finden kannst, erklärt dieser Artikel. Wir stellen wichtige Quellen vor und beschreiben die Fallstricke, die bei der schnellen Suche mit einer Suchmaschine auftreten können.

Quellen, Anmerkungen und weiterführende Literatur

[1] Wenn du dich darüber ärgerst, dass viele „Sensationen“ nur auf Tierstudien beruhen, haben wir zwei Twitter-Empfehlungen für dich. @justsaysinmice und @justsaysinrats spießen solche irreführenden Meldungen in den Medien auf und versehen sie mit einer korrigierenden Ergänzung „in mice“ bzw. „in rats“.

[2] Auch auf Ebene der Informationserfassung gibt es viel berechtigte Kritik an Ernährungsstudien, wie sie derzeit oft durchgeführt werden. Eine häufige Frage ist etwa, wie gut sich die Studienteilnehmer*innen tatsächlich an das erinnern, was sie etwa im letzten Jahr gegessen haben, oder wie gut eine zweimalige Erhebung über 20 Jahre tatsächlich repräsentativ für die gesamte Ernährung in diesem Zeitraum war. Ganz kompakt wird das Thema in einem Beitrag der Stiftung Gesundheitswissen behandelt. Du willst noch mehr zu den aktuellen Debatten um Ernährungsstudien wissen? Dann haben wir noch einige Literaturempfehlungen für dich [12].

[3] Sehr amüsante Zusammenhänge findest du auf der Seite "Spurious correlations". Wusstest du zum Beispiel, dass sich ein Zusammenhang zwischen dem Margarinekonsum und den Scheidungsraten im US-Bundesstaat Maine findet? Wenn du nur ein bisschen nachdenkst, findest du bestimmt einen plausiblen Grund dafür – ohne dass er tatsächlich wahr sein muss.

[4] Weitere Informationen zu Beobachtungsstudien findest du im Patientenportal des IQWiG  und auf dem deutschsprachigen Blog von Cochrane “Wissen was wirkt”. 

[5] Was im Kontext von Wirksamkeitsnachweisen das Problem mit “big data” ist, beschreibt der ehemalige Direktor von Cochrane Deutschland Gerd Antes in diesem Beitrag.

[6] Noch mehr zum Thema Randomisierung kannst du in diesem frei zugänglichen Artikel aus dem Schweizerischen Ärzteblatt nachlesen:   

[7] Mehr zu den Hintergründen der Studie und den Ergebnissen findest du auf dieser Seite.

[8] Das liegt aber nicht an der zufälligen Zuteilung, sondern mehr am Kontext, in dem randomisierte Studien meistens durchgeführt werden.

[9] Die Geschichte der Hormontherapie in den Wechseljahren wird im deutschsprachigen Blog von Cochrane erzählt.

[10] Zu diesem Ergebnis kommt eine Auswertung im BMJ, die die Ergebnisse von randomisierten Untersuchungen und Beobachtungsstudien auf der Basis von Versorgungsdaten verglichen hat (Zusammenfassung frei)

[11] Diese Untersuchung hat Meldungen aus dem Deutschen Ärzteblatt analysiert. Die Frage: Wie sehr suggeriert die Überschrift einen kausalen Zusammenhang, zum Beispiel zwischen Brokkoli und Krebs? Was davon relativiert der restliche Text wieder? Und wie gut sind die Zusammenhänge tatsächlich durch die zugrundeliegenden Daten abgesichert? Das Ergebnis: Oh, oh...

[12] Eine schöne Zusammenfassung zum ganzen Thema „Probleme von Ernährungsstudien“ liefert ein frei zugänglicher Vortrag von John Ioannidis auf YouTube. Wer noch mehr in die fachlichen Details einsteigen will: Es gibt auch eine schriftliche Zusammenfassung in JAMA (leider hinter der Paywall) sowie eine ganze Reihe von Artikeln im BMJ (frei zugänglich). Auf Englisch sind auch allgemeinverständliche Beiträge zu der Misere erschienen: In FiveThirtyEight und auf vox.com.

Mehr Artikel aus "Plan G – Gesundheit verstehen": Das Online-​Magazin für bessere Gesundheitsentscheidungen

Mehr Artikel aus der Rubrik "Gesichertes Wissen"

Blaue Kachel mit der Beschriftung "Gesichertes Wissen" als Farbcodierung für die gleichnamige Rubrik bei Plan G.
Für die leichtere Orientierung haben wir die Bereiche von Plan G farbcodiert. Beiträge aus "Gesichertes Wissen" werden mit dieser blauen Kachel markiert.
Iris Hinneburg

Lesen Sie jetzt…

  1. Gesundheit
  2. Gesundheitswissen
  3. Medizin

Zahlen in Gesundheitsinformationen richtig verstehen

Das Risiko für einen Herzinfarkt sinkt mit dem neuen Medikament um 20 Prozent – ist das viel oder wenig? Wie du für gute Gesundheitsentscheidungen aus Zahlenangaben die richtigen Schlüsse ziehen kannst

Auf blauem Hintergrund liegen viele Puzzle-Teile.
  1. Gesundheit
  2. Gesundheitswissen
  3. Medizin

Was sagt mir der medizinische Test?

Testen oder nicht testen? Gut zu wissen: Manchmal nützen Testergebnisse nichts oder sind nicht aussagekräftig.

Auf blauem Hintergrund liegen viele Puzzle-Teile.
  1. Gesundheit
  2. Gesundheitswissen
  3. Medizin

Kriterien für verlässliche Gesundheitsinfos

Gegoogelt, gefunden – aber ist die Gesundheitsinformation wirklich vertrauenswürdig und hilfreich? Tipps und Tricks zur Bewertung

Auf blauem Hintergrund liegen viele Puzzle-Teile.
  1. Gesundheit
  2. Gesundheitswissen
  3. Medizin

Was ist dran am Versprechen der „personalisierten Medizin“?

Behandlungen, die ganz genau auf dich zugeschnitten sind – dieses Versprechen hört sich doch toll an, oder? Aber was steckt tatsächlich hinter der „personalisierten Medizin“ und wie gut ist der Nutzen belegt?

Auf blauem Hintergrund liegen viele Puzzle-Teile.
  1. Gesundheit
  2. Gesundheitswissen
  3. Medizin

Ist früh erkannt immer besser?

Warum Früherkennung nicht automatisch "Vorsorge" bedeutet und manchmal sogar schadet

Auf blauem Hintergrund liegen viele Puzzle-Teile.
  1. Gesundheit
  2. Gesundheitswissen
  3. Medizin

Wenn Expert*innen etwas empfehlen

Drei Dinge, die du über Einschätzungen von Menschen wissen solltest, die sich (vermeintlich) auskennen

Auf blauem Hintergrund liegen viele Puzzle-Teile.
  1. Gesundheit
  2. Gesundheitswissen
  3. Medizin

Vom Mehrwert des Nichtwissens

Ahnungslosigkeit kann tatsächlich zu verlässlicherem Wissen führen – wenn es um medizinische Studien geht. Aber warum?

Auf blauem Hintergrund liegen viele Puzzle-Teile.
  1. Gesundheit
  2. Gesundheitswissen
  3. Medizin

„Das gilt nicht!“

Manchmal steckt der Teufel im Detail – bei klinischen Studien zum Beispiel in der Auswertung. Und wie so oft lohnt hier ein genauer Blick, ob wirklich alles mitgezählt wurde.

Auf blauem Hintergrund liegen viele Puzzle-Teile.
  1. Gesundheit
  2. Gesundheitswissen
  3. Medizin

Was Blutwerte verraten und was nicht

Das Medikament senkt im Blut das Cholesterin - bedeutet das auch gleich ein niedrigeres Risiko für einen Herzinfarkt? Nicht immer messen Studien, was Patient*innen tatsächlich interessiert.

Auf blauem Hintergrund liegen viele Puzzle-Teile.
  1. Gesundheit
  2. Gesundheitswissen
  3. Medizin

Gesundheitsentscheidungen trotz Unsicherheit

Unsicherheit gehört zum wissenschaftlichen Erkenntnisprozess immer dazu. Was bedeutet das jetzt für deine Gesundheitsentscheidungen?

Auf blauem Hintergrund liegen viele Puzzle-Teile.
Flatrate ab 8 € RiffReporter unterstützen
Plan G: Gesundheit verstehen