Warum die Zahlen zu Corona-Impfstoffen manchmal so verwirrend sind
Was du wissen musst, wenn du Angaben zu Nutzen und Risiken richtig interpretieren willst

Zahlen in Gesundheitsinformationen sind eigentlich eine feine Sache: Sie helfen dir, einen schnellen Überblick zu Behandlungen oder vorbeugenden Maßnahmen zu gewinnen. So fällt es dir viel leichter, einzuschätzen, wie gut etwas hilft – oder wie sehr es möglicherweise schadet.
Trotzdem machen es uns Zahlen oft auch schwer. Ein Beispiel: Bei den Corona-Impfstoffen kursieren in den Medien diverse Zahlen, die nicht immer leicht zu verstehen sind – etwa zur Wirksamkeit oder zu möglichen Nebenwirkungen der Impfstoffe.
Dieses Problem ist nicht neu: Zahlen in Gesundheitsinformationen suggerieren zwar Eindeutigkeit, führen aber auch leicht zu Missverständnissen. Dieser Text erklärt die Hintergründe und ordnet in vier Fragen und Antworten die wichtigsten Zahlen zu Nutzen und Risiken der Corona-Impfstoffe ein. Diese Prinzipien helfen dir auch, Zahlenangaben zu anderen Gesundheitsthemen besser zu verstehen [1a].
Das Wichtigste in Kürze
- Zahlen sprechen meist nicht für sich selbst. Hintergrundinformationen helfen bei der Interpretation.
- Nicht alle Zahlen lassen sich direkt vergleichen.
- Wichtig sind auch Angaben zur Unsicherheit einer Zahl, etwa eine Spanne oder ein Vertrauensbereich.
- Statistisch signifikante Ergebnisse bedeuten nicht automatisch eine erhebliche Größenordnung.
Frage 1: Was heißt „95 Prozent Wirksamkeit“?
Über die Wirksamkeit der Corona-Impfstoffe, die in den Zulassungsstudien ermittelt wurde, wird in den Medien oft berichtet. Dabei hörst du etwa, dass der Impfstoff Comirnaty von BioNTech/Pfizer eine Wirksamkeit von 95 Prozent hat. Was das genau, heißt verrät nur ein Blick in die Details [1b]:
In der Zulassungsstudie wurden rund 40.000 Menschen nach dem Zufallsprinzip in zwei Gruppen aufgeteilt: Menschen in der einen Gruppe wurden zweimal im Abstand von drei Wochen geimpft, Menschen in der anderen erhielten bei den Terminen eine Spritze mit Kochsalzlösung als Placebo. Ab einer Woche nach der zweiten Impfung wurde gezählt, wie viele Menschen in beiden Gruppen an Covid-19 erkrankten.
Für die Zulassung wurden alle Fälle gezählt, die innerhalb von rund zwei Monaten nach der zweiten Spritze auftraten. Umgerechnet waren das in der Impfgruppe 5 von 10.000 Personen, in der Placebo-Gruppe 93 von 10.000 Personen. Die berechnete Wirksamkeit gibt an, um wie viel die Impfung das Risiko senkt, an Covid-19 zu erkranken. Das sind hier besagte 95 Prozent.
Vielleicht hast du in den Medien auch Erklärungen gesehen, die angesichts der 95 Prozent Wirksamkeit behaupten, dass von 100 Geimpften 5 trotzdem erkranken können. Das stimmt aber nicht: Denn die 95 Prozent sind im Fachjargon gesprochen keine absolute Risikoreduktion, sondern eine relative Risikoreduktion. Was es mit absoluter und relativer Risikoreduktion auf sich hat und wo das eine Rolle spielt, kannst du bei Plan G nachlesen (und in diesem Quiz kannst du dein Wissen dazu testen).
Solche falschen Darstellungen sorgen für viel Verwirrung. Dass diese verbreitete Interpretation aber nicht stimmen kann, zeigt auch ein Bild auf die Zahlen: In der Zulassungsstudie sind nämlich 9.995 von 10.000 Personen gesund geblieben, also 99,95 Prozent. Allerdings ist auch diese Zahl mit Vorsicht zu genießen: Denn für die richtige Einordnung musst du sie mit der Zahl vergleichen, wie viele Menschen sich in der Placebo-Gruppe in diesem Zeitraum infiziert hatten, also dem so genannten Basis-Risiko. Deshalb ist es auch richtig, die Zahlen in der Impf-Gruppe und in der Placebo-Gruppe ins Verhältnis zu setzen.
Die Zahlen aus der Zulassungsstudie lassen übrigens offen, wie gut der Impfstoff über einen längeren Zeitraum schützt oder in einem Setting, wenn etwa durch neue Virus-Varianten das Risiko für eine Ansteckung deutlich höher liegt. Die 95 Prozent Wirksamkeit gelten also nicht uneingeschränkt.
Frage 2: Lassen sich die Zahlen vergleichen?
Wenn du Gesundheitsinformationen oder Medienberichte liest, ist dir bestimmt schon aufgefallen, dass dort für die verschiedenen Corona-Impfstoffe unterschiedliche Prozentangaben für die Wirksamkeit genannt werden: 94 bis 95 Prozent für BioNTech und Moderna, 60 Prozent für AstraZeneca, 66 Prozent für den im März 2021 zugelassenen Impfstoff von Janssen.
Sollen diese Zahlen bedeuten, dass der Impfstoff von Moderna viel besser wirkt als der von AstraZeneca? Nein, so einfach ist es nicht. Denn die Zahlen lassen sich nicht direkt vergleichen. Der Grund: Die Impfstoffe sind bislang nicht direkt gegeneinander getestet worden. Die WHO plant allerdings solche Studien.
Wichtige Unterschiede
Für den direkten Vergleich der Impfstoffe sind die Details der bisherigen Studien zu unterschiedlich: So zählte die BioNTech-Studie Covid-19-Erkrankung ab dem siebten Tag nach der zweiten Impfung, die Moderna-Studie erst nach 14 Tagen. Für den Janssen-Impfstoff zählten nur mittelschwere und schwere Covid-19-Erkrankungen, für den AstraZeneca- und die mRNA-Impfstoffe auch Infektionen mit eher leichten Symptomen.
Und das Basis-Risiko war teils sehr unterschiedlich: So erkrankten etwa in der Studie zum Impfstoff von AstraZeneca in der Kontroll-Gruppe rund dreimal mehr Menschen an Covid-19 als in der Placebo-Gruppe in der Studie zum Impfstoff von Moderna. Wäre der Moderna-Impfstoff im gleichen Setting wie der von AstraZeneca getestet worden, hätten sich möglicherweise andere Zahlen zur Wirksamkeit ergeben und umgekehrt.
Dass das Setting möglicherweise eine große Rolle spielt, darauf deuten auch die Zahlen hin, die die europäische Arzneimittelagentur EMA für die Wirksamkeitsdaten des Impfstoffs von Janssen in der Fachinformation aufschlüsselt: Die berechnete Wirksamkeit liegt bei den Tests in Südafrika, wo die Variante B.1.351 weit verbreitet ist, niedriger als etwa bei den Untersuchungen in den USA. Der Unterschied scheint beim Schutz vor schwerer Covid-19-Erkrankung kleiner zu sein. Allerdings handelt es sich allen bei diesen Berechnungen um nachträgliche Auswertungen, die etwas unsicherer sind.
Thema Verträglichkeit
Will man die Verträglichkeit beurteilen, gibt es ebenfalls Probleme beim Vergleichen: So ist aus den Zulassungsstudien bekannt, dass sich nach der Impfung zum Beispiel die Einstichstelle röten und der Arm schmerzen kann. Auch berichteten die Geimpften über Abgeschlagenheit, Kopfschmerzen, Schüttelfrost und andere Beschwerden, die sich aber meist innerhalb weniger Tage wieder legen. Diese Symptome gelten als Zeichen dafür, dass das Immunsystem auf die Impfung anspricht.
Allerdings sind nicht alle diese Beschwerden tatsächlich auf den Impfstoff zurückzuführen, einige treten auch (wenn auch meist seltener) in der Placebo-Gruppe, also mit der Kochsalzlösung, auf. Deshalb gibt eigentlich nur der Unterschied zwischen den Reaktionen in der Impf-Gruppe und der Placebo-Gruppe Aufschluss, in welchem Ausmaß die Beschwerden wirklich durch den Impfstoff verursacht sind.
Was auch hier Vergleiche zwischen den Impfstoffen schwierig macht: In den Studien von AstraZeneca bekamen die Testpersonen in der Kontrollgruppe teilweise keine Kochsalzlösung (wie bei den anderen Impfstoff-Studien), sondern einen Meningokokken-Impfstoff. Für die Frage nach der Wirksamkeit der Impfung macht das keinen Unterschied, weil dieser Impfstoff natürlich nicht gegen Covid-19 schützt. Er wurde aber verwendet, weil aus ersten Untersuchungen klar war, dass der Corona-Impfstoff vermutlich einiges an Impfreaktionen verursacht.
Die Befürchtung der Studienverantwortlichen: Würde Kochsalzlösung als Kontrolle benutzt, wüssten die Geimpften anhand der Impfreaktion vermutlich schnell, zu welcher Gruppe sie gehören. Dann könnte sich anders als in der Kontrollgruppe ihr Verhalten verändern, weil sie sich geschützt fühlen. Dadurch wäre aber das Infektionsrisiko in den Gruppen unterschiedlich, was die Studienergebnisse möglicherweise verzerren kann.
In den Studien von AstraZeneca wurde also eine andere Kontrolle benutzt als in den anderen Impfstoff-Studien. Und diese Kontrolle (also der Meningokokken-Impfstoff) verursacht ebenfalls Impfreaktionen. Damit lassen sich auch die Häufigkeit der Impfreaktionen zwischen den Gruppen mit Corona-Impfstoff und der Kontrolle nicht direkt vergleichen.
Frage 3: Wie genau ist die Zahl?
In den letzten Monaten ebenfalls viel diskutiert: Wie gut schützt der Impfstoff von AstraZeneca eigentlich ältere Menschen?
Vielleicht erinnerst du dich in diesem Kontext noch an die Aufregung, als Medien über „nur 8 Prozent Wirksamkeit“ bei Älteren berichteten. Neben der unsicheren Quelle und anderen Verwirrungen, die nicht vollständig geklärt sind, fehlte in den Berichten vor allem eine Einordnung, wie die kolportierte Wirksamkeit von unter 10 Prozent bei Älteren zu verstehen ist. Das klärte sich erst, als die STIKO ihre Empfehlung und die zugrundeliegende wissenschaftliche Begründung veröffentlichte: Damit wurde deutlich (und wird so auch in dem STIKO-Dokument erklärt), dass sich zwar rechnerisch eine Wirksamkeit von 6 Prozent ergibt, diese Zahl aber so unsicher ist, dass sie nicht sinnvoll interpretiert werden kann.
Warum ist das so? Wenn die Wirksamkeit eines Impfstoffs in einer klinischen Studie untersucht wird, kann darin nur ein kleiner Teil der Menschen berücksichtigt werden, für die der Impfstoff insgesamt gedacht ist. Im Medizinstatistik-Jargon würde man sagen: Die Studie nimmt eine Stichprobe (die Studienteilnehmenden) aus der Grundgesamtheit (alle Menschen, für die der Impfstoff gedacht ist) und anhand dieser Daten wird dann eine Wirksamkeit berechnet. Würde man eine andere Stichprobe nehmen, also eine andere Gruppe von Menschen untersuchen, würde sich schon allein durch zufällige Effekte sehr wahrscheinlich eine andere Zahl für die Wirksamkeit ergeben (womöglich in einer ähnlichen Größenordnung, aber nicht exakt identisch) – und beide Zahlen wären vermutlich anders als der „wahre“ Wert für die Wirksamkeit, der sich ergeben würde, wenn man den Impfstoff an allen Menschen testet.
Wie groß diese Abweichungen sind, lässt sich in der Statistik beziffern. Dafür werden Vertrauensbereiche (Konfidenzintervalle) berechnet. Salopp formuliert: Der Vertrauensbereich umfasst einen Bereich, in dem mit einer gewissen Wahrscheinlichkeit der „wahre“ Wert liegt. Der Vertrauensbereich wird breiter, wenn die Stichprobe klein ist – und möglicherweise so breit, dass man auf dieser Basis keine sicheren Schlussfolgerungen zu Wirksamkeit oder Nicht-Wirksamkeit ziehen kann.
So war es auch in den Zulassungsstudien von AstraZeneca hinsichtlich der älteren Menschen: Nur 660 von den rund 11.600 Teilnehmenden waren 65 Jahre oder älter – also ein verhältnismäßig kleiner Anteil. Noch kleiner ist allerdings die Anzahl der gezählten Covid-19-Erkrankungen bei den Älteren: Ein Fall in der Impf-Gruppe, ein Fall in der Kontroll-Gruppe. Im Medizinstatistik-Jargon würde man sagen: „wenige Ereignisse in einer kleinen Stichprobe“ [2]. Das schlägt sich auch im errechneten Vertrauensbereich nieder. Der reicht (in Prozent) von –1405 bis 94,2. Aus dieser Berechnung lassen sich angesichts der kleinen Zahlen aber keine vernünftigen Schlussfolgerungen zur Wirksamkeit ziehen. Oder wie die STIKO es formuliert: Es gab zu diesem Zeitpunkt „keine ausreichenden Daten für eine robuste statistische Aussage zur Effektivität“.
Dieses Beispiel zeigt, wie wichtig es ist, bei Zahlen auch immer auf Angaben zur Unsicherheit zu achten [3]. Inzwischen gibt es übrigens neuere Daten zum AstraZeneca-Impfstoff, die der STIKO ausreichten, um die Verwendung bei Älteren zu empfehlen.
Frage 4:. Was heißt „signifikant häufiger“?
Wahrscheinlich hast du auch das nächste Drama um den Impfstoff von AstraZeneca verfolgt: In Deutschland und einigen anderen europäischen Ländern wurde im März 2021 die Impfung vorübergehend ausgesetzt. Das Paul-Ehrlich-Institut (PEI), in Deutschland für die Überwachung von Impfstoffen zuständig, hatte diesen Schritt empfohlen, nachdem Fälle von seltenen Formen von Blutgerinnseln im Gehirn in Verbindung mit einer verringerten Anzahl an Blutplättchen aufgetreten waren. Einige Fälle verliefen tödlich.
In der Mitteilung des PEI hieß es dazu:
Die Anzahl dieser Fälle nach AstraZeneca-COVID-19-Impfung ist statistisch signifikant höher als die Anzahl von Hirnvenenthrombosen, die normalerweise in der Bevölkerung ohne Impfung auftreten.
Aber was bedeutet „signifikant höher“ eigentlich genau? [4] Das PEI hat berechnet, was zur Häufigkeit von Hirnvenenthrombosen auch ohne Impfung bekannt ist und wie viele Fälle dann im zeitlichen Zusammenhang mit der Impfung auftreten würden, selbst wenn der Impfstoff bei der Entstehung dieser speziellen Thrombosen keine Rolle spielt. Mithilfe von statistischen Verfahren hat das PEI dann diese Zahl mit der Zahl der gemeldeten Fälle verglichen. Salopp formuliert können diese statistischen Verfahren abschätzen, ob die Zahl der gemeldeten Fälle im Vergleich zur erwarteten Häufigkeit überraschend hoch ist. In der Auswertung des PEI war sie das tatsächlich und damit der Anlass, bis zur weiteren Prüfung die Impfung in Deutschland vorerst auszusetzen.
Ein statistisch signifikantes Ergebnis bedeutet aber nicht, dass es auch tatsächlich häufig ist: Im Fall der Hirnvenenthrombosen waren dem PEI bis zum 16. März 2021 sieben Erkrankungen gemeldet worden bei insgesamt 1,6 Millionen Impfungen. Was die Abschätzung erschwerte: Die Häufigkeit von Hirnvenenthrombosen in der Allgemeinbevölkerung ist nicht besonders gut untersucht, so dass die Zahlen für die erwarteten Fälle unsicher sind.
Eine Untersuchung der europäischen Zulassungsbehörde EMA folgte. Bislang konnte nicht abschließend geklärt werden, ob tatsächlich der Impfstoff für die Hirnvenenthrombosen verantwortlich ist – denn nicht jede Erkrankung, die nach der Impfung auftritt, ist auch tatsächlich durch den Impfstoff verursacht. Wegen der absolut geringen Häufigkeit und dem bekannten Schutz vor einer Covid-19-Erkrankung stufte die EMA am 18. März die Bilanz von Nutzen und Risiken weiterhin als positiv ein. Das PEI und die STIKO empfohlen daraufhin, die Impfung mit dem AstraZeneca-Impfstoff in Deutschland wieder aufzunehmen.
Inzwischen gibt es allerdings weitere Verdachtsfälle, vorwiegend bei jüngeren Personen, auf die die STIKO mit einer Empfehlung reagierte, den Impfstoff von AstraZeneca nur bei Personen ab 60 Jahre einzusetzen [5]. Am 31. März schätzte die EMA die Häufigkeit der möglichen Nebenwirkung auf einen Fall pro 100.000 Impfungen bei Menschen unter 60 Jahren, allerdings überwiege weiterhin der Nutzen das Risiko. Ergebnisse weiterer Untersuchungen stehen noch aus [6].
Fazit
Zahlen in Gesundheitsinformationen richtig zu interpretieren, kann manchmal schwierig sein. Das gilt nicht nur für die Corona-Impfstoffe, sondern auch für andere Medikamente oder Behandlungen. Es lohnt sich oft zu hinterfragen, wie die Zahlen eigentlich zustande kommen, ob sie tatsächlich vergleichbar und wie sicher oder unsicher sie sind. Und statistisch signifikante Ergebnisse müssen nicht immer groß sein.
Zum Weiterlesen
[1a] Während der Arbeit an diesem Beitrag wurde auf Unstatistik ein sehr ähnlicher Artikel veröffentlicht. Das Thema liegt offensichtlich in der Luft.
[1b] Konkrete Zahlen und ihre Einordnung rund um die in Europa zugelassenen Corona-Impfstoffe findest du zum Beispiel bei gesundheitsinformation.de oder bei Medizin transparent. Beide Anbieter haben wir in unserer Reihe zu verlässlichen Gesundheitsinformationen vorgestellt.
[2] Weitere Beispiele, warum Studien mit wenigen Teilnehmenden oder wenigen Ereignissen oft wenig aussagekräftig sind, werden im Blog „Wissen was wirkt“ diskutiert. Der Blog wird von den deutschsprachigen Ablegern des internationalen Forschungsnetzwerks Cochrane verantwortet.
[3] Ebenfalls auf „Wissen was wirkt“ ist ein vertiefender Beitrag zum Thema Konfidenzintervalle/Vertrauensbereiche erschienen. Er erklärt, was Konfidenzintervalle aussagen.
[4] In einem weiteren Post erläutert „Wissen was wirkt“ die Aussagekraft von statistisch signifikanten Ergebnissen und was sich daraus nicht ableiten lässt.
[5] Bis zum 29. März mittags wurden laut Bundesgesundheitsministerium insgesamt 31 Fälle von Hirnvenenthrombosen gemeldet, in 19 Fällen war die Anzahl der Blutplättchen verringert. Neun Betroffene starben. Die Empfehlung der STIKO wurde zunächst in einer Pressemitteilung am 30. März veröffentlicht.
[6] Die Zahlen gab die EMA in einer Pressekonferenz am 31. März 2021 bekannt. Mit weiteren Ergebnissen der Untersuchung wird nach der Sitzung des Sicherheitsausschusses PRAC von 6. bis 9. April 2021 gerechnet.