Die gestrige Präsentation der #heinsbergprotokoll-Zwischenergebnisse wirft mehr Fragen auf, als sie Antworten bietet. Aber schlimmer noch: sie lässt den Eindruck entstehen, dass Politik und Wissenschaft auf eine problematischen Art vermischt wurden. Im Folgenden erläutere ich zunächst, warum Politik und Wissenschaft sich nie trennen lassen, aber manche Verbindungen doch problematisch sind (1), rekapituliere kurz die präsentierten Zwischenergebnisse der Heinsberger Studie (2), lege dar, dass den Ergebnissen das fehlt, was Wissenschaft ausmacht: die Nachvollziehbarkeit (3), und komme deshalb zu dem Ergebnis, dass hier Politik und Wissenschaft in einer fragwürdigen Weise interagierten (4).

Inhalt

1 Gute und schlechte Verbindungen von Politik und Wissenschaft

Es ist unmöglich Wissenschaft und Politik voneinander zu trennen und politikfreie Wissenschaft zu betreiben. Aber es gibt problematische Formen der Verbindung.

Der Forschungsprozess selbst muss durch wissenschaftliche Methodologie und nicht durch politische Neigungen geleitet sein. Von dem Moment, in dem man sich für eine Forschungsfrage und -methode entschieden hat, bis zu dem Moment, in dem man die Ergebnisse zur Präsentation vorbereitet, nimmt die Wissenschaft ganz allein im Fahrer_innensitz platz und lenkt. Die Politik dagegen muss mit dem Rücksitz vorliebnehmen und darf höchstens hier und da mal quängeln und drängeln.

Aber sowohl bei der Entscheidung für bestimmte Forschungsfragen als auch bei der Präsentation von Forschungsergebnissen spielen Ethik und Politik eine wichtige Rolle – und das ist gut so. Beispielsweise kann man erforschen, wie man Sklaverei besonders effektiv organisiert. Oder man kann erforschen, wie sich Arbeitskräfte am effektivsten selbst organisieren, um für menschenwürdige Lebensverhältnisse zu streiten. Man kann erforschen, wie man möglichst viele Menschen gezielt tötet. Oder man kann erforschen, wie man möglichst viele Menschen vor einer Krankheit rettet. Die Entscheidung für das eine oder andere ist selbst nicht wissenschaftlich, sondern ethisch-politisch – und das ist gut so. Wenn man dann in der Forschung mit Absicht oder aus Versehen herausgefunden hat, wie man Sklaverei am effektivsten organisiert, kann man sich bei der Präsentation der Ergebnisse immer noch Mühe geben, dass diese für den Kampf gegen Sklaverei nützlicher sind als für die Versklavung von Menschen. Somit ist auch die Präsentation von Forschungsergebnissen ethisch-politisch – und auch das ist gut so.

Jedoch können diese Verbindungen von Politik und Wissenschaft auch problematische Formen annehmen. Dies passiert zum einen dann, wenn der Forschungsprozess selbst politisch kompromittiert wird, zum anderen dann, wenn die ethisch-politischen Entscheidungen achtlos getroffen werden. Und bei der Pressekonferenz zur Heinsberger Covid-19-Studie gestern gab es einige Hinweise auf Probleme der letzteren Art, nämlich auf eine politisch bestenfalls achtlose, aber sehr wirkungsvolle Präsentation von Forschungs(zwischen)ergebnissen.

Damit will ich weder die Ergebnisse der Studie noch die Wissenschaftlichkeit ihrer Methodik bestreiten. Im Gegenteil gehe ich davon aus, dass in Heinsberg sehr wichtige Fragen zum ersten Mal in diesem Umfang und dieser Dichte empirisch erforscht wurden. Die Art und Weise der Zwischenergebnis-Präsentation liefert jedoch einer bestimmten politischen Linie (Schein-)Argumente, ohne der Öffentlichkeit eine Möglichkeit zu ihrer Überprüfung zu gewähren. Und dies ist sowohl politisch als auch wissenschaftlich fragwürdig.

2 Die Ergebnisse sind plausibel und könnten hoffnungsvoll stimmen

Die wichtigste Zahl, die Streeck et al. gestern präsentierten, lautet 0,37%. So hoch soll die Infektionssterblichkeit von Covid-19 sein. Dies ist der Anteil von Menschen, die an einer Krankheit sterben, nachdem sie sich mit dem Erreger infiziert haben. Mit anderen Worten: Von 270 Personen, die sich mit dem Virus infizieren, stirbt eine. Diese Rate liegt niedriger als die meisten bisherigen Schätzungen – und das ist sehr erfreulich. Sie liegt aber doch in der ungefähren Größenordnung, die allgemein für wahrscheinlich gehalten wurde – auch das ist gut, denn es lässt die erfreulichen Ergebnisse plausibel wirken.[1]

Beispielsweise veröffentlichten Verity et al. in der letzten Woche im Lancet eine Studie zur Einschätzung der Infektionssterblichkeit. Diese war etwas stärker von Modellierungen und Schätzungen abhängig und deshalb fehleranfällig. Sie kam aber ebenfalls auf eine Infektionssterblichkeit von deutlich unter 1%, nämlich 0,66%. Das hieße, dass ungefähr eine von 150 infizierten Personen sterben würde. Der Unterschied zwischen 0,66% und 0,37% mag groß scheinen, jedoch sind solche Werte zum aktuellen Zeitpunkt ohnehin mit erheblicher Unsicherheit behaftet. Verity et al. gaben ihr 95%-Konfidenzintervall mit 0,389%-1,33% an. Das heißt, sie waren sich zu 95% sicher, dass der wirkliche Wert zwischen 0,389% und 1,33% liegt. 0,37% ist unterhalb der unteren Grenze, aber nur knapp. Streeck et al. geben leider selbst kein entsprechendes Konfidenzintervall an, sondern nur die eine Zahl. Aber man kann wohl sicher sein, dass sich die Konfidenzintervalle überlappen. Hinzu kommt, dass Verity et al. hauptsächlich mit Daten aus China arbeiteten, wo das Gesundheitssystem zeitweise überlastet war. Daher ist die Differenz plausibler. Weniger plausibel wird diese Differenz dagegen, wenn man die unterschiedliche Altersstruktur in China und Deutschland einbezieht, die für Deutschland eher eine höhere Infektionssterblichkeit impliziert.

Gegen eine solche verhältnismäßig niedrige Infektionssterblichkeit sprechen zudem einige Zahlen aus der Lombardei. In der Stadt Bergamo sterben in einem durchschnittlichen März etwa 200 Menschen. Im März 2020 starben dort aber weit über 800. Das heißt, die Zahl der zusätzlich Gestorbenen beträgt allein im März, allein in Bergamo weit über 600. Das sind in einer Stadt mit 120.000 Einwohner_innen mehr als 0,5% der Gesamtbevölkerung. Also ist dort allein im März die Sterberate der Gesamtbevölkerung deutlich höher, als es in Heinsberg für die Gruppe der Infizierten sein soll – und dass obwohl man weder davon ausgehen kann, dass alle Menschen in Bergamo infiziert waren, noch davon, dass alle Covid-19-Opfer dort im März starben. Man kann diese erheblichen Unterschiede vielleicht dadurch erklären, dass das Gesundheitssystem in Bergamo überwältigt wurde, sodass viele Menschen starben, die unter anderen Bedingungen hättet gerettet werden können – sowohl solche, die an Covid-19 starben, als auch solche, die beispielsweise einen Herzinfarkt erlitten, aber keine angemessen Behandlung erhalten konnten. Dennoch wird zukünftige Forschung diese Differenzen analysieren müssen.

Somit ist die gestern präsentierte Infektionssterblichkeit von 0,37% ungefähr so niedrig, wie man es auf Grundlage der bisherigen Daten im besten Falle hätte hoffen können.

3 In der Wissenschaft ist die Darstellung des Prozesses wichtiger als die Darstellung der Ergebnisse

Auch wenn man die Politik außen vor lässt, ist es rein wissenschaftlich fragwürdig, Teilergebnisse einer Studie so prominent zu präsentieren, ohne nachvollziehbar zu machen, auf welche Weise man zu den Ergebnissen gekommen ist. Denn Forschungsergebnisse sind zwar wichtig. Wissenschaft zeichnet sich aber in erster Linie nicht durch gute Ergebnisse aus, sondern dadurch, dass Dritte nachvollziehen können, wie diese Ergebnisse zustande kamen. Wie ich hier an drei Beispielen illustrieren möchte, wurde diese Nachvollziehbarkeit gestern nicht gewährt.

Erstens wünscht man sich zu wissen, auf welcher Grundlage das wichtigste Ergebnis, nämlich die Infektionssterblichkeit von 0,37% berechnet wurde. Dafür braucht man ja nicht nur die Zahl der Infizierten, sondern auch die Zahl der Toten. Welche Zahl wurde hier genommen? Die der bestätigten Covid-19-Todesfälle in Gangelt? Oder wurde diese Zahl nach oben korrigiert, weil unter den bisher Infizierten immer noch weitere Personen sterben könnten? Wie wurde dies berechnet? Wie sicher ist man sich, dass diese Zahlen korrekt sind? Welchen Unterschied würden fünf übersehene Todesfälle machen? Hat man alle Gangelter Todesfälle seit Februar nachträglich geprüft? Welchen Unterschied würden zwei Todesfälle machen, die fälschlich der Krankheit zugeordnet wurden, weil die betreffenden Personen mit, aber nicht an dem Virus starben? Oder drei Todesfälle aus der Gruppe der bisher Erkrankten, die sich aber erst in den nächten Wochen ereignen?

Überschlägt man auf Grundlage der angegebenen Werte, muss man erhebliche Unsicherheiten vermuten. Bei einer Grundgesamtheit von 12.500 Gangelter Bürger_innen und einer Infektionsrate von 15%, muss man von 1875 Infizierten ausgehen. Auf eine Todesrate von 0,37% käme man demnach, wenn ungefähr sieben Personen in Gangelt gestorben wären. Das hieße aber auch, dass jeder einzelne weitere Todesfall die Zahl 0,37% um mehr als 0,05% verändern würde. Bloß drei übersehene Fälle könnten zu einer Erhöhung auf 0,53% führen. Dann würde sich der Wert fast auf das Anderthalbfache erhöhen. Solche Unsicherheiten wären für die Interpretation der Ergebnisse sehr wichtig zu wissen. Rechnet man diese Differenz auf für die Zahl der Menschen hoch, die sich für eine „Herdenimmunität“ in Deutschland infizieren müssten, hoch, wäre es immerhin der Unterschied zwischen 185.000 Toten und 265.000 Toten.

Durch diese Unsicherheit wird auch die Präsentation des Ergebnis als 0,37% zweifelhaft. Die Angabe von zwei Nachkommastellen suggeriert ein Maß an Genauigkeit, das einfach nicht gegeben ist, wenn ein einziges Opfer mehr oder weniger schon zu einer Veränderung in der ersten Nachkommastelle führen würde. Man könnte das rechtfertigen, wenn man zusätzlich ein Konfidenzintervall angeben würde. Dann würde man sagen: „Wir schätzen den Wert auf 0,37% und sind uns zu 95% sicher, dass er zwischen 0,21 und 0,97% liegt.“ In der vorliegenden Form ist die Angabe aber fragwürdig, weil sie mehr Sicherheit suggeriert, als gegeben sein dürfte. Hätte eine solche Angabe der Unsicherheit die Öffentlichkeit überfordert? Oder hätte sie es ihr ermöglicht, die Ergebnisse einzuordnen?

Zweitens geht es um die Frage, wie sicher man sich bei der Infektionsrate von 15% überhaupt sein kann. Diese wurde in erster Linie durch Antikörpertests festgestellt, mit denen überprüft wird, ob im Blut einer Person Antikörper gegen den Virus existieren, was auf eine bereits durchgemachte Infektion schließen lässt. Jedoch besteht bei den Antikörpertests (anders als bei den PCR-Tests, die eine aktive Infektion feststellen) die Gefahr von Kreuzreaktionen: Wer vor kurzem eine Infektion mit einem der vier schon lange verbreiteten Erkältungscoronaviren hinter sich gebracht hat, hat Antikörper gegen diese im Blut. Diese Antikörper gegen Erkältungscoronaviren könnten im Test mit den Antikörpern gegen Sars-CoV-2 „verwechselt“ werden. Dies wäre ein falschpositiver Test und viele falschpositive Tests würden dazu führen, dass man die Infektionsrate sehr viel höher einschätzt, als sie wirklich ist. Dies würde wiederum dazu führen, dass man die Infektionssterblichkeit unterschätzt. Wenn etwa 5% der Stichprobe nur deshalb positive Antikörpertests produziert hätten, weil sie eine Infektion mit einem Erkältungscoronavirus hinter sich hatten, würde das die Covid-19-Infektionsrate von 15% auf 10% senken. Dies wiederum würde die Infektionssterblichkeit von 0,37% auf 0,56% erhöhen. Eine entsprechende Frage wurde in der Pressekonferenz auch gestellt. Eine einfache, kurze, direkte und sehr befriedigende Antwort auf diese Frage hätte lauten könnnen: „Die von uns verwendeten Antikörpertests wurden in Hinblick auf diese Kreuzreaktionen validiert und wir sind uns sehr sicher, dass wir mit den Antikörpertests tatsächlich vergangene Sars-CoV-2-Infektionen gemessen haben.“ Eine andere (etwas weniger befriedigende) Antwort hätte lauten können: „Ja, das ist ein Problem. Deswegen haben wir basierend auf bekannten Daten abgeschätzt, wieviel Prozent der Bevölkerung Antikörper gegen Erkältungscoronaviren haben und dies bei unseren Berechnungen berücksichtigt.“ Aber stattdessen sagte Streeck etwas über verschiedene Tests und 20% und 15% als Ergebnisse, wobei man sich für den konservativeren Wert von 15% entschieden hätte. Nun muss man nicht immer spontan die bestmögliche Antwort parat haben. Aber es wäre auch leicht gewesen, entsprechende Informationen schriftlich vorzulegen. Aus der PDF, die auf der Seite des Landes NRW veröffentlicht wurde, geht immerhin hervor, dass Antikörpertests mit einer Spezifität von über 99% verwendet wurden (faktisch steht dort über 0,99%, aber das dürfte ein Tippfehler sein). Demnach könnte man sich zu mehr als 99% sicher sein, dass eine Person, die noch keine Sars-CoV-2-Infektion hinter sich hat auch wirklich ein negatives Testergbnis liefert. Falschpositive Tests in signifikantem Umfang wären damit unwahrscheinlich, wenn auch nicht ganz ausgeschlossen. Leider findet sich in der pdf keine weitere Information über die verwendeten Tests und ihre Validierung. (Nur, dass es Tests auf IgG-Antikörper waren.)

[Ergänzung am 12. April, mittags: Aus Medienberichten geht hervor, dass in der Heinsberger Studie Antikörpertest des Herstellers Euroimmun verwendet wurden. Welche Tests genau und wie diese von wem mit welchen Ergebnissen validiert wurden, ist aber unklar. Nach einigen Twitterdiskussionen liegt das folgende Bild nahe: Möglicherweise wurden sowohl IgA- als auch IgG-Tests verwendet. Die IgA-Tests könnten eine bessere Sensivität, aber eine schlechtere Spezifität aufweisen und somit wenige falschnegative, aber viele falschpositive Ergebnisse liefern, was zu einer Überschätzung der Infektionsrate führen würde; Die IgG-Tests könnten eine schlechtere Sensitivität, aber eine bessere Spezifität (der einzige angegebene Wert: mehr als 99%) aufweisen und somit viele falschnegative, aber wenige falschpositive Ergebnisse liefern, was zu einer Unterschätzung der Infektionsrate führen würde. Dann könnte man die Aussagen in der Pressekonferenz so interpretieren, dass mit den IgA-Tests eine Infektionsrate von 20%, mit den IgG-Tests eine Infektionsrate von 15% gemessen wurde und man sich dann für den niedrigeren Wert entschieden hat, um konservativ zu schätzen. Dann wäre das Ergebnis von 15% eine gut gesicherte Untergrenze. Jedoch hängt die Sicherheit der Ergebnisse stark von der Qualität der Testvalidierung ab. Schon eine Spezifität von einigen Prozentpunkten unter 100 könnte zu erheblichen Verzerrungen führen. Angenommen von den 500 getesteten Personen hätten in Wirklichkeit 10% eine Infektion hinter sich. Dann hätten 90%, also 450 Personen keine Antikörper. Bei einer Spezifität von 95% würde man 5% dieser 450 falschpositiv testen. Das wären 23 Personen. Somit würde man die Zahl der Immunisierten/Infizierten überschätzen. Man käme fälschlich auf eine Zahl von 73 statt 50 und somit auf ca. 15% statt 10%. Ist die Spezifität des Tests wirklich größer als 99%, bestehen solche Probleme nicht in relevantem Ausmaß, dann würde man wahrscheinlich höchstens eine Handvoll Personen falschpositiv testen, was sich in der Infektionsrate nur als eine Überschätzung um 1% auswirken würde. Wenn die Sensitivität ebenfalls niedrig ist, könnten sich falschpositive und falschnegative Werte unter Umständen ausgleichen, aber die Unsicherheit der Ergebnisse würde stark ansteigen.]

[Ergänzung am 12. April, nachmittags: Aus diesem Podcast geht hervor, dass es sich mit den Tests tatsächlich so verhält: Die 15% kamen aus IgG-Tests, IgA-Tests ergaben über 20.]

Drittens wurde in der Pressekonferenz immer wieder betont, dass Hygiene- und Abstandsmaßnahmen gleich zwei positive Effekte hätten: Erstens machten sie eine Übertragung des Virus unwahrscheinlicher – dies ist seit Wochen und Monaten die überall verbreitete Botschaft. Zweitens führten diese Maßnahmen aber auch dazu, dass man im Falle einer Ansteckung eine geringere Viruslast aufnehme, was wiederum einen schweren Verlauf unwahrscheinlicher mache. Diese zweite These ist plausibel und nicht völlig neu. Aber wenn sie nun so prominent in einer Pressekonferenz vertreten wird, wäre es gut zu wissen, auf welcher Grundlage dies geschieht. Welche Hinweise auf eine Verbindung von initialer Viruslast und Schwere des Krankheitsverlaufs wurden im Kreis Heinsberg gesammelt? Wie genau hängt dies mit Hygiene- und Abstandsregen zusammen? Und wie stark ist dieser Einfluss – etwa gemessen am Einfluss der bekannten Faktoren Alter oder Vorerkrankungen? Dazu erfährt man leider nichts.

[Ergänzung am 12. April, nachmittags: Aus diesem Podcast geht hervor, dass die in der Pressekonferenz vertretene These, derzufolge mehr Hygiene im Ansteckungsfall zu einer geringeren Viruslast und diese zu leichteren Verläufen führe, aus Tierversuchsdaten stammt.]

Die Informationen zu diesen drei und weiteren Punkten müssen in der Forscher_innengruppe vorhanden sein – sonst hätte man die Ergebnisse gar nicht verkünden können. Wieviel Arbeitszeit hätte es gekostet, entsprechende Punkte in die PDF einzufügen oder zusätzlich zur zweiseitigen PDF noch eine fünfseitige zur Verfügung zu stellen? Vier Stunden einer im Projekt beteiligten Person und eine weitere Stunde der Projektleitung? War es das wirklich nicht wert?

4 Wenn Politik und Wissenschaft sich auf die falsche Art nahe kommen

Die hier geübte Stilkritik in Sachen Wissenschaftskommunikation wäre einigermaßen nutzlos, wenn der Kontext nicht so stark politisch aufgeladen wäre. Der nordrhein-westfälische Ministerpräsident Armin Laschet, der auf der Pressekonferenz vor und nach den Wissenschaftlern sprach, forciert schon seit längerem den Diskurs um eine „Exit-Strategie“ im Sinne von Lockerungen der Social-Distancing-Maßnahmen. Die Pressekonferenz bot ihm dabei nicht nur eine weitere Bühne für diesen Diskurs. Sie bot ihm auch ein sehr schlagkräftiges Argument. Seht her: Die Wissenschaft hat festgestellt, dass wir relativ gefahrlos Geschäfte öffnen können!

Das wäre freilich legitim, wenn es eine nachvollziehbare wissenschaftliche Grundlage gäbe. Jedoch besteht die Grundlage nur aus dahingeworfenen Ergebnissen, ohne dass der Prozess ihrer Gewinnung nachvollziehbar gemacht würde. Dies macht den Eindruck, als habe hier nicht eine wissenschaftliche Studie Grundlagen für „evidenzbasierte“ Politik geliefert, sondern als hätten Wissenschaftler_innen sich vor einen politischen Karren spannen lassen. Unterstützung gibt es bei alldem von Christian Lindner, Kai Diekmann und der Bild-Zeitung.

Verstärkt wird dieser Eindruck durch den Zeitpunkt der Präsentation am Gründonnerstag. Nach Ostern, so heißt es, soll entschieden werden, wie es weitergeht. Wie passend, dass zum letztmöglichen Zeitpunkt vor Ostern entsprechende Ergebnisse vorliegen – oder besser: fast vorliegen, denn die Studie ist ja noch gar nicht zu Ende ausgewertet, aber man musste doch schon einmal Ergebnisse präsentieren.

Und dieses „Zeichen der Hoffnung“ for dem Osterfest wird nur zu gerne aufgenommen. Das lässt sich schon daran ablesen, dass Teile der Öffentlichkeit die Information von 15% bereits erreichter Immunität eilfertig von Gangelt auf die ganze Bundesrepublik übertragen – obwohl auch in der Pressekonferenz betont wurde, dass die Studie dafür gar keine Grundlage liefert.

Wenn Forscher_innen die Bedürfnisse von Politiker_innen und Öffentlichkeit auf diese Art und Weise bedienen, handelt es sich um eine Art der Verbindung von Wissenschaft und Politik, die beiden Seiten schadet: Die Wissenschaft wird in ein fragwürdiges Licht gerückt und gewinnt keine überprüfbaren Erkenntnisse. Zugleich werden damit politische Entscheidungen begünstigt, die sich als evidenzbasiert inszenieren könne, ohne dass solche Evidenz wirklich gegeben wäre. Und solche politischen Entscheidungen sind mit einer erheblichen Wahrscheinlichkeit schlecht.

Anmerkungen

* In einer ersten Version war der Begriff der Spefizifität falsch definiert. Danke an @senior_witch für den Hinweis.
** Die Diekmann-Connection wurde ebenfalls nachträglich ergänzt. Danke an @istuetzle für den Hinweis.
*** @jo_nur_jo verdanke ich ebenfalls drei Hinweise: 1. auf einige Formulierungsfehler; 2. auf die Implikationen der unterschiedlichen Altersstruktur in Deutschland und China; 3. darauf, dass 99% Spezifität immer noch einigen Raum für falschpositive Ergebnisse lassen.

[1] In der Pressekonferenz scheint der Kontrast zwischen den bisherigen Daten und den Ergebnissen der Studie drastischer. Dies liegt daran, dass Streeck die 0,37% nicht etwa mit anderen Schätzungen für die Infektionssterblichkeit, sondern mit einem ganz anderen Wert kontrastiert, nämlich der rohen Fallsterblichkeitsrate nach den Johns-Hopkins-Zahlen. In die rohe Fallsterblichkeit gehen ausschließlich die zu einem bestimmten Zeitpunkt bestätigten Infektionsfälle und Todesfälle ein. Weil man gerade bei Covid-19 mit zahlreichen leichten Verläufen rechnen muss und die Testkapazitäten nicht ausreichen, um alle Verdachtsfälle zu prüfen, muss ohnehin klar sein, dass eine deutliche Dunkelziffer von unerkannten oder unbestätigten Infektionen besteht. Somit muss auch die Infektionssterblichkeit viel niedriger sein als die rohe Fallsterblichkeit. Dies gilt sogar, falls es bei den Totenzahlen ebenfalls eine relevante Dunkelziffer geben sollte; es gilt auch, obwohl die Fallsterblichkeit zumindest bis zu einer etwaigen Lockerung der Distancing-Maßnahmen anstiegen dürfte, weil die Totenzahlen den Infektionszahlen drei Wochen nacheilen.