KI in der Medizin: Patientendaten viel stärker gefährdet als gedacht

Gängige Sicherheitschecks unterschätzen laut einer Studie mit deutscher Beteiligung das Risiko für Individuen durch medizinische Datenauswertung völlig. Besonders Minderheiten sind bedroht.

Künstliche Intelligenz revolutioniert die medizinische Diagnostik. Ob bei der automatisierten Erkennung von Krebsgeschwüren auf Röntgenbildern oder der Analyse von EKG-Daten – moderne Algorithmen versprechen eine präzisere und schnellere Versorgung von Patienten. Doch diese Systeme haben ein frapierendes Datenschutzproblem. Um zuverlässig zu funktionieren, müssen sie mit riesigen Mengen echter, hochsensibler Gesundheitsdaten trainiert werden. Gelangt später auch nur die Information an die Öffentlichkeit, dass die Daten einer bestimmten Person in das Training eingeflossen sind, kann dies für die Betroffenen gravierende Folgen haben.

Ein internationales Forschungsteam hat nun im renommierten Fachmagazin „Nature“ nachgewiesen, dass KI-Modellen solche sensiblen Informationen mit den passenden Methoden deutlich effektiver entlockt werden können als bislang in der Fachwelt angenommen.

Im Fokus der Untersuchung stehen sogenannte Membership Inference Attacks (MIAs). Bei diesen digitalen Angriffen versucht ein Angreifer herauszufinden, ob ein spezifischer Datensatz – etwa die Krankenakte einer bestimmten Person – Teil des Trainingsmaterials einer KI war. Bisher wähnte sich die Wissenschaft bei gängigen medizinischen Anwendungen weitgehend in Sicherheit, da bisherige Berechnungen und Testverfahren das Risiko für solche Angriffe als vernachlässigbar einstuften. Die Forschenden der Technischen Universität München (TUM), des Imperial College London und des Hasso-Plattner-Instituts (HPI) konnten diese Annahme nun aber als irreführend entlarven.

Das Problem liegt ihrer Analyse zufolge im Detail der bisherigen Testmethodik. Standardmäßig wurde bei Sicherheitsprüfungen immer nur das durchschnittliche Risiko über alle Patienten hinweg ermittelt. Das Forschungsteam hat sich stattdessen erstmals das Risiko für jeden individuellen Patienten separat angeschaut, was ein völlig anderes, weitaus alarmierenderes Bild zeichnet. Während die Angriffe auf einen Großteil der Patientendaten tatsächlich wirkungslos blieben, ließen sich bestimmte Individuen mit einer Wahrscheinlichkeit von nahezu einhundert Prozent korrekt dem Trainingsdatensatz des Modells zuordnen. Angesichts der extremen Sensibilität von Gesundheitsdaten warnt das Team eindringlich davor, dieses punktuelle, aber extreme Risiko als verschmerzbar abzutun.

Für ein realistisches Bild attackierten die Wissenschaftler KI-Modelle, die auf sieben etablierten medizinischen Datensätzen basierten. Dabei wurden verschiedenste Datentypen berücksichtigt wie radiologische Bildgebungsdaten, Kardiogramme und elektronische Patientenakten. Für eine erfolgreiche Attacke benötigt ein Angreifer im Grunde drei Komponenten. Zunächst ist der Zugriff auf das KI-Modell selbst nötig, was im Alltag etwa über das kompromittierte Netzwerk einer Klinik denkbar ist. Als zweites wird der konkrete Datenpunkt der Zielperson benötigt, dessen Mitgliedschaft überprüft werden soll. Solche Informationen können etwa aus separaten Hackerangriffen auf Gesundheitseinrichtungen stammen. Zuletzt muss der Angreifer über eine eigene KI-Infrastruktur verfügen, um Referenzmodelle auf demselben Datentyp berechnen zu können.

Wie gefährlich dieses Szenario ist, zeigt sich an einem konkreten Anwendungsfall. Wird ein KI-Modell darauf trainiert, aus gewöhnlichen Blutbildern die Erfolgsaussichten einer Krebs-Immuntherapie abzulesen, gibt das Blutbild allein keine direkte Auskunft über eine Krebserkrankung. Kann ein Angreifer aber zweifelsfrei nachweisen, dass genau dieses Blutbild im Training des spezifischen Krebs-Modells verwendet wurde, lässt sich daraus mit Sicherheit ableiten, dass der Patient an Krebs erkrankt ist oder war.

Die realen Konsequenzen solcher Datenlecks könnten die Betroffenen noch Jahre später unvorbereitet treffen. Wer beispielsweise nach einer erfolgreich bekämpften Krebserkrankung seine Daten der medizinischen Forschung zur Verfügung gestellt hat, wiegt sich oft in falscher Sicherheit. Findet ein Angreifer Jahre später heraus, dass diese Daten für ein Tumoranalyse-Modell genutzt wurden, und gelangt diese Information über Drittanbieter an eine private Zusatzversicherung, droht die Einstufung als Hochrisikopatient. Die Folge sind Beitragsaufschläge oder die Verweigerung des Versicherungsschutzes, ohne dass der Betroffene jemals den wahren Grund dafür erfährt.

Das Risiko ist dabei keineswegs gleich verteilt. Die Angriffe waren in der Studie vor allem dann von Erfolg gekrönt, wenn die attackierten Personen zu einer Untergruppe gehörten, die im gesamten Trainingsdatensatz unterrepräsentiert war. Das betrifft seltene anatomische Merkmale in der Bildgebung ebenso wie Daten von ethnischen Minderheiten. Da Diskriminierung durch KI-Systeme in der Medizin ohnehin ein bekanntes Problem ist und Modelle bei Minderheiten oft ungenauere Diagnosen liefern, tragen diese ohnehin marginalisierten Gruppen nun auch noch die größte Datenschutz-Minderlast.

Verschärft wird die Situation durch den aktuellen Trend zu immer größeren, komplexeren Modellen wie etwa Vision Transformers. Die Forschenden wiesen nach: Je leistungsfähiger und tiefgehender ein Modell ist, desto höher ist die Erfolgsquote der Angriffe, da große Netzwerke untypische Datenmerkmale besonders tief verinnerlichen und abspeichern. Ohne gezielte Gegenmaßnahmen wird sich die Problematik in den kommenden Jahren mit dem technischen Fortschritt also massiv verschlimmern.

Die beteiligten Wissenschaftler plädieren daher dafür, die Risikobewertung neuer Modelle vor deren Freigabe grundsätzlich auf individueller Patientenebene durchzuführen. Neben strengen Zugriffskontrollen biete die mathematisch nachweisbare Methode der „Differential Privacy“ den vielversprechendsten Schutz. Dabei wird während des KI-Trainings ein minimales Rauschen in die Datenberechnungen integriert. Das beeinträchtigt die diagnostische Präzision des Modells kaum, verunmöglicht jedoch das spätere statistische Entlocken individueller Patientenhintergründe fast vollständig.

Stefan Krempl

sonst so - digitale randbemerkungen

Mittwoch, 1. Juli 2026