AWO family gGmbH

Die Illusion der Anonymitaet

Big Data im Gesundheitssystem

Der blinde Fleck unserer »Privatheit«

Das Risiko, in einem anonymisierten Datensatz vieler Patient*innendaten re-identifiziert zu werden, ist in der Informatik bereits seit Langem bekannt. Den Anstoß hierfür gab in den 1990er Jahren ein Fall aus den USA. Der US-Bundesstaat Massachusetts hatte damals die medizinischen Behandlungsdaten von rund 135 000 staatlichen Bediensteten und ihren Familienmitgliedern pseudonymisiert in einer Datenbank zu Forschungszwecken zusammengetragen. Dennoch gelang es der damaligen Informatikstudentin Latanya Sweeney durch das Kombinieren dieser Daten mit öffentlich zugänglichen Informationen aus dem Wähler*innen-Register von Massachusetts, die Krankenakte des damaligen Gouverneurs von Massachusetts, William Weld, zu rekonstruieren.[5]

Die spektakuläre Aktion sorgte für erhebliches Aufsehen und hat die Debatte um den Datenschutz in den Vereinigten Staaten stark geprägt. In der Informatik gilt Sweeneys Vorgehen als Musterbeispiel für einen Angriffstyp, der Informationen aus anderen zugänglichen Quellen heranzieht, um Daten auf diese Weise zu re-identifizieren. In der mathematischen Theorie der Datenbanksicherheit ist das Prädikat „anonym“ heute daher nicht mehr gleichbedeutend mit sicher, sondern stellt vielmehr ein stark vom Kontext abhängiges Kriterium dar.

Eine zweite Form des Datenmissbrauchs ist derzeit aber noch virulenter, obschon sie in der öffentlichen Debatte weniger prominent ist: Mit Hilfe großer – potentiell anonymisierter – Datensätze lassen sich sogenannte prädiktive Analysen und Risiko-Scores erstellen, die ebenfalls sensible Informationen über Einzelpersonen offenlegen können. Sogenannte Korrelationsanalysen stellen dabei durch maschinelle Lernverfahren statistische Zusammenhänge zwischen privaten Informationen – etwa Krankheitsbefunden, psychologischen Behandlungen oder erblichen Vorbelastungen – und Verhaltensdaten her. Letztere fallen zum Beispiel bei der Nutzung von Fitness-Trackern, Smart Watches oder von sozialen Netzwerken an.

Auf diese Weise haben Mediziner*innen der University of Pennsylvania beispielsweise Postings auf Facebook daraufhin auswerten können, ob Nutzer*innen an Depressionen, Psychosen, Diabetes oder Bluthochdruck leiden. Und auch Facebook selbst setzt nach eigenen Angaben bereits seit Längerem KI-Systeme ein, um selbstmordgefährdete Nutzer*innen anhand ihrer Postings zu erkennen. Andere Unternehmen nutzen Kreditkartentransaktionen dazu, um Schwangerschaften bei ihren Kundinnen zu erkennen, um ihnen spezielle Werbung zuzustellen.

Das Beispiel prädiktiver Analytik zeigt, dass Anonymisierung keine Gewähr für einen ausreichenden Datenschutz darstellt, sobald nicht nur die Daten einzelner Personen, sondern aggregierte Datensätze über Millionen von Patient*innen (Big Data) im Spiel sind. Denn prädiktive Analysen zielen nicht darauf ab, die Identität einer Person in den anonymisierten Daten aufzudecken. Vielmehr nutzen sie die große Menge verfügbarer Datensätze, um darin Muster zu erkennen und die Individuen in Risikogruppen einzuteilen. Diese Vorgehensweise ermöglicht es, sensible Informationen zum Beispiel über Krankheiten vorherzusagen – und zwar auch dann, wenn jemand selbst gar nicht in die Verarbeitung seiner Gesundheitsdaten eingewilligt hat.[7] Bewirbt man sich etwa auf einen Kredit oder eine Versicherung, können solche Analysen im Hintergrund ablaufen. Bei einem höheren geschätzten Risiko werden den Bewerber*innen dann schlechtere Konditionen angeboten.

Datenschutz in Zeiten von Big Data

Im Zeitalter von Big Data kann die eigene Privatsphäre somit durch Daten verletzt werden, die Millionen anderer Menschen über sich preisgeben – denn erst der millionenfache Vergleich mit den anonymen Daten anderer ermöglicht eine prädiktive Analyse. Diese Tatsache bildet den blinden Fleck unseres individualistischen Denkens über Datenschutz: Datenschutz wird im westlichen Diskurs in der Regel mit dem Recht jedes Einzelnen verbunden, die Speicherung und Verwendung seiner personenbezogenen Daten zu kontrollieren (informationelle Selbstbestimmung). Sobald ein Datensatz keine identifizierenden Informationen mehr enthält, weil er beispielsweise anonymisiert wurde, sehen die meisten Menschen in seiner Verwendung keine Gefahr mehr für sich selbst und willigen oft sogar in die Verwendung dieser Daten ein.

Gerade die Nutzung von Gesundheitsdaten zeigt, dass sich der Datenschutz im Zeitalter von Big Data und Künstlicher Intelligenz von der liberalistischen Konzeption der eigenen Privatsphäre lösen muss. Wir benötigen ein kollektivistisches Verständnis von Privatsphäre, welches berücksichtigt, dass auch anonymisierte Daten durch Mustererkennung in vielen Fällen dazu verwendet werden können, Einzelpersonen zu benachteiligen – und zwar nicht nur die in dem Datensatz enthaltenen Personen selbst, sondern auch Unbeteiligte. Die Folgen können mitunter dramatisch sein, etwa bei der Frage, ob man als Sicherheitsrisiko eingestuft und präventiv von der Polizei beobachtet oder bei einem Bewerbungsverfahren berücksichtigt wird.

Dagegen ist selbst die vergleichsweise fortschrittliche europäische Datenschutzgrundverordnung weitestgehend wirkungslos, da ihre Mechanismen gegen die Nutzung anonymisierter Daten in automatisierten Entscheidungen in der Praxis leicht auszuhebeln sind.