Pseudonymisering og anonymisering er vigtige teknikker til at forbedre sikkerheden for de registrerede. Der har siden tidernes morgen været fokus på anonymisering, hvorimod pseudonymisering er et nyere begreb. I denne artikel vil vi se lidt på, hvordan pseudonymisering og anonymisering kan spille en rolle i forhold til at skabe GDPR-compliance og beskytte de registreredes rettigheder.
Anonymisering omtales i persondataforordningens præambel 26 som
”oplysninger, der ikke vedrører en identificeret eller identificerbar fysisk person, eller personoplysninger, som er gjort anonyme på en sådan måde, at den registrerede ikke eller ikke længere kan identificeres”.
Der må altså ikke være nogen, som kan genkende personerne ud fra oplysningerne eller ved at kombinere dem med andre oplysninger. Det er en betingelse, at anonymiseringen er uigenkaldelig i den betydning, at der ikke findes en måde for nogen, hvor man kan knytte oplysningerne til en fysisk person igen. Når data er anonymiseret er de ikke længere personoplysninger og falder dermed helt udenfor persondataforordningen. Allerede fra databeskyttelsesdirektivet 95/46/EF, har dette været gældende praksis.
Pseudonymisering er defineret i persondataforordningens artikel 4 som en
”behandling af personoplysninger på en sådan måde, at personoplysningerne ikke længere kan henføres til en bestemt registreret uden brug af supplerende oplysninger, forudsat at sådanne supplerende oplysninger opbevares separat og er underlagt tekniske og organisatoriske foranstaltninger for at sikre, at personoplysningerne ikke henføres til en identificeret eller identificerbar fysisk person”.
Pseudonymisering er et nyere begreb, som ikke var omtalt i databeskyttelsesdirektivet, men som har fundet indpas i persondataforordningen, hvor begrebet er omtalt 15 steder – især som sikkerhedsforanstaltning eller en designforanstaltning i de løsninger man benytter sig af.
Der er ikke nogen tvivl om, at anonymisering og pseudonymisering har et enormt potentiale til at øge sikkerheden for de registrerede - men det forudsætter, at det er gjort korrekt. I forhold til persondataforordningen er det centrale spørgsmål, om uvedkommende kan hæve anonymiseringen eller pseudonymiseringen, og på den måde re-identificere de registrerede. Hvis det sker, er der tale om et sikkerhedsbrud i forordningens forstand, og den dataansvarlige kan potentielt set få en bøde for ikke at have iværksat sine foranstaltninger på den rette måde.
Case 1
I 2006 offentliggjorde AOL 20 millioner søgninger fra en tremåneders periode fra 650.000 brugere med det formål at stille søgningerne til rådighed for videnskaben.
AOL havde forinden anonymiseret data ved at fjerne IP-adresser og erstatte brugernavne med en unik kode pr. brugernavn. På baggrund af selve søgningerne lykkedes det forholdsvist hurtigt for to journalister ved The New York Times at identificere en ældre dame som en af de såkaldt anonymiserede brugere. Hun havde i sine søgninger brugt personnavne, geografiske oplysninger, signaleret at hun havde hund og var interesseret i 60 årige mænd. Som journalisterne skriver: ”Her searches are a catalog of intentions, curiosity, anxieties and quotidian questions.”.
Case 2
I 2006 offentliggjorde Netflix et anonymiseret datasæt med over 100 millioner ikke-offentlige filmratings fra 480.000 brugere, hvor brugernes navne var erstatte med et nummer. Samtidig udlovede Netflix en præmie på 1 mio. $ til den, som kunne bidrage til at forbedre Netflix filmanbefalingsalgoritme på baggrund af disse data. To forskere analyserede data og koblede dem sammen med en lille stikprøve af offentlige data fra filmdatabasen, IMDb, hvor brugere også ratede film, og hvor ratings var offentlige. Ved at korrelere de to datasæt kunne forskerne identificere 84% af Netflix-brugerne. De kunne samtidig, på baggrund af de ikke-offentlige ratings, vurdere, om brugerne havde interesse for visse politiske, religiøse og seksuelt orienterede film, og på den baggrund (med en vis sandsynlighed) sige noget om brugernes politiske observans, religiøse overbevisning og seksuelle præferencer.
Når man anonymiserer data, kan man for at vurdere, om anonymiseringen kan angribes af andre, prøve at afdække nogle af de trusler, som kunne blive rettet mod det anonymiserede datasæt. Her skelner man mellem tre typer risici:
Disse tre typer af risici har artikel 29-gruppen afprøvet i forhold til de gængse anonymiseringsteknikker.
Overordnet er der to måder at anonymisere på: randomisering og generalisering.
Randomisering vil sige, at man ændrer på datas nøjagtighed, så det ikke længere er muligt at skabe en forbindelse mellem data og personen. Til dette findes der forskellige måder at randomisere på:
Randomisering
Generalisering: Aggregering og K-anonymitet
Generalisering vil sige, at man ændrer på den relative størrelsesorden af de værdier, der er tilknyttet den registrerede. Man sænker dermed detaljeringsniveauet. I stedet for at tilknytte en alder på 47 år til den registrerede, kan man f.eks. sige, at den registrerede er i aldersgruppen 40-50 år. På den måde er der typisk flere registrerede, der tilknyttes den samme alder, og det bliver mindre sandsynligt, at den enkelte registrerede kan udpeges. Man kan generalisere på f.eks. geografi, alder, løn, tidspunkt, vægt, højde eller doser.
Et eksempel:
Nedenfor kan en uvedkommende med viden om, at en registreret er i et datasæt og viden om at alderen er 20 år, fastslå den registreredes diagnose med sikkerhed.
Et andet eksempel:
Nedenfor har vi 2-anonymitet for attributterne alder, køn og by. Enhver kombination af disse attributter kan findes i mindst to rækker i datasættet. Vi kan dog samtidig konstatere, at en bestemt mand på 19 år, som vi kender, har en af tre diagnoser.
Pseudonymisering består i at erstatte noget umiddelbart identificerende som f.eks. CPR-nummer med en anden talværdi i et datasæt. Sammenhængen mellem denne talværdi og CPR-nummeret opbevares så i et andet datasat adskilt fra det første datasæt. Pseudonymiserede oplysninger er stadig personoplysninger, fordi nogen kan genskabe sammenhængen – nemlig dem, som er i besiddelse af det andet datasæt. Sikkerheden bliver højnet, fordi en angriber ikke nødvendigvis umiddelbart kan etablere en sammenhæng mellem den registrerede og data i det første datasæt.
Pseudonymiseringsteknikker omfatter bl.a.:
I praksis er det vanskeligt at anonymisere personoplysninger fuldstændig og mange dataansvarlige har gennem historien måttet erfare, at deres forsøg er slået fejl. Pseudonymisering og anonymisering har dog et stort potentiale, fordi den registreredes risici ved en behandling reduceres betragteligt. I praksis kan man lave rigtig meget sagsbehandling på pseudonyme data, således, at kun en meget begrænset kreds af aktører faktisk kan finde ud af, hvem de behandler data om. Tilsvarende kunne man forestille sig, at nøglen til at genskabe sammenhængen mellem identitet og pseudonym blev overladt til den registrerede, hvilket dermed gav den registrerede maksimal kontrol over sine personoplysninger.
Artikel 29-gruppens Opinion om anonymiseringsteknikker (Opinion 05/2014):
https://www.dataprotection.ro/servlet/ViewDocument?id=1085
New York Times om mislykket anonymisering hos AOL:
https://www.nytimes.com/2006/08/09/technology/09aol.html
Arvind Narayanan og Vitaly Shmatikov, ”Robust De-anonymization of Large Datasets (How to Break Anonymity of the Netflix Prize Dataset):
https://arxiv.org/pdf/cs/0610105.pdf
Differential privacy – simply explained:
https://www.youtube.com/watch?v=gI0wk1CXlsQ
Oplev, hvordan en løsning som Wired Relations kan sikre overblik, struktur og kontrol omkring arbejdet med databeskyttelse.