GDPR: Brug pseudonymisering og anonymisering til at skabe GDPR-compliance

By 
Henning Mortensen
December 4, 2019

Pseudonymisering og anonymisering er vigtige teknikker til at forbedre sikkerheden for de registrerede. Der har siden tidernes morgen været fokus på anonymisering, hvorimod pseudonymisering er et nyere begreb. I denne artikel vil vi se lidt på, hvordan pseudonymisering og anonymisering kan spille en rolle i forhold til at skabe GDPR-compliance og beskytte de registreredes rettigheder.

Hvad er anonymisering i persondataforordningen (GDPR)?

Anonymisering omtales i persondataforordningens præambel 26 som

”oplysninger, der ikke vedrører en identificeret eller identificerbar fysisk person, eller personoplysninger, som er gjort anonyme på en sådan måde, at den registrerede ikke eller ikke længere kan identificeres”.

Der må altså ikke være nogen, som kan genkende personerne ud fra oplysningerne eller ved at kombinere dem med andre oplysninger. Det er en betingelse, at anonymiseringen er uigenkaldelig i den betydning, at der ikke findes en måde for nogen, hvor man kan knytte oplysningerne til en fysisk person igen. Når data er anonymiseret er de ikke længere personoplysninger og falder dermed helt udenfor persondataforordningen. Allerede fra databeskyttelsesdirektivet 95/46/EF, har dette været gældende praksis.

Hvad er pseudonomisering i persondataforordningen (GDPR)?

Pseudonymisering er defineret i persondataforordningens artikel 4 som en


”behandling af personoplysninger på en sådan måde, at personoplysningerne ikke længere kan henføres til en bestemt registreret uden brug af supplerende oplysninger, forudsat at sådanne supplerende oplysninger opbevares separat og er underlagt tekniske og organisatoriske foranstaltninger for at sikre, at personoplysningerne ikke henføres til en identificeret eller identificerbar fysisk person”.


Pseudonymisering er et nyere begreb, som ikke var omtalt i databeskyttelsesdirektivet, men som har fundet indpas i persondataforordningen, hvor begrebet er omtalt 15 steder – især som sikkerhedsforanstaltning eller en designforanstaltning i de løsninger man benytter sig af.

Der er ikke nogen tvivl om, at anonymisering og pseudonymisering har et enormt potentiale til at øge sikkerheden for de registrerede - men det forudsætter, at det er gjort korrekt. I forhold til persondataforordningen er det centrale spørgsmål, om uvedkommende kan hæve anonymiseringen eller pseudonymiseringen, og på den måde re-identificere de registrerede. Hvis det sker, er der tale om et sikkerhedsbrud i forordningens forstand, og den dataansvarlige kan potentielt set få en bøde for ikke at have iværksat sine foranstaltninger på den rette måde.

Mislykket anonymisering, to berømte cases

Case 1
I 2006 offentliggjorde AOL 20 millioner søgninger fra en tremåneders periode fra 650.000 brugere med det formål at stille søgningerne til rådighed for videnskaben.
AOL havde forinden anonymiseret data ved at fjerne IP-adresser og erstatte brugernavne med en unik kode pr. brugernavn. På baggrund af selve søgningerne lykkedes det forholdsvist hurtigt for to journalister ved The New York Times at identificere en ældre dame som en af de såkaldt anonymiserede brugere. Hun havde i sine søgninger brugt personnavne, geografiske oplysninger, signaleret at hun havde hund og var interesseret i 60 årige mænd. Som journalisterne skriver: ”Her searches are a catalog of intentions, curiosity, anxieties and quotidian questions.”. 

Case 2
I 2006 offentliggjorde Netflix et anonymiseret datasæt med over 100 millioner ikke-offentlige filmratings fra 480.000 brugere, hvor brugernes navne var erstatte med et nummer. Samtidig udlovede Netflix en præmie på 1 mio. $ til den, som kunne bidrage til at forbedre Netflix filmanbefalingsalgoritme på baggrund af disse data. To forskere analyserede data og koblede dem sammen med en lille stikprøve af offentlige data fra filmdatabasen, IMDb, hvor brugere også ratede film, og hvor ratings var offentlige. Ved at korrelere de to datasæt kunne forskerne identificere 84% af Netflix-brugerne. De kunne samtidig, på baggrund af de ikke-offentlige ratings, vurdere, om brugerne havde interesse for visse politiske, religiøse og seksuelt orienterede film, og på den baggrund (med en vis sandsynlighed) sige noget om brugernes politiske observans, religiøse overbevisning og seksuelle præferencer.

Tre risici ved en vellykket anonymisering

Når man anonymiserer data, kan man for at vurdere, om anonymiseringen kan angribes af andre, prøve at afdække nogle af de trusler, som kunne blive rettet mod det anonymiserede datasæt. Her skelner man mellem tre typer risici:

  • Udskilning / Singling out: isolere nogle records i et dataset, så et individ identificeres
  • Sammenkobling / Linkability: oprette et link mellem to records om en registreret
  • Udledning / Inference: med tilstrækkelig sandsynlighed deducere værdien af en attribut ud fra værdien af andre attributter og på den baggrund identificere den registrerede.

Disse tre typer af risici har artikel 29-gruppen afprøvet i forhold til de gængse anonymiseringsteknikker.

Anonymiseringsteknikker: Randominsering & generalisering

Overordnet er der to måder at anonymisere på: randomisering og generalisering.
Randomisering vil sige, at man ændrer på datas nøjagtighed, så det ikke længere er muligt at skabe en forbindelse mellem data og personen. Til dette findes der forskellige måder at randomisere på:

Randomisering

  • Noise addition:
    Her tilføjer man støj til observationerne i et datasæt. Hvis støjen er tilfældig, kan man forvanske de enkelte data, men bevare gennemsnittet af observationerne. Hvis man f.eks. har et datasæt med ti højdemålinger og tilføjer støj af formen +/- 10 cm til hver af målingerne er gennemsnittet det samme, men hvad der tidligere var højest er ikke længere nødvendigvis højest, så f.eks. den indbyrdes rangorden dermed er ændret.
  • Permutation:
    Her bytter man om på observationerne i et datasæt, så nogle data tilknyttes et andet individ end oprindeligt. Fordelen ved dette er, at der ikke ændres på værdierne i sig selv.
  • Differential privacy:
    Her tilføjer man også støj, men gør det først efter en analytiker har præsenteret det spørgsmål, han gerne vil have svar på. Støjen tilføjes på en sådan måde, at svaret er repræsentativt, men uden analytikeren ved, om de data, han får adgang til faktisk er korrekte. Pointen er, at analytikerens resultat skal være det samme uafhængigt om en bestemt person er med i databasen eller ej.

Generalisering: Aggregering og K-anonymitet

Generalisering vil sige, at man ændrer på den relative størrelsesorden af de værdier, der er tilknyttet den registrerede. Man sænker dermed detaljeringsniveauet. I stedet for at tilknytte en alder på 47 år til den registrerede, kan man f.eks. sige, at den registrerede er i aldersgruppen 40-50 år. På den måde er der typisk flere registrerede, der tilknyttes den samme alder, og det bliver mindre sandsynligt, at den enkelte registrerede kan udpeges. Man kan generalisere på f.eks. geografi, alder, løn, tidspunkt, vægt, højde eller doser.

  • Aggregering og k-anonymitet:
    Her fortsætter man med at generalisere i klasser, indtil det ikke længere er muligt at identificere en registreret i en gruppe af k individer. Ingen uvedkommende må være i stand til at udlede andre attributter, heller ikke selvom de har baggrundsviden om, at en bestemt registreret indgår i et datasæt og kender en attribut. Informationen om enhver registreret I datasættet må ikke kunne udskilles fra de resterende k-1 personer i datasættet.

Et eksempel:
Nedenfor kan en uvedkommende med viden om, at en registreret er i et datasæt og viden om at alderen er 20 år, fastslå den registreredes diagnose med sikkerhed.

Et andet eksempel:
Nedenfor har vi 2-anonymitet for attributterne alder, køn og by. Enhver kombination af disse attributter kan findes i mindst to rækker i datasættet. Vi kan dog samtidig konstatere, at en bestemt mand på 19 år, som vi kender, har en af tre diagnoser.

  • L-diversitet og T-closeness:
    L-diversitet udvider k-anonymitet ved, at der i hver klasse skal være mindst L forskellige værdier. Selv med L-diversitet kan man ud fra en sandsynlighedsbetragtning med stor sandsynlighed identificere en registrets attribut, hvis der er en skæv fordeling af de registrerede.
  • Dette søges elimineret med T-closeness, hvor det er et krav, at hver af klassens L-værdier skal følge den samme fordeling, som den initiale fordeling af hver attribut. Fordelen ved L-diversitet og T-closeness er, at en angriber ikke kan være fuldstændig sikker på, at en registreret har en bestemt attribut.

Pseudonymiseringsteknikker

Pseudonymisering består i at erstatte noget umiddelbart identificerende som f.eks. CPR-nummer med en anden talværdi i et datasæt. Sammenhængen mellem denne talværdi og CPR-nummeret opbevares så i et andet datasat adskilt fra det første datasæt. Pseudonymiserede oplysninger er stadig personoplysninger, fordi nogen kan genskabe sammenhængen – nemlig dem, som er i besiddelse af det andet datasæt. Sikkerheden bliver højnet, fordi en angriber ikke nødvendigvis umiddelbart kan etablere en sammenhæng mellem den registrerede og data i det første datasæt.

Pseudonymiseringsteknikker omfatter bl.a.:

  • Kryptering med hemmelig nøgle: identificerende data (f.eks. CPR-nummer) krypteres med den hemmelige nøgle, hvor den, som er i besiddelse af nøglen kan genskabe sammenhængen.
  • Hash-funktioner: identificerende data (f.eks. CPR-nummer) i en database hashes, men hvis en angriber hasher alle CPR-numre og sammenligner disse med hashværdierne i databasen, kan man udpege de identificerede data (f.eks. CPR-nummer) ved at sammenligne hashværdierne.
  • Forskellige andre kryptoteknikker.

Konklusion

I praksis er det vanskeligt at anonymisere personoplysninger fuldstændig og mange dataansvarlige har gennem historien måttet erfare, at deres forsøg er slået fejl. Pseudonymisering og anonymisering har dog et stort potentiale, fordi den registreredes risici ved en behandling reduceres betragteligt. I praksis kan man lave rigtig meget sagsbehandling på pseudonyme data, således, at kun en meget begrænset kreds af aktører faktisk kan finde ud af, hvem de behandler data om. Tilsvarende kunne man forestille sig, at nøglen til at genskabe sammenhængen mellem identitet og pseudonym blev overladt til den registrerede, hvilket dermed gav den registrerede maksimal kontrol over sine personoplysninger.

Vil du have mere viden om databeskyttelse, anonymisering af data og den nyeste udvikling inden for privacy og GDPR-compliance?

Så bliv modtager af "Sustainable Compliance" - vores månedlige nyhedsbrev, som deler den nyeste viden og tager deep-dives ned i særligt nørdede aspekter inden for GDPR, compliance og data governance:

Ja tak - giv mig den nyeste udvikling inden for GDPR, data & compliance

Liste over links i artiklen:

Artikel 29-gruppens Opinion om anonymiseringsteknikker (Opinion 05/2014):
https://www.dataprotection.ro/servlet/ViewDocument?id=1085

Det norske datatilsyns vejledning om anonymisering (især bilagene):
https://www.datatilsynet.no/globalassets/global/regelverk/veiledere/anonymisering-veileder-041115.pdf

New York Times om mislykket anonymisering hos AOL:
https://www.nytimes.com/2006/08/09/technology/09aol.html

Arvind Narayanan og Vitaly Shmatikov, ”Robust De-anonymization of Large Datasets (How to Break Anonymity of the Netflix Prize Dataset):
https://arxiv.org/pdf/cs/0610105.pdf

Differential privacy – simply explained:
https://www.youtube.com/watch?v=gI0wk1CXlsQ