Data eigenaarschap

Er zijn veel goedbedoelende initiatieven die de maatchappelijke problemen rondom data misbruik willen aanpakken door burgers ‘eigenaarschap’ te geven over ‘hun data’.

Vier soorten data

Als we in iets meer detail naar het concept “data” kijken, dan wordt duidelijk dat de voorgesteld plannen vaak het probleem niet goed lijken te behappen.

Academicus Martin Abrams onderscheid vier soorten data:

  • Provided. Data die je bewust hebt aangeleverd, zoals wanneer je een emailadres invoert in een formulier. De meeste mensen zijn zich bewust data data data wordt verzameld, en zouden deze soort data als “hun data” classificeren.
  • Observed data. Data die over je gedrag wordt verzameld, maar waar je je mogelijk niet helemaal of niet continu bewust van bent. Bewakingscamera beelden bijvoorbeeld, of cookies die tijdens het websurfen worden geplaatst en uitgelezen, en zo je surfgedrag in de gaten houden. Metadata valt in deze categorie. De meeste mensen zijn zich wel enigszins gewust data deze data wordt verzameld. Maar is het nog jouw data?
  • Derived data. Hier maken we een sprong van feitelijke data naar kansberekeningen, waarin er voorspellingen over je worden gemaakt die niet persé feitelijk hoeven te kloppen. Zo kan er op basis van je woordgebruik op sociale media bijvoorbeeld een gok worden gedaan over je opleidingsniveau, of je intelligentie. Gebruik je langere, moeilijkere woorden, dan ben je waarschijnlijk hogeropgeleid. Hoe deze vorm van “afgeleide data” tot stand komt is nog wel met je boeren verstand te begrijpen. Je zou kunnen proberen om zo’n algoritme voor de gek te houden door express meer moelijke woorden in je tweets te gebruiken.
  • Inferred data. Ook hier hebben we te maken met ‘gegokte data’. Echter is bij deze vorm de manier waarop de voorspellingen tot stand komen niet meer met je boeren verstand te volgen (en zijn de uitkomsten ook moeilijker te manipuleren). Dat komt omdat hier machine learning wordt gebruikt (ook wel “kunstmatige intelligentie” genoemd). Deze voorspellingen komen tot stand door jouw data te vergelijken met die van andere mensen waarvan meer bekend is. Zo kan jouw Facebook likes collectie bijvoorbeeld een beetje lijken op die van mensen waarvan bekend is dat ze neurotisch zijn.

    Om deze algoritmes te maken wordt er eerst een kleine groen mensen doorgelicht. Zo bouwde Cambridge Analytica (CA) een ‘gratis’ app waarmee je psychologische testjes kon doen nadat je via Facebook was ingelogd. Daardoor konden ze corelaties ontdekken die niemand had vermoed. Zo bleek het liken van Hello Kitty een goeie indicator voor een politiek activistische inborst. Dit soort ontdekkingen worden door databrokers geheim gehouden, want die zijn heel waardevol. Cambridge Analytica gebruikte dit soort inzichten om op basis van enkel de Facebook likes alle Amerikanen een een psychologisch profiel te geven. Likete persoon A dezelfde dingen als persoon B, waarvan de test uitslag was dat die enorm neurotisch was? Dan kreeg  persoon A het label ‘waarschijnlijk bovengemiddeld neurotisch’.

OEFENING: Vraag jezelf bij elke soort data eens af: vind ik dat het ‘mijn data’ is?

Volgens Abrams’ classificatie heeft de gemiddelde burger weinig bewustzijn aangaande de laatste twee vormen van afgeleide data.

 

data taxonomie tabel
De door Martin Abrams voorgesteld taxonomie op basis van de oorsprong van de data.

 

 

Vallen voorspellingen over jouw karakter onder de vrijheid van meningsuiting?

Amerikaanse databrokers zullen zeggen dat deze ‘gegokte data’, deze voorspellingen, technisch gezien niet ‘jouw data’ zijn, maar ‘hun mening’. Daarmee zou volgens hen de creatie van dit soort profielen beschermd zijn onder de vrijheid van meningsuiting.

De initiatieven die data misbruik willen voorkomen door mensen eigenaar te laten zijn van hun data maken zelden in hun communicatie zelden onderscheid tussen deze soorten data, en daarmee bestaat het risico dat misbruik mogelijk blijft.

Stel bijvoorbeeld dat je ‘eigenaar’ bent van je rauwe Fitbit data. Je zou dan bijvoorbeeld kunnen zeggen dat je bedrijf X slechts 5 minuten toegang wilt geven tot je Fitbit data. Maar dat bedrijf zou ik die 5 minuten op basis van jouw rauwe data allerlei voorspellingen kunnen doen, bijvoorbeeld over je gezondheid. Als je vervolgens de toegang tot je rauwe data ontzegt, dan heeft dat geen invloed op die gemaakte voorspellingen. Die blijven bestaan.

 

Voorspellingen zijn lucratiever dan rauwe data

En het zijn nou net die voorspellingen die lucratief zijn. Een zorgverzekeraar hoeft jouw rauwe Fitbit data niet te hebben als ze de voorspellingen van een ander kunnen kopen die eerder al toegang tot die data had. Facebook hoeft geen toegang te geven tot hun data over jouw surfgedrag, ze hoeven adverteerders alleen maar te vertellen welke conclusies ze op basis van die data getrokken hebben. Of je bijvoorbeeld geïntereseerd bent in een lening, een kinderwens hebt, of een interesse voor ‘zwarte cultuur’.

Zo maakt Spotify aan adverteerders een live voorspelling over je stemming beschikbaar die ze baseren op de muziek waar je naar luistert. Databrokers hebben per Amerikaan duizenden voorspellingen te koop. Per Europeaan hebben ze – door de iets betere juridische bescherming – honderden voorspellingen te koop.

 

Data eigenaarschap in perspectief

Data eigenaarschap kan een deel van de oplossing zijn. Immers, als een partij geen toegang heeft tot je rauwe data kunnen ze er ook geen voorspelling uit afleiden. Maar deze vorm van bescherming is fragiel. Eén seconde toegang tot je data is genoeg om algoritmes honderden nieuwe voorspellingen te laten afleiden. Beter is het om ervoor te zorgen dat die afgeleide data ook als ‘jouw data’ worden geclassificeerd.

In Europa is dat gelukkig in theorie ook zo. In de praktijk is er echter weinig controle op de verhandeling van dit soort voorspellingen. In veel andere landen, zoals de VS of China, is er veel minder regularing rondom de creatie en verkoop van deze algoritmisch-gevormde “meningen”. Initiatieven voor ‘data eigenaarschap’ in de verenigde staten zijn dan ook verdacht als ze geen uitspraak doen over hoe ze vorming en problematiek rondom afgeleide data willen tegengaan.

Een aanverwant probleem is dat deze voorspellingen voor veel meer worden gebruikt dan het tonen van op de persoon toegespitste reclames. Daar begon het mee, maar dat stadium zijn we allang voorbij. Dat maakte het Cambridge Analytica schandaal bijvoorbeeld goed duidelijk. Echter, in het maatschappelijke debat en in de journalistiek zie je vaak nog steeds de aanname dat de voorspellingen vooral een reclame gebaseerd businessmodel ondersteunen. Dat is voor sommige partijen het geval (Facebook bijvoorbeeld), maar de opgestelde profielen zijn ondertussen voor elke sector interessant. Banken, verzekeraars, overheden, allen hebben interesse in voorspellingen over jouw interesses, jouw karakter en jouw levensloop.

 

De maatschappelijke discussie rondom de vraag “is afgeleide data jouw eigendom, of is het hun mening” is nog niet op gang gekomen. Dat verklaart mede waarom er zoveel wordt gelobbied voor het geven van ‘juridisch persoonschap’ aan algoritmes en robots. Als software als legale entiteit kan worden bestempeld, dan wordt de positie dat deze voorspellingen “de mening van een algoritme” zijn – en dus niet jouw data – juridisch sterker.

 

BRONNEN

Martin Abrams – The origins over personal data and its implications for governance