De digitale vergrootspiegel – Hoe de mens algoritmes onbewust beïnvloed en bewust manipuleert

Zelflerende algoritmes zijn als een vergrotende spiegel die de normaal onzichtbare oneffenheden van je huid opeens als grote kraters tentoonstelt. Ze herkennen patronen en tonen daardoor vooroordelen die dominant zijn in de samenleving maar veelal impliciet tot uiting komen. Daarbij zijn er ook nog mensen die algoritmes bewust manipuleren. Omdat zelflerende algoritmes alomtegenwoordig zijn in onze samenleving, is het belangrijk om deze processen eens onder de loep te nemen.

Tekst en beeld// Naomi Veenhoven

Een ego-search, het is iets wat we vast allemaal wel eens gedaan hebben: je tikt je naam in op de zoekmachine van Google, nieuwsgierig naar wat Google naar voren brengt. Toen informaticaprofessor Latanya Sweeney een ego-search deed viel het haar op hoeveel van de advertenties aangeboden door Google’s AdSense te maken hadden met het opzoeken van het strafblad van mensen met de naam Latanya Sweeney. Alle advertenties leken de suggestie te wekken dat Sweeney een strafblad had. Uit nieuwsgierigheid klikte ze op een van de links aan, om er vervolgens achter te komen dat er helemaal geen Latanya Sweeney bestond met een strafblad. Sweeney begon zich dan ook af te vragen waarom de advertentie bij haar zoekopdracht naar voren kwam.

Sweeney bedacht dat het wel eens aan haar voornaam zou kunnen liggen. Latanya is namelijk een naam die in Amerika vaak gegeven wordt aan Afro-Amerikaanse kinderen. Ze besloot op onderzoek uit te gaan en kwam uiteindelijk tot de conclusie dat namen die vaker voorkomen bij de Afro-Amerikaanse bevolking, 25% meer kans hebben op advertenties over strafbladen. Haar conclusie: er is sprake van discriminatie bij de verspreiding van deze advertentie.

Veel mensen gingen aan de haal met deze resultaten en riepen uit dat deze resultaten laten zien hoe Google of de aanbieder van de reclames etnisch profileert en daarmee racistisch is. Sommigen betoogden zelfs dat zelflerende algoritmes als AdSense gebouwd zijn op (racistische) stereotypen. Sweeney zelf kwam met een hele andere en interessante verklaring voor de discriminatie in het algoritme.

er komen patronen naar voren die onze vooroordelen
soms pijnlijk eerlijk weerspiegelen.

Een algoritme is simpel gezegd een soort stappenplan dat zo geprogrammeerd wordt dat hij stap b zet na stap a. Veel van de algoritmes online, zoals die van AdSense, zijn zelflerende algoritmes, deze algoritmes leren zelf welke stappen het beste werken. Zo leert het algoritme van AdSense welke advertentiecombinaties effectiever zijn door de advertenties willekeurig bij verschillende namen te plaatsen. Het systeem leert vervolgens van de manieren waarop mensen klikken. In het geval van de zoekopdracht van Sweeney heeft het algoritme dus geleerd dat deze advertentie vaker aangeklikt wordt bij namen die geassocieerd worden met Afro-Amerikanen. AdSense van Google is dus niet racistisch uit zichzelf maar het kopieert de impliciete vooroordelen van mensen die zoeken via Google.

Niet alleen Google geeft resultaten op basis van zelflerende algoritmes weer, vrijwel alle websites maken gebruikt van zelflerende algoritmes. Deze algoritmes bepalen bijvoorbeeld welke versie van een site jij ziet, welke prijs je betaalt voor een bepaald product, maar ook steeds vaker of je wel of geen lening krijgt. In een tijd waarin zelflerende algoritmes niet meer weg te denken zijn uit ons dagelijks leven, wordt het begrijpen van de context en sociale structuren waar de zelflerende algoritmes zich op baseren steeds relevanter.

Algoritmes en taal

Het zelflerend algoritme dat uitrekent wat de meest effectieve plaatsing is van een advertentie, leert dus van het klikgedrag van de gebruikers. Hoe het kwam dat de advertentie op Google op die plek kwam te staan is dan ook nog te traceren en te begrijpen op basis van de data. Veel zelflerende algoritmes zijn echter veel complexer van aard. Het zelflerende algoritme van Google Translate bijvoorbeeld gebruikt allerlei teksten die beschikbaar zijn op het internet en destilleert woorden tot een getallenreeks (een woordvector). Vervolgens kijkt het algoritme welke woorden het meest in relatie tot elkaar worden gebruikt. Deze puur statistische benadering kan daarmee uiteindelijk een rijke sociale en culturele context van het woord achterhalen en zo kan Google Translate steeds vaker met de juiste vertaling komen.

Data is niet zomaar te begrijpen zonder context.

Waar algoritmes als deze steeds meer leren om taal te gebruiken als echte mensen, nemen ze ook steeds vaker de vooroordelen en stereotypen die verborgen zitten in onze taal over. Zo kan het dat toen ik ‘waarom zijn vrouwen’ intikte op Google ik de suggesties krijg om dit aan te vullen met: ‘minderwaardig’, ‘onzeker’, ‘raar’, ‘moeilijk’ en ‘bang voor spinnen’. De man komt bij met de zelfde vraag uit de verf als: ‘jaloers’, ‘afstandelijk’, ‘ontrouw’, ‘dominant’ en ‘stil’. Nu zijn deze zoekresultaten gebaseerd op mijn eerdere zoekresultaten (oeps…), maar vooral ook op de zoekresultaten van heel veel andere Google gebruikers. Deze associaties komen misschien niet zo sterk naar voren wanneer je kijkt naar de individuen, maar wanneer je, zoals een zelflerend algoritme, een enorme database hebt om uit te putten, komen er patronen naar voren die onze aannames en vooroordelen niet heel flatteus en soms ook pijnlijk eerlijk weerspiegelen.

Gemanipuleerde algoritmes

Maar niet altijd weerspiegelt het zelflerend algoritme de impliciete vooroordelen; ze kunnen ook actief gemanipuleerd worden. Zo zijn er steeds meer groepen die actief bezig zijn met het manipuleren van zelflerende algoritmes voor allerlei verschillende doeleinden. Een fenomeen dat als sinds 1999 bestaat, twee jaar na Google Search online kwam, zijn Google bombs. Dit zijn gezamenlijke inspanningen om zoekopdrachten te linken aan een bepaalde site en op die manier de zoekresultaten te manipuleren in Google. Een van de meest bekende Google bombs werd gecreëerd in 2006. Wanneer Amerikanen ‘miserable failure’ intikten in Google was het eerste zoekresultaat de biografie van oud-president van de VS George W. Bush.

Zo wordt het dus onduidelijk of dit een actieve manipulatie
van het systeem is geweest,
of een pijnlijke weerspiegeling van vooroordelen.

Waar de Google bomb aan het adres van Bush misschien nog als een onschuldige grap kan worden gezien, kan het manipuleren van de zoekresultaten van Google ook verstrekkende gevolgen hebben. In Amerika zijn er bijvoorbeeld rechtse actiegroepen die online opereren om de online datastromen zoveel mogelijk naar het belang van rechts te vormen, aldus onderzoeker en journalist Shane Burley. Burley kwam er achter dat verschillende extremistische groepen het voor elkaar krijgen om bepaalde content trending topic te maken. Zo heeft het ‘alt-right’ Reddit forum The_Donald er lang voor kunnen zorgen dat de resultaten op Google vooral pro-Trump waren. The_Donald is helaas niet de enige groep die extremistische denkwijzen promoten door zelflerende algoritmes te manipuleren.

Onbegrijpelijke en onbegrijpende algoritmes

Toen journalist Mike Ananny de app Grindr (een app waarmee homoseksuele mannen met elkaar in contact kunnen komen) wilde installeren op zijn telefoon, keek hij verbijsterd naar de app die de PlayStore als gerelateerde app naar voren schoof. De PlayStore had op een of andere manier een link gemaakt tussen Grindr en de app ‘Sex Offender Search’ waarop je kan kijken waar geregistreerde zedendelinquenten in Amerika wonen. De link is niet zo makkelijk te verklaren met het klikgedrag van de gebruikers van de PlayStore, het is namelijk niet aannemelijk dat deze twee apps daadwerkelijk dezelfde doelgroep hebben.

De makers van het algoritme achter de Playstore konden zelf ook niet goed achterhalen waarom het algoritme had bepaald dat deze twee apps met elkaar te maken zouden hebben. Het zelflerende algoritme is namelijk al zo ver ontwikkeld dat de makers ook geen idee meer hebben op basis van welke gegevens een link als deze tot stand komt. Zo wordt het dus onduidelijk of dit een actieve manipulatie van het systeem is geweest of een pijnlijke weerspiegeling van de vooroordelen die er bestaan over homoseksuele mannen.

Filosoof Daniel Dennett zou dit een van de nare effecten noemen van het postintelligente ontwerp. We begrijpen zelf eigenlijk niet meer wat de complexe systemen in de software doen. Volgens Dennett geven we ons dan ook over aan niet-intelligente ontwerpen: niet-intelligent in de zin dat de systemen ook zelf niet weten hoe ze opereren. Het zelflerend algoritme van de PlayStore maakt deze link maar begrijpt zelf ook niet waarom. De PlayStore heeft deze link dan wel handmatig verwijderd toen Ananny aan de bel trok, maar kan daarmee niet voorkomen dat het algoritme in de toekomst wederom kwalijke links legt die niet zomaar verklaard kunnen worden.

AdSense van Google is niet racistisch uit zichzelf
maar het kopieert de impliciete vooroordelen van mensen.

Data is zelden neutraal

Volgens informaticus Geoffrey Bowker is de term ‘ruwe data’ niet alleen een oxymoron maar ook een slecht idee: ‘data should be cooked with care’. Antropologe en informaticus danah boyd (ze wilt zelf dat haar naam niet met hoofdletters wordt geschreven) die onder andere onderzoek doet naar sociale media en algoritmes vertelde, tijdens een inspirerende lezing in het Rijksmuseum Boerhaave, lachend over een ontmoeting met een vertegenwoordiger van Coca-Cola. De man riep in haar bijzijn trots uit dat Coca-Cola al tijden een van de populairste merken is op sociale media. Dat loog hij niet: Coca Cola heeft verbijsterend veel likes op Facebook in vergelijking met andere merken (ter vergelijking: Pepsi heeft 37 miljoen likes op Facebook en Coca-Cola 107 miljoen). boyd had vervolgens een interessante verklaring voor de ogenschijnlijke populariteit. Tijdens haar onderzoek naar het gebruik van sociale media onder jongeren was ze er namelijk achter gekomen dat veel jongeren Coca-Cola ‘liken’ om te laten zien dat ze van coke houden (niet de drank maar de drugs). Data is niet zomaar te begrijpen zonder context, en zo is dat ook met de data waar algoritmes op gebouwd zijn en zichzelf mee uitbouwen en optimaliseren.

Wanneer zelflerende algoritmes racistische of seksistische content weergeven zoeken mensen vaak naar een schuldige. De schuldvinger wijst nu vaak richting de technologie en diens maker, alsof deze technologie voortbeweegt zonder onze invloed. Tot op zekere hoogte is dat waar, de manier waarop het zelflerend algoritme besluit wat naar voren wordt gebracht is ondertussen al lang niet meer te begrijpen. Maar wij mensen zijn nog altijd zelf verantwoordelijk voor de data waar de algoritmes zich toe verhouden. Een zelflerend algoritme kan alleen kwaliteit leveren die hoogstens even goed is als de kwaliteit van de data waarop het zichzelf voortbouwt.

Zolang vooroordelen in de samenleving dominant zijn zullen algoritmes deze vooroordelen spiegelen en uitvergroten. De macht van algoritmes zit dan ook niet zozeer in de technologie zelf. Het zijn namelijk nog altijd mensen die bepalen welke data het algoritme gebruikt en daarmee bepalen wat er gespiegeld en uitvergroot wordt. Daarnaast zijn het ook mensen zelf die de algoritmes manipuleren en daarmee de spiegel als het ware breken of vervormen. Het is dan ook van groot belang dat we ons bewust zijn van deze processen en in de gaten houden wie eigenlijk bepaald wat we online zien.

* Een groot deel van dit artikel is gebaseerd op de lezing ‘frairness and accountability of Sociotechnical Algorithmic Systems‘ van danah boyd.

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *