‘IBM biedt zonder toestemming fotodatabase gezichtsherkenning aan’

Het Amerikaanse technologiebedrijf IBM heeft zonder toestemming van de gefotografeerden een miljoen foto’s van fotosite Flickr gebruikt om kunstmatige intelligentie op gezichtsherkenning te trainen. Dat meldde Nu.nl op gezag van nieuwszender NBC. De dataset met foto’s en toegevoegde metadata werd eerder al door Yahoo (de eigenaar van Flickr) aangeboden, waarbij men zich beriep op de Creative Commons licentie die op de foto’s zit. IBM zag daar een mooie bron in voor een machine learning dataset, met name omdat de fotocollectie een diverser beeld van de mensheid geeft dan de typische wittemannendatasets voor dergelijke toepassingen.

In de VS bestaat geen duidelijke wetgeving over gebruik van je portret. Heel kort door de bocht ben je vogelvrij als je op de openbare weg bent en iemand een foto van je maakt. Die mag daar alles mee doen dat hem goeddunkt, inclusief dus op internet publiceren onder een “voel je vrij en ga je gang”-licentie zoals Creative Commons. Het is dus daar goed mogelijk dat mensen gaan handelen in foto’s waar je herkenbaar op staat, en of dat nu voor publicatie in een tijdschrift is of voor het trainen van een gezichtsherkenning-AI maakt daarbij niet uit.

In Europa zou dit problematischer zijn, omdat de AVG vrij duidelijk is dat een foto een persoonsgegeven is en er dus onder de AVG een grondslag moet zijn om die foto aan een ander te geven. Zonder toestemming van de geportretteerde kom je dan al heel snel uit bij het zogeheten legitiem belang, wat in feite dezelfde afweging geeft als vroeger het portretrecht – welk belang heb jij tegen publicatie, en welk belang kan de handelaar daar tegenover zetten. In journalistieke contexten kom je daar nog wel uit, maar pure handel in een portret zie ik niet snel gerechtvaardigd onder de AVG.

Het verbaast me echter volstrekt niets dat dergelijke databanken worden gescrapet voor machine learning. Het bouwen van een goede dataset is moeilijk, en vaak wordt dan maar gekozen voor zo veel mogelijk data. Veel matige data komt vaak ongeveer net zo goed uit als een kleinere goed geselecteerde dataset, en met minder kosten. Plus, de betrokken personen merken er niets van, tenzij de dataset uitlekt en iemand de afbeeldingen gaat herleiden tot hun bron natuurlijk.

Arnoud

 

Bron: Blog Arnoud Engelfriet