Cos’è MegaFace, lo scandalo delle foto rubate agli utenti per addestrare l’intelligenza artificiale

Gli algoritmi di riconoscimento facciale che identificano i volti delle persone all'interno di fotografie e video sono diventati sempre più precisi negli anni grazie al contributo di milioni di immagini, analizzate scrupolosamente dai software per decifrare i tratti distintivi di un volto rispetto a un altro e trasformare queste informazioni in modelli matematici da applicare al resto del mondo. Il problema è che il materiale impiegato da alcune delle multinazionali più avanti in questo settore è stato ottenuto senza il permesso dei proprietari, sottratto dal sito di condivisione fotografica Flickr e stoccato in un enorme banca dati, battezzata MegaFace e sfruttata da un numero imprecisato di aziende per addestrare le relative intelligenze artificiali.
Cos'è Megaface e chi l'ha utilizzato
A rivelarlo è il New York Times, anche se l'esistenza di Megaface in realtà non è un segreto. L'enorme contenitore è il risultato di un progetto di ricerca pubblico coordinato dall'università di Washington e indirizzato all'addestramento di intelligenze artificiali nel campo del riconoscimento facciale. Nelle intenzioni dei ricercatori il progetto Megaface era nato per livellare la competizione in fatto di machine Learning tra grandi e piccole aziende, dando modo anche a queste ultime di avere una corposa banca dati per addestrare intelligenze artificiali competitive con quelle dei soggetti più imponenti del settore. Tra i suoi finanziatori e tra le aziende che hanno usufruito della banca dati figurano però proprio alcuni dei colossi in questione: da Google a Samsung, passando per Intel, Amazon, Mitsubishi Electric, Philips e Tencent.
I numeri di Megaface
Il progetto dispone di un proprio sito Internet, dove i ricercatori raccontano che la banca dati è composta da 4,7 milioni di fotografie di 672.057 individui ed è la più grande a disposizione pubblicamente. Le immagini – racconta lo stesso sito del progetto Megaface – sono state ottenute dal sito di condivisione fotografica Flickr (che ai tempi era di proprietà di Yahoo), tra quelle caricate con licenza Creative Commons.
Sfruttati i ricordi degli utenti
Parte del problema è proprio qui: caricando le proprie foto su Flickr con questa licenza gli utenti hanno implicitamente acconsentito al riutilizzo del proprio materiale per altri scopi – compresa l'inclusione all'interno di una banca dati di addestramento per intelligenze artificiali. Non solo: gli autori delle foto selezionate non sono mai stati avvisati al riguardo, e una falla del sistema ha permesso di utilizzare non solo le foto pubbliche, ma anche quelle contrassegnate inizialmente come tali ma poi reimpostate come private.
Privacy violata
È stato quest'ultimo aspetto a essere stato svelato dal New York Times, dando vita a uno scandalo che potrebbe portare i responsabili del database in tribunale attraverso una class action. Nonostante le regole sulla privacy negli Stati Uniti non siano restrittive come nell'Unione Europea, in alcuni stati come l'Illinois i dati biometrici dei cittadini sono molto ben protetti dalla legge; c'è inoltre da considerare il fatto che molte delle foto utilizzate ritraggono minori o potrebbero effettivamente appartenere a cittadini dell'Unione Europea.