Cos’è MegaFace, lo scandalo delle foto rubate agli utenti per addestrare l’intelligenza artificiale

La più grande banca dati pubblica di immagini utilizzata per addestrare gli algoritmi di riconoscimento facciale di numerose aziende è stata ottenuta a partire da foto caricate su Flickr da utenti comuni. Una falla nel sistema però ha permesso alle aziende di utilizzare anche foto impostate come private.

Gli algoritmi di riconoscimento facciale che identificano i volti delle persone all'interno di fotografie e video sono diventati sempre più precisi negli anni grazie al contributo di milioni di immagini, analizzate scrupolosamente dai software per decifrare i tratti distintivi di un volto rispetto a un altro e trasformare queste informazioni in modelli matematici da applicare al resto del mondo. Il problema è che il materiale impiegato da alcune delle multinazionali più avanti in questo settore è stato ottenuto senza il permesso dei proprietari, sottratto dal sito di condivisione fotografica Flickr e stoccato in un enorme banca dati, battezzata MegaFace e sfruttata da un numero imprecisato di aziende per addestrare le relative intelligenze artificiali.

Cos'è Megaface e chi l'ha utilizzato

A rivelarlo è il New York Times, anche se l'esistenza di Megaface in realtà non è un segreto. L'enorme contenitore è il risultato di un progetto di ricerca pubblico coordinato dall'università di Washington e indirizzato all'addestramento di intelligenze artificiali nel campo del riconoscimento facciale. Nelle intenzioni dei ricercatori il progetto Megaface era nato per livellare la competizione in fatto di machine Learning tra grandi e piccole aziende, dando modo anche a queste ultime di avere una corposa banca dati per addestrare intelligenze artificiali competitive con quelle dei soggetti più imponenti del settore. Tra i suoi finanziatori e tra le aziende che hanno usufruito della banca dati figurano però proprio alcuni dei colossi in questione: da Google a Samsung, passando per Intel, Amazon, Mitsubishi Electric, Philips e Tencent.

I numeri di Megaface

Il progetto dispone di un proprio sito Internet, dove i ricercatori raccontano che la banca dati è composta da 4,7 milioni di fotografie di 672.057 individui ed è la più grande a disposizione pubblicamente. Le immagini – racconta lo stesso sito del progetto Megaface – sono state ottenute dal sito di condivisione fotografica Flickr (che ai tempi era di proprietà di Yahoo), tra quelle caricate con licenza Creative Commons.

Sfruttati i ricordi degli utenti

Parte del problema è proprio qui: caricando le proprie foto su Flickr con questa licenza gli utenti hanno implicitamente acconsentito al riutilizzo del proprio materiale per altri scopi – compresa l'inclusione all'interno di una banca dati di addestramento per intelligenze artificiali. Non solo: gli autori delle foto selezionate non sono mai stati avvisati al riguardo, e una falla del sistema ha permesso di utilizzare non solo le foto pubbliche, ma anche quelle contrassegnate inizialmente come tali ma poi reimpostate come private.

Privacy violata

È stato quest'ultimo aspetto a essere stato svelato dal New York Times, dando vita a uno scandalo che potrebbe portare i responsabili del database in tribunale attraverso una class action. Nonostante le regole sulla privacy negli Stati Uniti non siano restrittive come nell'Unione Europea, in alcuni stati come l'Illinois i dati biometrici dei cittadini sono molto ben protetti dalla legge; c'è inoltre da considerare il fatto che molte delle foto utilizzate ritraggono minori o potrebbero effettivamente appartenere a cittadini dell'Unione Europea.

Continua a leggere su Fanpage.it