Webscraping, Intelligenza Artificiale e Privacy: limiti e regole
Approfondimento a cura di Stefano Gazzella, DPO DITEDI
Cos’è il webscraping
Il webscraping è una tecnica che permette di estrarre automaticamente grandi quantità di dati da siti web. Si tratta di una raccolta organizzata e massiva, utile per creare dataset destinati a finalità specifiche definite dal titolare del trattamento. Dal punto di vista della privacy, il webscraping rientra a pieno titolo nelle attività che coinvolgono dati personali e la loro libera circolazione.
Il ruolo del Garante Privacy
Nel tempo, il Garante Privacy ha chiarito regole e limiti all’uso del webscraping. Le sue valutazioni hanno riguardato ambiti come:
-
ricerca inversa dei numeri telefonici
-
comunicazione politica e propaganda elettorale
-
raccolta di immagini
-
formazione di elenchi telefonici
Oggi, il tema è diventato ancora più rilevante per via dell’addestramento dei sistemi di Intelligenza Artificiale Generativa, che spesso si basa proprio su tecniche di webscraping.
L’azione dell’EDPB e il caso ChatGPT
Il Comitato europeo per la protezione dei dati (EDPB) ha avviato un’azione coordinata dedicata al tema. In particolare, ha istituito una task force su ChatGPT per analizzare le criticità legate ai modelli linguistici di grandi dimensioni (LLM). Uno degli aspetti più importanti riguarda la liceità della raccolta dei dati.
OpenAI ha dichiarato di fondare l’attività di webscraping sul legittimo interesse. Questa scelta è ancora oggetto di valutazione da parte delle autorità. Un trattamento basato sul legittimo interesse richiede:
-
la presenza di un interesse reale e meritevole di tutela
-
la necessità del trattamento per raggiungerlo
-
un corretto bilanciamento tra gli interessi del titolare e i diritti degli interessati
Questo bilanciamento deve considerare anche le misure di sicurezza applicate, come trasparenza, riduzione degli impatti e protezione degli utenti più vulnerabili.
I punti richiesti dall’EDPB
Secondo l’EDPB, OpenAI – in quanto titolare del trattamento – dovrà garantire:
-
la valutazione delle aspettative ragionevoli degli interessati;
-
l’adozione di garanzie adeguate per proteggere gli utenti;
-
criteri per limitare o escludere la raccolta da fonti specifiche;
-
sistemi per cancellare o anonimizzare i dati prima dell’addestramento;
-
la capacità di dimostrare l’efficacia delle misure adottate.
Le conseguenze per mercato, diritti e innovazione
Stabilire quando il webscraping è lecito ai fini del training dei modelli di IA ha effetti diretti sia sui diritti delle persone sia sul mercato.
Limitarsi ai soli database consensati, per esempio, aumenterebbe i costi e rallenterebbe lo sviluppo dei modelli. Questi effetti sarebbero più evidenti all’interno dell’Unione Europea, dove vigono regole stringenti sulla protezione dei dati personali.
Innovazione e privacy: un equilibrio necessario
Innovazione tecnologica e protezione dei dati non sono in contraddizione. Al contrario, devono procedere insieme. Solo un equilibrio basato sulla proporzionalità permette di sviluppare un’Intelligenza Artificiale realmente “umanocentrica”, capace di innovare rispettando i diritti fondamentali.

