Webscraping, Intelligenza Artificiale e Privacy: limiti e regole

Autore: DITEDI Pubblicato il: 2 Maggio 2025 Pubblicato in: News

Approfondimento a cura di Stefano Gazzella, DPO DITEDI

Cos’è il webscraping

Il webscraping è una tecnica che permette di estrarre automaticamente grandi quantità di dati da siti web. Si tratta di una raccolta organizzata e massiva, utile per creare dataset destinati a finalità specifiche definite dal titolare del trattamento. Dal punto di vista della privacy, il webscraping rientra a pieno titolo nelle attività che coinvolgono dati personali e la loro libera circolazione.

Il ruolo del Garante Privacy

Nel tempo, il Garante Privacy ha chiarito regole e limiti all’uso del webscraping. Le sue valutazioni hanno riguardato ambiti come:

ricerca inversa dei numeri telefonici
comunicazione politica e propaganda elettorale
raccolta di immagini
formazione di elenchi telefonici

Oggi, il tema è diventato ancora più rilevante per via dell’addestramento dei sistemi di Intelligenza Artificiale Generativa, che spesso si basa proprio su tecniche di webscraping.

L’azione dell’EDPB e il caso ChatGPT

Il Comitato europeo per la protezione dei dati (EDPB) ha avviato un’azione coordinata dedicata al tema. In particolare, ha istituito una task force su ChatGPT per analizzare le criticità legate ai modelli linguistici di grandi dimensioni (LLM). Uno degli aspetti più importanti riguarda la liceità della raccolta dei dati.

OpenAI ha dichiarato di fondare l’attività di webscraping sul legittimo interesse. Questa scelta è ancora oggetto di valutazione da parte delle autorità. Un trattamento basato sul legittimo interesse richiede:

la presenza di un interesse reale e meritevole di tutela
la necessità del trattamento per raggiungerlo
un corretto bilanciamento tra gli interessi del titolare e i diritti degli interessati

Questo bilanciamento deve considerare anche le misure di sicurezza applicate, come trasparenza, riduzione degli impatti e protezione degli utenti più vulnerabili.

I punti richiesti dall’EDPB

Secondo l’EDPB, OpenAI – in quanto titolare del trattamento – dovrà garantire:

la valutazione delle aspettative ragionevoli degli interessati;
l’adozione di garanzie adeguate per proteggere gli utenti;
criteri per limitare o escludere la raccolta da fonti specifiche;
sistemi per cancellare o anonimizzare i dati prima dell’addestramento;
la capacità di dimostrare l’efficacia delle misure adottate.

Le conseguenze per mercato, diritti e innovazione

Stabilire quando il webscraping è lecito ai fini del training dei modelli di IA ha effetti diretti sia sui diritti delle persone sia sul mercato.
Limitarsi ai soli database consensati, per esempio, aumenterebbe i costi e rallenterebbe lo sviluppo dei modelli. Questi effetti sarebbero più evidenti all’interno dell’Unione Europea, dove vigono regole stringenti sulla protezione dei dati personali.

Innovazione e privacy: un equilibrio necessario

Innovazione tecnologica e protezione dei dati non sono in contraddizione. Al contrario, devono procedere insieme. Solo un equilibrio basato sulla proporzionalità permette di sviluppare un’Intelligenza Artificiale realmente “umanocentrica”, capace di innovare rispettando i diritti fondamentali.

Cookie	Durata	Descrizione
_gid		Installato da Google Analytics, il cookie _gid memorizza informazioni su come i visitatori utilizzano un sito Web, creando anche un rapporto analitico delle prestazioni del sito Web. Alcuni dei dati che vengono raccolti includono il numero dei visitatori, la loro origine e le pagine che visitano in modo anonimo.
CONSENT		YouTube imposta questo cookie tramite i video di YouTube incorporati e registra dati statistici anonimi.

Cookie	Durata	Descrizione
anonUID		Nessuna descrizione
BIGipCookie		Nessuna descrizione
DcLcid		Nessuna descrizione
E		Nessuna descrizione
LD		Nessuna descrizione
omxsession		Nessuna descrizione
wla42		Nessuna descrizione
xidseq		Nessuna descrizione

Cookie	Durata	Descrizione
_gat		Questo cookie è installato da Google Universal Analytics per limitare il tasso di richiesta e quindi limitare la raccolta di dati su siti ad alto traffico.
xid		Questo cookie viene utilizzato per ricordare le informazioni sull'account personale dell'utente, come nome, indirizzo e cronologia degli ordini, nonché il contenuto del carrello, la ricerca di confronto e la lista dei desideri. Dura solo fino alla fine della sessione del visitatore.

Cookie	Durata	Descrizione
_fbp		Questo cookie è impostato da Facebook per visualizzare annunci pubblicitari su Facebook o su una piattaforma digitale alimentata dalla pubblicità di Facebook, dopo aver visitato il sito web.
fr		Facebook sets this cookie to show relevant advertisements to users by tracking user behaviour across the web, on sites that have Facebook pixel or Facebook social plugin.
VISITOR_INFO1_LIVE		Un cookie impostato da YouTube per misurare la larghezza di banda che determina se l'utente ottiene la nuova o la vecchia interfaccia del lettore.
YSC		Il cookie YSC è impostato da Youtube e viene utilizzato per tracciare le visualizzazioni dei video incorporati sulle pagine di Youtube.
yt-remote-connected-devices		YouTube imposta questo cookie per memorizzare le preferenze video dell'utente utilizzando il video YouTube incorporato.
yt-remote-device-id		YouTube imposta questo cookie per memorizzare le preferenze video dell'utente utilizzando il video YouTube incorporato.

Chiamaci

Scrivici

Raggiungici

Webscraping, Intelligenza Artificiale e Privacy: limiti e regole

Cos’è il webscraping

Il ruolo del Garante Privacy

L’azione dell’EDPB e il caso ChatGPT

I punti richiesti dall’EDPB

Le conseguenze per mercato, diritti e innovazione

Innovazione e privacy: un equilibrio necessario

Link utili

Il Cluster

Aggiornamenti

Contatti

Chiamaci

Scrivici

Raggiungici

Cos’è il webscraping

Il ruolo del Garante Privacy

L’azione dell’EDPB e il caso ChatGPT

I punti richiesti dall’EDPB

Le conseguenze per mercato, diritti e innovazione

Innovazione e privacy: un equilibrio necessario

Ti potrebbero anche interessare

Link utili

Il Cluster

Aggiornamenti

Contatti