Web scraping ed intelligenza artificiale generativa: il Garante privacy pubblica nuove indicazioni

Con provvedimento del 20 maggio 2024 il Garante privacy ha pubblicato un documento avente ad oggetto prime indicazioni sul fenomeno della raccolta massiva di dati personali dal web per finalità di addestramento dei modelli di intelligenza artificiale generativa, c.d. web scraping, ) e segnalare possibili azioni di contrasto che i gestori di siti internet e di piattaforme online, sia pubblici che privati, operanti in Italia, quali titolari del trattamento dei dati personali oggetto di pubblicazione, potrebbero implementare al fine di prevenire, ove ritenuta incompatibile con le basi giuridiche e le finalità della pubblicazione, la raccolta di dati da parte di terzi per finalità di addestramento dei modelli di intelligenza artificiale. L’analisi del Garante tiene conto dei contributi ricevuti dall’Autorità nell’ambito dell’indagine conoscitiva in materia di web scraping, deliberata con provvedimento del 21 dicembre 2023, pubblicato nella Gazzetta Ufficiale n. 14 del 18 gennaio 2024.

1. Web scraping e implicazioni privacy

Nella misura in cui il web scraping implica la raccolta di informazioni riconducibile a una persona fisica indentificata o identificabile si pone un problema di protezione dati personali.

Il focus della compliance con il Regolamento UE 2016/679) (anche “GDPR” o “Regolamento”) viene generalmente puntato sui soggetti che trattano i dati personali raccolti tramite tecniche di web scraping, in particolare con riferimento all’individuazione di una idonea base giuridica ai sensi dell’art. 6 del RGPD per la trattazione di tali dati.

Il Garante, con tale documento, intende concentrare l’analisi sulla posizione dei soggetti, pubblici e privati, gestori di siti web e piattaforme online, operanti quali titolari del trattamento di dati personali, che rendano pubblicamente disponibili, dati (anche personali) che vengono raccolti dai bot di terze parti.

Al riguardo pare opportuno ricordare che ogni titolare del trattamento di dati personali, soggetto pubblico o privato, ai sensi del Regolamento può rendere disponibili al pubblico tali dati personali esclusivamente per finalità specifiche e sulla base di una o più condizioni di legittimità tra quelle previste all’art. 6 del GDPR (es: obblighi di trasparenza, pubblicità legale, procedure a evidenza pubblica, diritto di cronaca, contratto in essere con gli interessati). Il giudizio di liceità del web scraping deve, dunque, essere effettuato caso per caso sulla base dei diversi e contrapposti diritti in gioco.

2. Possibili azioni di contrasto al web scraping per finalità di addestramento dell’intelligenza artificiale generativa

Tali azioni di contrasto, che si intende elencare anche nel presente articolo, rappresentano secondo il Garante “cautele da adottarsi sulla base di un’autonoma valutazione del titolare del trattamento,” in attuazione del principio di responsabilizzazione (accountability), allo scopo di impedire l’utilizzazione ritenuta non autorizzata, da parte di terzi, dei dati personali pubblicati in qualità di titolare. Il Garante, infatti, precisa che non è possibile impedire il web scraping al 100%. Di seguito le azioni di contrasto:

Creazione di aree riservate. La creazione di aree riservate, a cui si può accedere solo previa registrazione, rappresenta una valida cautela in quanto sottrae dati dalla ritenuta pubblica disponibilità. Tale tipologia di cautela tecnico-organizzativa può, sebbene indirettamente contribuire ad una maggiore tutela dei dati personali rispetto ad attività di web scraping.
Inserimento di clausole ad hoc nei termini di servizio. L’inserimento nei Termini di Servizio (ToS) di un sito web o di una piattaforma online dell’espresso divieto di utilizzare tecniche di web scraping costituisce una clausola contrattuale che, se non rispettata, consente ai gestori di detti siti e piattaforme di agire in giudizio per far dichiarare l’inadempimento contrattuale della controparte. Il Garante menziona, i termini di servizio di YouTube, a cui Google vieta l’accesso con mezzi automatizzati, quali robot, botnet o strumenti di scraping.
Monitoraggio del traffico di rete. Il monitoraggio delle richieste HTTP ricevute da un sito web o da una piattaforma consente di individuare eventuali flussi anomali di dati in ingresso ed in uscita da un sito web o da una piattaforma online e di intraprendere adeguate contromisure di protezione.
Intervento sui bot. Posto che il web scraping si basa sull’utilizzo di bot, il Garante si concentra sull’elencare diverse tipologie esemplificative di azioni di contrasto ai bot stessi, limitandone l’accesso:
- l’inserimento di verifiche CAPTCHA;
- la modifica periodica del markup HTML;
- l’incorporazione dei contenuti ovvero dei dati che si intendono sottrarre alle attività di scraping all’interno di oggetti multimediali, quali ad esempio immagini (si pensi all’uso di tale tecnica nel caso di testo breve come numeri di telefono o email) o altre forme di media.
- il monitoraggio dei file di log, al fine di bloccare eventuali user-agent non desiderati, ove identificabili13;
- l’intervento sul file robot.txt. Il file robot.txt è uno strumento tecnico che, dal giugno 1994, riveste un ruolo fondamentale nella gestione dell’accesso ai dati contenuti nei siti web, in quanto consente ai gestori di indicare se l’intero sito o alcune sue parti possono o meno essere oggetto di indicizzazione e scraping.

Di seguito il link per scaricare il documento: Intelligenza artificiale: dal Garante privacy le indicazioni per difendere i… – Garante Privacy

Avv. Adamo Brunetti

Blog

Web scraping ed intelligenza artificiale generativa: il Garante privacy pubblica nuove indicazioni