Web scraping: come proteggere il sito web
Il Garante per la protezione dei dati personali ha recentemente pubblicato delle linee guida per aiutare a proteggere i dati personali pubblicati online da enti pubblici e privati dal web scraping.
Vediamo di cosa si tratta e come tutelare il tuo sito internet da questa pratica.
SOMMARIO
Cos'è il web scraping e il ruolo del Garante Privacy
Misure consigliate per proteggere il sito web
Considerazioni per implementare misure anti web scraping
I termini di servizio
Esempi di efficacia dei termini anti web scraping
Benefici della clausola anti web scraping
Intervento sul bot
Come LegalBlink si è adeguato sul web scraping
Conclusioni
Il web scraping è la raccolta automatica e indiscriminata di dati da internet, spesso utilizzata per addestrare modelli di Intelligenza Artificiale Generativa (IAG). Queste indicazioni sono state create anche grazie ai contributi ricevuti durante un'indagine avviata lo scorso dicembre.
In attesa di concludere alcune indagini in corso, tra cui una su OpenAI, riguardanti la legalità del web scraping basato sul legittimo interesse, il Garante ha deciso di fornire delle prime indicazioni. Queste indicazioni aiutano chi pubblica dati personali online a valutare la necessità di adottare misure per prevenire o ostacolare il web scraping.
Nel documento, il Garante suggerisce alcune misure pratiche che possono essere adottate:
1. Creare aree riservate: Rendere accessibili alcune aree del sito solo previa registrazione, così da limitare l'accesso ai dati pubblici.
2. Clausole Anti-Scraping: Inserire clausole specifiche nei termini di servizio del sito che vietano il web scraping.
3.
Monitorare il traffico: Controllare il traffico web per individuare attività sospette di raccolta dati.
4.
Interventi sui bot: Utilizzare tecnologie, come il file robots.txt, per gestire l'attività dei bot responsabili del web scraping.
Queste misure per evitare il
web scraping non sono obbligatorie. I responsabili del trattamento dei dati devono decidere se adottarle basandosi sul principio di responsabilità (accountability). Devono valutare vari fattori, tra cui:
-
Stato della tecnologia disponibile: Quanto sono avanzate le soluzioni tecnologiche attuali.
-
Costi di attuazione: Specialmente per le piccole e medie imprese (PMI), i costi possono essere un fattore decisivo.
L'obiettivo è prevenire o mitigare, in modo selettivo, gli effetti negativi del web scraping sui dati personali pubblicati online.
Vediamo adesso nel dettaglio le
principali accortezze, anche legali, per difendere il sito web da questa pratica.
Inserire un
divieto all'uso di tecniche di web scraping nei
termini di servizio del sito web di un sito web o di una piattaforma online costituisce una clausola contrattuale. Questa clausola permette ai gestori di tali siti di agire legalmente contro chi non rispetta il divieto, dichiarando l'inadempimento del contratto. Sebbene si tratti di una misura legale che agisce principalmente dopo che la violazione è avvenuta, può avere un effetto preventivo, scoraggiando il web scraping e contribuendo a proteggere meglio i dati personali.
Questo tipo di
clausola contro il web scraping è ampiamente utilizzato ed efficace, specialmente nella protezione dei contenuti coperti da diritti d'autore. Un esempio significativo è rappresentato dai termini di servizio di
YouTube.
Google vieta l'accesso al sito tramite mezzi automatizzati come robot, botnet o strumenti di scraping, ad eccezione dei motori di ricerca pubblici conformi al file robots.txt di YouTube, o in caso di autorizzazione scritta da parte di YouTube.
Inserire nei termini di servizio o nelle condizioni generali di vendita una clausola anti-scraping presenta diversi vantaggi. Vediamone alcuni.
-
Deterrente: Funziona come avvertimento legale, dissuadendo potenziali violatori.
-
Protezione Legale: Fornisce una base giuridica per agire contro chi utilizza tecniche di web scraping senza autorizzazione.
-
Prevenzione Speciale: Anche se agisce ex post, contribuisce alla prevenzione di attività di scraping non autorizzate.
In sintesi,
includere un divieto di web scraping nei termini di servizio rappresenta una strategia legale utile e preventiva per proteggere i dati personali online.
Monitoraggio delle richieste HTTP
Monitorare le
richieste HTTP ricevute da un sito web o da una piattaforma online è un accorgimento tecnico che permette di individuare eventuali flussi anomali di dati in entrata e in uscita. Questo tipo di monitoraggio consente di rilevare attività sospette e di adottare le contromisure necessarie per proteggere i dati.
Rate Limiting
Il Rate Limiting è una misura tecnica che limita il traffico di rete e il numero di richieste provenienti da determinati indirizzi IP. Questo aiuta a prevenire il traffico eccessivo di dati, come negli attacchi DDoS (Distributed Denial of Service)
o nel web scraping.
Benefici di queste misure
-
Individuazione Precoce: Monitorare le richieste HTTP permette di identificare rapidamente flussi anomali di dati.
-
Limitazione del Traffico: Il Rate Limiting riduce la possibilità di traffico eccessivo e non autorizzato.
-
Protezione Proattiva: Queste misure tecniche, sebbene indirettamente, contribuiscono a una maggiore protezione dei dati personali contro il web scraping utilizzato per addestrare l'intelligenza artificiale generativa.
Il
web scraping utilizza bot per raccogliere dati in modo automatizzato. Sebbene nessuna tecnica possa eliminare completamente l'attività dei bot, alcune misure possono significativamente ridurre il web scraping non desiderato, specialmente per l'addestramento dell'intelligenza artificiale generativa.
Esempi di tecniche di contrasto
1.
Verifiche CAPTCHA: Utilizzare test CAPTCHA, che richiedono un'azione eseguibile solo da un essere umano, impedisce l'operatività dei bot.
2.
Modifica del Markup HTML: Cambiare periodicamente la struttura del codice HTML può ostacolare i bot, rendendo più difficile lo scraping. Questo può includere l'annidamento di elementi HTML o modifiche casuali al codice.
3.
Incorporazione dei contenuti in oggetti multimediali: Inserire dati sensibili, come numeri di telefono o email, all'interno di immagini o altri media rende la raccolta dati più complessa per i bot. Questo richiede tecniche avanzate come il riconoscimento ottico dei caratteri (OCR) per estrarre i dati.
4.
Monitoraggio dei File di Log: Controllare i file di log per identificare e bloccare user-agent indesiderati.
5.
Intervento sul File robots.txt: Utilizzare il file robots.txt per specificare quali parti del sito web possono essere indicizzate e accessibili dai bot. Questo strumento, parte del Robot Exclusion Protocol (REP), permette di escludere specifici bot, come GPTBot di OpenAI o Google-Extended, utilizzati per lo scraping a fini di addestramento dell'intelligenza artificiale.
Limitazioni delle misure tecniche
-
Rispetto Etico: L'efficacia del REP dipende dall'impegno etico dei web scraper, poiché non è uno standard riconosciuto.
-
Bot Indipendenti: Alcuni bot, come il CCBot di Common Crawl, raccolgono dati per scopi generali e sono frequentemente utilizzati dagli sviluppatori di intelligenza artificiale.
-
Bot Non Dichiarati: Alcuni bot non dichiarano esplicitamente i loro scopi o dettagli tecnici, rendendo difficile il loro monitoraggio e controllo.
Ovviamente il generatore di documenti legali di LegalBlink è stato aggiornato anche a questa importante novità.
Infatti, abbiamo recepito l'invito del Garante Privacy e abbiamo previsto una specifica sezione del
generatore di privacy policy del nostro tool dove l'utente può decidere se inserire una specifica clausola che nega il consenso al web scraping.
Siamo
l'unico tool ad aver implementato questa importante novità legale.
Ovviamente
ciò non può impedire tecnicamente il web scraping. Come però evidenziato dal Garante Privacy, può
fondare una causa legale qualosa il titolare del sito web o ecommerce s'accorga che una azienda ha effettuato web scraping sulle pagine del proprio sito.
Nonostante le limitazioni, queste tecniche rappresentano un valido approccio per mitigare l'attività di web scraping. Combinando diverse strategie, è possibile creare una barriera efficace contro l'automatizzazione non autorizzata della raccolta dati, contribuendo a una maggiore protezione dei dati personali.
Team LegalBlink