Consulenza legale per ecommerce con un Team di avvocati esperti in privacy e diritto digitale, dal 2011.
0

Riepilogo carrello

Il tuo carrello è vuoto

Prodotti nel carrello: 0
Totale prodotti: € 0,00

Prosegui al carrello

Web scraping: come proteggere il sito web

04/06/2024

Web scraping: come proteggere il sito web
 

Il Garante per la protezione dei dati personali ha recentemente pubblicato delle linee guida per aiutare a proteggere i dati personali pubblicati online da enti pubblici e privati dal web scraping.

Vediamo di cosa si tratta e come tutelare il tuo sito internet da questa pratica.


SOMMARIO


Cos'è il web scraping e il ruolo del Garante Privacy
Misure consigliate per proteggere il sito web
Considerazioni per implementare misure anti web scraping
I termini di servizio
Esempi di efficacia dei termini anti web scraping
Benefici della clausola anti web scraping
Intervento sul bot
Conclusioni

 

Cos'è il web scraping e il ruolo del Garante Privacy



Il web scraping è la raccolta automatica e indiscriminata di dati da internet, spesso utilizzata per addestrare modelli di Intelligenza Artificiale Generativa (IAG). Queste indicazioni sono state create anche grazie ai contributi ricevuti durante un'indagine avviata lo scorso dicembre.

In attesa di concludere alcune indagini in corso, tra cui una su OpenAI, riguardanti la legalità del web scraping basato sul legittimo interesse, il Garante ha deciso di fornire delle prime indicazioni. Queste indicazioni aiutano chi pubblica dati personali online a valutare la necessità di adottare misure per prevenire o ostacolare il web scraping.

 

Misure consigliate per evitare il web scraping sul sito web



Nel documento, il Garante suggerisce alcune misure pratiche che possono essere adottate:

1. Creare aree riservate: Rendere accessibili alcune aree del sito solo previa registrazione, così da limitare l'accesso ai dati pubblici.
2. Clausole Anti-Scraping: Inserire clausole specifiche nei termini di servizio del sito che vietano il web scraping.

3. Monitorare il traffico: Controllare il traffico web per individuare attività sospette di raccolta dati.
4. Interventi sui bot: Utilizzare tecnologie, come il file robots.txt, per gestire l'attività dei bot responsabili del web scraping.

 

Considerazioni per l'implementazione di misure anti web scraping



Queste misure per evitare il web scraping non sono obbligatorie. I responsabili del trattamento dei dati devono decidere se adottarle basandosi sul principio di responsabilità (accountability). Devono valutare vari fattori, tra cui:


- Stato della tecnologia disponibile: Quanto sono avanzate le soluzioni tecnologiche attuali.
- Costi di attuazione: Specialmente per le piccole e medie imprese (PMI), i costi possono essere un fattore decisivo.


L'obiettivo è prevenire o mitigare, in modo selettivo, gli effetti negativi del web scraping sui dati personali pubblicati online.

Vediamo adesso nel dettaglio le principali accortezze, anche legali, per difendere il sito web da questa pratica.

 

Divieto di Web Scraping nei Termini di Servizio: protezione legale 



Inserire un divieto all'uso di tecniche di web scraping nei termini di servizio del sito web di un sito web o di una piattaforma online costituisce una clausola contrattuale. Questa clausola permette ai gestori di tali siti di agire legalmente contro chi non rispetta il divieto, dichiarando l'inadempimento del contratto. Sebbene si tratti di una misura legale che agisce principalmente dopo che la violazione è avvenuta, può avere un effetto preventivo, scoraggiando il web scraping e contribuendo a proteggere meglio i dati personali.

 

Esempi di efficacia delle clausole contrattuali contro il web scraping



Questo tipo di clausola contro il web scraping è ampiamente utilizzato ed efficace, specialmente nella protezione dei contenuti coperti da diritti d'autore. Un esempio significativo è rappresentato dai termini di servizio di YouTube. Google vieta l'accesso al sito tramite mezzi automatizzati come robot, botnet o strumenti di scraping, ad eccezione dei motori di ricerca pubblici conformi al file robots.txt di YouTube, o in caso di autorizzazione scritta da parte di YouTube.

 
web scraping garante privacy
 

Benefici della clausola anti-scraping



Inserire nei termini di servizio o nelle condizioni generali di vendita una clausola anti-scraping presenta diversi vantaggi. Vediamone alcuni.


- Deterrente: Funziona come avvertimento legale, dissuadendo potenziali violatori.
- Protezione Legale: Fornisce una base giuridica per agire contro chi utilizza tecniche di web scraping senza autorizzazione.
- Prevenzione Speciale: Anche se agisce ex post, contribuisce alla prevenzione di attività di scraping non autorizzate.


In sintesi, includere un divieto di web scraping nei termini di servizio rappresenta una strategia legale utile e preventiva per proteggere i dati personali online.


Monitoraggio delle richieste HTTP


Monitorare le richieste HTTP ricevute da un sito web o da una piattaforma online è un accorgimento tecnico che permette di individuare eventuali flussi anomali di dati in entrata e in uscita. Questo tipo di monitoraggio consente di rilevare attività sospette e di adottare le contromisure necessarie per proteggere i dati.


Rate Limiting


Il Rate Limiting è una misura tecnica che limita il traffico di rete e il numero di richieste provenienti da determinati indirizzi IP. Questo aiuta a prevenire il traffico eccessivo di dati, come negli attacchi DDoS (Distributed Denial of Service) o nel web scraping.


Benefici di queste misure


- Individuazione Precoce: Monitorare le richieste HTTP permette di identificare rapidamente flussi anomali di dati.
- Limitazione del Traffico: Il Rate Limiting riduce la possibilità di traffico eccessivo e non autorizzato.
- Protezione Proattiva: Queste misure tecniche, sebbene indirettamente, contribuiscono a una maggiore protezione dei dati personali contro il web scraping utilizzato per addestrare l'intelligenza artificiale generativa.

 

Intervento sui bot: misure tecniche per evitare il web scraping 



Il web scraping utilizza bot per raccogliere dati in modo automatizzato. Sebbene nessuna tecnica possa eliminare completamente l'attività dei bot, alcune misure possono significativamente ridurre il web scraping non desiderato, specialmente per l'addestramento dell'intelligenza artificiale generativa.


Esempi di tecniche di contrasto 


1. Verifiche CAPTCHA: Utilizzare test CAPTCHA, che richiedono un'azione eseguibile solo da un essere umano, impedisce l'operatività dei bot.
   
2. Modifica del Markup HTML: Cambiare periodicamente la struttura del codice HTML può ostacolare i bot, rendendo più difficile lo scraping. Questo può includere l'annidamento di elementi HTML o modifiche casuali al codice.

3. Incorporazione dei contenuti in oggetti multimediali: Inserire dati sensibili, come numeri di telefono o email, all'interno di immagini o altri media rende la raccolta dati più complessa per i bot. Questo richiede tecniche avanzate come il riconoscimento ottico dei caratteri (OCR) per estrarre i dati.

4. Monitoraggio dei File di Log: Controllare i file di log per identificare e bloccare user-agent indesiderati.

5. Intervento sul File robots.txt: Utilizzare il file robots.txt per specificare quali parti del sito web possono essere indicizzate e accessibili dai bot. Questo strumento, parte del Robot Exclusion Protocol (REP), permette di escludere specifici bot, come GPTBot di OpenAI o Google-Extended, utilizzati per lo scraping a fini di addestramento dell'intelligenza artificiale.


Limitazioni delle misure tecniche 


- Rispetto Etico: L'efficacia del REP dipende dall'impegno etico dei web scraper, poiché non è uno standard riconosciuto.
- Bot Indipendenti: Alcuni bot, come il CCBot di Common Crawl, raccolgono dati per scopi generali e sono frequentemente utilizzati dagli sviluppatori di intelligenza artificiale.
- Bot Non Dichiarati: Alcuni bot non dichiarano esplicitamente i loro scopi o dettagli tecnici, rendendo difficile il loro monitoraggio e controllo.

 
web scraping conclusioni
 

Conclusioni sul web scraping



Nonostante le limitazioni, queste tecniche rappresentano un valido approccio per mitigare l'attività di web scraping. Combinando diverse strategie, è possibile creare una barriera efficace contro l'automatizzazione non autorizzata della raccolta dati, contribuendo a una maggiore protezione dei dati personali.

Team LegalBlink