• Non ci sono risultati.

Rivista trimestrale Anno II N. 1 / gennaio 2022 In copertina fotografia di Armando Galli Cacciatore di attimi. N. 1 - gennaio 2022

N/A
N/A
Protected

Academic year: 2022

Condividi "Rivista trimestrale Anno II N. 1 / gennaio 2022 In copertina fotografia di Armando Galli Cacciatore di attimi. N. 1 - gennaio 2022"

Copied!
7
0
0

Testo completo

(1)
(2)

Rivista registrata: Tribunale di Bologna 22.07.2021, n. 8572 ISSN: 2785-0854

© Copyright 2022 Filodiritto filodiritto.com

inFOROmatica S.r.l., Via Castiglione, 81, 40124 Bologna inforomatica.it

tel. 051 9843125 - fax 051 9843529 - commerciale@filodiritto.com Progetto fotografico di © Armando Galli – Cacciatore di attimi

La traduzione, l’adattamento totale o parziale, la riproduzione con qualsiasi mezzo (compresi i film, i microfilm, le fotocopie), nonché la memorizzazione elettronica, sono riservati per tutti i paesi. Le fotocopie per uso personale del lettore possono essere effettuate nei limiti del 15% di ciascun volume dietro pagamento alla SIAE del compenso previsto dall’art. 68, commi 4 e 5, della legge 22 aprile 1941, n. 633. Le fotocopie utilizzate per finalità di carattere professionale, economico o commerciale, o comunque per esigenze diverse da quella personale, potranno essere effettuate solo a seguito di espressa autorizzazione rilasciata da CLEARedi, Centro Licenze e Autorizzazione per le Riproduzioni Editoriali, Corso di Porta Romana, 108 - 20122 Milano.

e-mail: autorizzazioni@clearedi.org, sito web: www.clearedi.org

(3)

DIRETTORE RESPONSABILE Antonio Zama DIRETTORE SCIENTIFICO Ranieri Razzante

COMITATO DI DIREZIONE Carlo Fiorio, Ranieri Razzante, Antonio Uricchio, Antonio Zama

COMITATO SCIENTIFICO Pasquale Angelosanto, Roberto Cappitelli, Maria Vittoria De Simone, Massimiliano Ferrara, Lucilla Gatt, Antonio Laudati, Giuseppe Leotta, Giuseppe Lombardo, Catello Maresca, Laura Martucci, Vincenzo Molinese, Alberto Pagani, Nicolò Pollari, Annita Larissa Sciacovelli, Roberto Sgalla, Filippo Spiezia, Nicola Triggiani, Camillo Verde

COMITATO DI REDAZIONE Federica Colazzo, Alessandro Cristallini, Andrea Mattarella, Marta Patacchiola, Costanza Pestarino, Silvia Sticca, Francesca Romana Tubili

© Armando Galli – Cacciatore di attimi

(Basilica di San Pietro Maggiore in San Francesco - Ravenna)

(4)

La minaccia del fenomeno di Scraping

The threat of the Scraping phenomenon

di Ranieri Razzante

ABSTRACT

Lo “scraping” è genericamente inteso come una raccolta dati che viene realizzata sulla base di un’automazione non autorizzata allo scopo di estrarre dati da un sito web o da un’applicazione. Più in particolare, la raccolta può avvenire per mezzo di estensioni o di software che simulano la navigazione effettuata da utenti reali, al fine di filtrare e acquisire in- formazioni, dunque dati, che non sempre sono di dominio pubblico. Le informazioni acquisite in forma non autorizzata possono essere oggetto di successiva elaborazione, anche al fine di co- stituire un database strutturato, e possono senz’altro avere natura di dato personale, fino a con- sentire la creazione di specifici profili personali.

“Scraping” is generally understood as a data collection that is carried out on the basis of unauthorized automation in order to extract data from a website or application. More specifically, the collection can take place by means of extensions or software that simulate the navigation carried out by real users, in order to filter and acquire information, therefore data, which are not always in the public domain. The information acquired in an unauthorized form can be subject to subsequent processing, also in order to establish a structured database, and can certainly be of the nature of personal data, up to allowing the creation of specific personal profiles.

Sommario

1. Screen scraping and web scraping 2. Profili di illiceità del data scraping

3. La posizione del Garante privacy sul data scraping 4. Consigli per proprietari e costruttori di siti web 5. Uno sguardo al futuro

Summary

1. Screen scraping and web scraping 2. Profiles of illegality of data scraping

3. The position of the Privacy Guarantor on data scraping 4. Advice for website owners and builders

5. A look to the future

1. Screen scraping and web scraping Il data scraping (raschiatura di dati) è essen- zialmente un modo di trasferire i dati da un sistema all’altro, ma differisce dai metodi di trasferimento di dati più convenzionali. La differenza principale è nell’uscita. I dati “ra- schiati” non servono come input per un altro programma informatico, ma sono destinati alla visualizzazione per l’utente finale. La

raschiatura dei dati è quindi una tecnica mol- to grezza che viene utilizzata solo quando non c’è altro modo per estrarre i dati da un sistema, come un sistema operativo che non è più compatibile con l’hardware moderno.

L’output è spesso molto destrutturato perché cose come la formattazione, dati binari e altre informazioni aggiuntive non vengono trasferiti. Questo può anche causare

(5)

l’arresto dei programmi durante lo scraping dei dati.

Ci sono diverse varianti tecniche all’interno della raschiatura dei dati. La forma più anti- ca è lo “screen scraping” (raschiatura dello schermo). Con tale tecnica, uno strumento speciale è collegato a un sistema informatico obsoleto. Lo strumento di raschiatura finge di essere un utente e simula i comandi chia- ve per navigare attraverso l’interfaccia di sistema. Lo strumento estrae quindi i dati dal sistema e li trasmette al nuovo sistema.

Questo metodo di lavoro ha ispirato stru- menti di automazione più moderni che fun- zionano sulla stessa base.

Oltre alla schermatura, vi è anche il “web scraping” che viene utilizzato per estrarre i dati dalle pagine web. Questa tecnica è una particolare tecnica di crawling. Un crawler – chiamato anche bot o spider – è un software che ha lo scopo di raccogliere tutte le infor- mazioni necessarie per indicizzare in modo automatico le pagine di un sito, analizzare i collegamenti ipertestuali e trovare associa- zioni tra termini di ricerca e classificarli. È largamente usato da tutti i motori di ricerca, a cominciare da Google, per offrire agli uten- ti risultati sempre aggiornati. Il web scraping serve a estrarre dati dalle pagine web per poi raccoglierli in database o tabelle locali per analizzarli. Si tratta di un sistema in gra- do di estrapolare una grande varietà di in- formazioni: dati di contatto, indirizzi di posta elettronica, numeri di telefono, così come singoli termini di ricerca o URL.

Vengono utilizzati due metodi per fare web scraping. Esiste lo scraping manuale, che consiste in un processo di copia e incolla di singole informazioni, utilizzato quando si desidera trovare e memorizzare informazioni mirate, raramente impiegato per grandi quantità di dati a causa dei lunghi tempi di recupero e catalogazione. Di più larga diffu- sione è invece lo scraping automatico realiz- zato attraverso l’uso di software – come Zoominfo, Octoparse e Hunter.io – o di un algoritmo che scansiona più pagine web.

2. Profili di illiceità del data scraping Il web scraping assume oggi un ruolo inso- stituibile per identificare tendenze ed effet- tuare indagini statistiche sull’uso di prodotti e servizi, azioni alla base del marketing digita- le, nonché per acquisire un vantaggio con- correnziale.

In linea teorica, l’implementazione e la diffu- sione di strumenti automatizzati come quelli descritti non risultano di per sé una pratica illegale, ma possono verificarsi usi illeciti.

Per focalizzare in che occasione si versa in una condotta illecita, occorre chiarire che lo scraping può avere ad oggetto dati personali oppure informazioni di natura non personale.

Nel primo caso, considerato che già il solo accesso al dato costituisce ai sensi dell’art. 4 n. 2 del GDPR un trattamento di dati perso- nali, è necessario che detto trattamento av- venga nel rispetto della normativa vigente:

questo si traduce nell’obbligo di prestare idonea informativa su finalità e modalità del trattamento nei confronti degli interessati, nella quale dovrà essere indicata, tra le altre cose, la base giuridica del trattamento.

Pertanto, in primo luogo, è necessario che gli utenti vengano resi edotti sulle modalità di utilizzo dei propri dati; dopodiché, nel ca- so in cui la base giuridica non possa essere alternativa al consenso, sarà necessario ot- tenere l’autorizzazione al trattamento da par- te di ciascun singolo.

L’utilizzo di tecniche di scraping per la rea- lizzazione di scopi commerciali o addirittura di profilazione si rappresenta, quindi, illecito se effettuato in assenza di un valido con- senso.

Spesso il ricorso al sistema automatizzato di scraping mira ad aggirare l’ostacolo della cessione di dati tra titolari autonomi del trat- tamento, condizionata alla garanzia da parte del cedente di aver fornito adeguata infor- mativa e di aver ottenuto il consenso alla comunicazione a terzi.

Ciò detto sull’evidente frizione con la norma- tiva privacy di alcune tecniche di scraping, come si è avuto modo di osservare nei pre- cedenti citati, in realtà il data scraping è po-

(6)

tenzialmente idoneo ad integrare una com- portamento illecito quando si traduce nell’accesso non autorizzato ed indiscrimina- to al database altrui: la possibilità di accede- re, e pertanto trasferire, informazioni di tipo commerciale, know-how, segreti industriali ed altri dati a valore aggiunto si traduce evi- dentemente in una violazione di confidenzia- lità, se non addirittura di diritti autorali, che oltre ad integrare un danno economico per l’attività del soggetto proprietario potrebbe comportare un pregiudizio reputazionale non indifferente in caso di rivelazione di informa- zioni “scomode”.

3. La posizione del Garante privacy sul data scraping

L’argomento dello scraping di dati personali è stato affrontato anche dall’Autorità di con- trollo. Con il provvedimento n. 4 del 14 gen- naio 2016, il Garante per la protezione dei dati personali si è opposto all’utilizzo di soft- ware in grado di reperire “in maniera siste- matica e indiscriminata” dati e informazioni per realizzare elenchi telefonici1.

Nel caso giunto innanzi al Garante, una so- cietà gestiva un sito in cui aggregava e ren- deva disponibili i numeri di telefonia fissa e altri dati personali raccolti in maniera auto- matica e sistematica attraverso script impo- stati in modo tale da raccogliere qualsiasi informazione pubblicata su fonti web acces- sibili a tutti, per poi metterla a disposizione degli utenti del sito della società.

In particolare, il Garante ha chiarito che la finalità di raccolta in forma di elenco può es- sere perseguita attraverso l’utilizzo del data base unico (d.b.u.), l’archivio elettronico che raccoglie numeri di telefono e altri dati dei clienti di tutti gli operatori nazionali di telefo- nia fissa e mobile. In alternativa, sarà ne- cessario, previo rilascio di idonea informativa, acquisire il consenso libero, informato, spe-

1 Elenchi telefonici on line e “ricerca inversa”: illegitti- mi se la fonte non è il d.b.u. – 14 gennaio 2016 [6053915]:

https://www.garanteprivacy.it/web/guest/home/docwe b/-/docweb-display/docweb/6053915

cifico per detta finalità che si intende perse- guire. Ancora, con il provvedimento in mate- ria di propaganda elettorale e comunicazio- ne politica del 18 aprile 2019, il Garante ha affermato che è necessario ottenere il con- senso informato degli interessati per poter utilizzare recapiti telefonici contenuti in elen- chi pubblici e quindi per creare liste, effettua- re chiamate o inviare sms e mail a scopi propagandistici.

Il riferimento andava anche ai dati reperibili sul web come, ad esempio, quelli presenti nei profili dei social network, quelli ricavati da forum e blog, i dati pubblicati su siti web per specifiche finalità di informazione azien- dale, commerciale o associative, fino ai dati raccolti automaticamente con appositi soft- ware di scraping.

4. Consigli per proprietari e costruttori di siti web

È necessario tenere a mente che tutto ciò che è visibile e accessibile sul tuo sito web per i visitatori umani è possibilmente visibile anche per scrapingbots. Ci sono anche al- cuni trucchi tecnici che possono essere ap- plicati per proteggere il contenuto. Tuttavia, questi trucchi spesso hanno i loro limiti.

Spesso è possibile riconoscere un tentativo di raschiatura da un elevato numero di ri- chieste inviate al sito web da un singolo indi- rizzo IP (da non confondere con un attacco Ddos, che si basa anche su questa tecnica).

È quindi possibile escludere l’indirizzo IP sospetto. In altri casi, bloccare i contenuti con i dettagli di accesso può andare un lun- go cammino. Il raschietto deve poi esporre un pezzo di sé stesso per ottenere l’accesso al contenuto. Cambiare regolarmente il vo- stro HTML può confondere i raschietti a tal punto che raschiare altrove. Il rovescio della medaglia di questo è che questo approccio può anche portare a confusione tra i propri sviluppatori web. L’uso di CAPTCHA o un sacco di file multimediali può anche scorag- giare tentativi di raschiatura da individui om- brosi. I bot sono a volte codificati per rompe- re esplicitamente specifici modelli CAPTCHA

(7)

o possono utilizzare servizi di terze parti che utilizzano il lavoro umano per leggere e ri- spondere in tempo reale alle sfide CAP- TCHA. Sul lato legale: le aziende devono agire contro i raschiatori di dati e metterli in guardia contro il processo. Questo può esse- re incluso nei termini di servizio. Natural- mente questo non fa nulla contro la raschia- tura da solo, ma può essere utilizzato duran- te le cause.

5. Uno sguardo al futuro

Diversi attori sfruttano bot web scraping, tra cui concorrenti nefasti, upstarts di Internet, criminali informatici, hacker e spammer, per rubare senza sforzo qualsiasi pezzo di con- tenuto sono programmati per trovare, e spesso imitare il comportamento degli utenti regolari, rendendoli difficili da individuare e ancora più difficili da bloccare. Il web scra- ping rappresenta una sfida critica per il mar- chio di un sito web, può minacciare le vendi- te e le conversioni, abbassare la classifica SEO o minare l’integrità dei contenuti che richiedono tempo e risorse per essere pro- dotti. Ma c’è anche un problema più grande dietro che si trova nella crescita dei tentativi di phishing o attacchi ransomware che po- trebbero essere basati sui dati rubati e ra- schiati degli utenti del sito web attaccato.

Questo è il motivo per cui webdesigner e aziende di social media dovrebbero pensare due volte a utilizzare le azioni necessarie contro questo tipo di attacchi in futuro. Com- prendere la natura intrusiva del pericolo di raschiatura web di oggi non solo aumenta la consapevolezza su questa sfida crescente, ma permette anche ai proprietari di siti web di agire nella protezione del loro proprietario e la privacy dei loro utenti.

© Armando Galli – Cacciatore di attimi

Riferimenti

Documenti correlati

Rivolgetevi al vostro concessionario Honda che conosce perfettamente tutta la gamma dei modelli Honda e saprà consigliarvi con competenza sul modello e sulla formula di leasing

Nel “Secondo Parere” sulla Riforma, i membri del Consiglio Superiore della Magistratura hanno osservato come, ferma restando la na- tura prognostica della valutazione operata nel

Rivolgetevi al vostro concessionario Honda che conosce perfettamente tutta la gamma dei modelli Honda e saprà consigliarvi con competenza sul modello e sulla formula di leasing

Rivolgetevi al vostro concessionario Honda che conosce perfettamente tutta la gamma dei modelli Honda e saprà consigliarvi con competenza sul modello e sulla formula di leasing

“Battaglione Carabinieri paracadutisti, avuto il delicato compito di proteggere unità in movimento su nuove posizioni, sosteneva per una intera giornata ripetuti attacchi

Staffa per applicazione a sporgere, montaggio orizzontale Bracket for outward application, horizontal junction Staffa sporgere in metallo h.14 mm Ø4 mm (serie Outward bracket in

VISTA la legge 23 dicembre 1978, n. 833, recante “Istituzione del servizio sanitario nazionale” e, in particolare, l’articolo 32 in base al quale si dispone che

RV1 - 5 Il sistema deve mettere a disposizione un endpoint REST per l’avvio della procedura completa di scraping dal catasto, dati ragione sociale ed indice nella lista ordinata