• Non ci sono risultati.

Criticità e rischi derivanti dai Big Data

IMPORTANZA DEI BIG DATA

2.4 Criticità e rischi derivanti dai Big Data

I Big Data non offrono solo grandi opportunità e vantaggi, esistono infatti varie criticità che rischiano di compromettere i benefici promessi.

Andiamo ad osservare alcuni aspetti per valutarne i rischi derivanti qualora non venissero gestiti nel modo più opportuno.

39

2.4.1 La qualità

Il primo aspetto da analizzare è la qualità dei Big Data.

Vediamo di definire inizialmente che cosa intendiamo per qualità dei dati; definizioni valide a livello generale.

La qualità dei dati è il risultato di un insieme di caratteristiche, che elencheremo di seguito (Rezzani, 2013).

Completezza: la presenza di tutte le informazioni necessarie per descrivere una transazione, un evento, un'entità. Ad esempio, sarà un problema la mancanza di valori nei campi anagrafici, rendendo l'anagrafica incompleta.

Consistenza: ovvero, l'assenza di contraddizioni nei dati, ed è legata al concetto di equivalenza dei dati. Per esempio in una banca, le rilevazioni dei saldi e dei movimenti saranno consistenti se la somma del saldo di fine mese precedente, di un conto corrente con i movimenti attivi e passivi, sarà uguale al saldo di fine mese corrente.

Accuratezza: consiste nella conformità dei valori reali, ovvero la correttezza dei valori stessi.

Assenza di duplicazione: campi, valori o tabelle devono essere presenti una volta sola, evitando ripetizioni nello stesso sistema o in sistemi diversi.

Integrità: database relazionali garantiscono, attraverso strumenti particolari, che i dati rispettino alcuni vincoli. Per esempio che in una colonna vi siano soltanto dati dello stesso tipo (numerici, alfabetici, dati e così via); oppure che non esistano due righe uguali all'interno di una tabella.

Spesso in azienda la qualità complessiva dei dati non è elevata a causa di (Rezzani, 2013):

40

 errori nelle operazioni di data entry manuale;  errori nei software di gestione dei dati;  errori di progettazione delle basi dati.

La qualità dei dati deve essere controllata e verifica costantemente, e tale processo di data quality deve rilasciare come output quali sono i dati con i livelli di completezza, consistenza, accuratezza e integrità ritenuti accessibili e quelli da migliorare.

Se basiamo le nostre analisi, e conseguentemente, i nostri processi decisionali, su dati di scarsa qualità, i risultati saranno inevitabilmente di scarsa qualità: rischiando di prendere decisioni inappropriate o addirittura del tutto errare.

Trasferendo questi concetti nel campo dei Big Data, possiamo distinguere tre tipi di dati, ciascuno con differenti problematiche qualitative (Rezzani, 2013).

Dati proveniente da sistemi operazionali: si tratta del caso di sistemi legati, ad esempio, al mondo della finanza o alla grande distribuzione, dove si producono una vasta quantità di dati. I problemi di qualità riscontrabili in questi sistemi sono conosciuti e quindi sarà relativamente semplice adoperare i vari strumenti per la "pulizia" e il controllo dei dati. Strumenti utilizzabili anche quando il volume dei dati è molto elevato.

Dati provenienti da sensori, "RFID" e strumenti scientifici: questi tipi di dati vengono generati automaticamente da macchine; perciò, è ovvio che non sono soggetti a errori di immissione. Tuttavia, possono verificarsi problemi di qualità dei dati quando si riscontrano difetti nei sensori o negli strumenti di misurazione. Da ricordare che dati di questo genere sono semplici serie storiche e quindi spesso devono essere integrati con dati provenienti da altri sistemi al fine di avviare delle analisi.

Dati provenienti dal Web: si tratta del caso dei dati provenienti dai social network, che si presentano in forma semi-strutturata. Esclusi i metadati,

41

che in genere costituiscono la porzione strutturata e quindi più affidabili e completi, il testo invece, è spesso soggetto a errori e imprecisioni. Basti pensare, per esempio, ai post, ai commenti o ai tweet, contenenti errori di battitura, errori grammaticali, ma anche abbreviazioni e modi di dire. Altre complicazioni riguardano la categorizzazione delle informazioni; infatti spesso possiamo incontrare parole che possiedono significati diversi rendendo difficile l'interpretazione. Ad esempio, la parola "cucina" può riferirsi sia all'arte culinaria ma anche ai mobili e gli elettrodomestici presenti nell'abitazione.

Mentre, alle volte il lavoro è reso più semplice quando i dati sono "etichettati" con dei cosiddetti tag, poiché da essi è possibile ricavare l'ambito di pertinenza. Tuttavia bisogna fare attenzione a non farci condizionare dall'assoluta ricerca di qualità, perché spesso, soprattutto nei dati provenienti dal Web, queste analisi non è detto che richiedano l'esattezza e la precisione che normalmente si osservano. Infatti, l'analisi del sentiment relativa ad un'azienda, a un prodotto o ad un personaggio politico non sarò sicuramente inficiata da qualche valore anomalo o da qualche commento e post non pertinente. Anzi bisogna precisare che in questo tipo di analisi, l'applicazione di regole di pulizia dei dati potrebbe eliminare informazioni ed elementi potenzialmente utili (Rezzani, 2013).

2.4.2 La privacy

Quando iniziamo ad addentrarci nel mondo dei Big Data, e quindi delle grandi quantità di dati su comportamenti e abitudini delle persone, è doveroso non trascurare i problemi legati alla privacy, alla proprietà dei dati e, conseguentemente, all'autorizzazione del loro utilizzo da parte di terzi. È stato già affrontato brevemente questo concetto, quando si è parlato del caso di Target e l’erronea se pur efficace operazione strategica.

42

Per quanto riguarda lo user-genereted content proveniente dal Web, il fatto che offra moltissime informazione e che, inoltre, siano accessibili a tutti, non significa che sia altrettanto etico utilizzarle (Rezzani, 2013).

Dai social network è possibile estrarre informazioni sensibili come orientamento politico o religioso degli utenti che potrebbero essere utilizzati in modo inappropriato e discriminatorio. Un esempio molto chiaro è la localizzazione geografica degli individui e dei loro spostamenti. Come abbiamo discusso in precedenza, è praticamente impossibile non lasciare tracce digitali del proprio passaggio: tramite l'utilizzo degli smartphone, dotati di GPS e sistemi elettronici di pagamento, le aziende riescono a monitorare gli spostamenti di una persona (Rezzani, 2013).

Perciò le informazioni ci sono, sono molte e spesso relativamente facili da acquisire, adesso il fatto sta nel saperle utilizzare nel modo più opportuno e nel rispetto degli interessati. Se mal gestite queste informazioni possono recare danni sia agli utenti sia alle aziende che li hanno elaborati.

Osserviamo adesso più nel dettaglio quali sono i sistemi che consentono la memorizzazione e l'analisi di queste grandi quantità di dati.

Documenti correlati