• Non ci sono risultati.

Dai piccoli dati ai grandi dati

Nel documento Enciclopedia dei dati digitali (pagine 38-45)

Da lungo tempo l’umanità ha usato i dati analogici per le proprie attività; in molte circostanze, i dati disponibili erano tutto ciò che serviva per agire e per decidere, insomma, perdonate la espressione colloquiale, le persone se li facevano bastare. Gli agricoltori sapevano che il sole sorge e tramonta in diversi momenti della giornata a seconda delle stagioni, e per sapere l’ora del giorno consultavano una meridiana posta sul muro di una chiesa o di un edificio del paese, vedi Figura 33.

Figura 33 – Una meridiana

Per molto tempo, i dati disponibili per affrontare un problema erano pochi. Pensiamo alla quantità enorme di dati che nel 2020 e nel periodo successivo sono stati raccolti e analizzati per comprendere e combattere il virus Covid-19 e alla ricerca che si è potuta sviluppare da allora; quando all’inizio del ventesimo secolo l’umanità fu colpita dalla epidemia nota come spagnola, si riuscì solo a produrre poche tavole riassuntive del fenomeno, perché le tecnologie del tempo, come il telefono o il telegrafo, non permettevano di raccogliere e trasmettere dati con adeguato livello di estensione e aggiornamento.

Nonostante la penuria di dati, però, si ottennero risultati scientifici con scoperte straordinarie, e in diverse circostanze si riuscì a risolvere problemi anche con i pochi dati che si potevano rilevare.

Nel 1854 Londra fu colpita da una epidemia di colera veramente devastante. Un medico, John Snow, si mise alla ricerca delle cause dell'epidemia, e a tal fine elaborò una piantina di Londra con la diffusione dei casi nei diversi periodi. Diamo adesso una versione delle scoperte di Snow ispirata a quanto compare nella voce di Wikipedia dedicata a Snow e sul sito

https://www.ph.ucla.edu/epi/snow/snowcricketarticle.html.

Inizialmente Snow concentrò la sua attenzione su una strada dove c’erano state molte morti di colera, Broad Street. In Figura 34, che rappresenta una parte di Broad Street, ogni lineetta nera rappresenta un morto, ed è posta in corrispondenza della casa dove abitava la persona deceduta. Il cerchietto rosso rappresenta una pompa dell’acqua. Notate niente di particolare?

39

Figura 34 – Le prime osservazioni di John Snow sulla epidemia di colera del 1854

Non so voi, ma Snow notò che un alto numero di morti si verificava in vicinanza di una pompa dell’acqua. Naturalmente un solo dato non crea una relazione di causa ed effetto, ma permise di formulare una ipotesi, e cioè che ci fosse un legame tra la diffusione della epidemia e l’erogazione dell’acqua nel quartiere.

Snow si procurò mappe della rete delle strade del quartiere di Soho, dove era situata Broad Steeet. Si procurò i dati sulle persone decedute nella intera area, e i dati sulla collocazione delle pompe dell’acqua. E costruì una nuova mappa come quella mostrata nella parte sinistra della Figura 35.

Figura 35 – Con pochi dati Snow capì la causa della epidemia di colera nel 1854 a Londra

Nella mappa è rappresentata con un cerchietto rosso la pompa che abbiamo già visto nella Figura 34, mentre è cerchiata in blu una pompa dell’acqua erogata da un’altra compagnia. Snow contò in modo sistematico le morti verificatesi nel tempo in edifici vicini alle pompe delle diverse compagnie, ottenendo statistiche mostrate in Figura 35, in cui i morti per 100.000 abitanti che abitavano in case vicine alle pompe della compagnia Southwark erano decisamente superiori a quelli associabili alle altre compagnie. Era l’acqua erogata da Southwark a portare il colera.

Per lungo tempo, dunque, i dati a disposizione per agire, per diagnosticare, per decidere, per prevedere, sono stati pochi. Ai nostri giorni, con l’avvento delle grandi tecnologie mostrate in Figura 17, i dati digitalizzati a noi disponibili stanno crescendo ad un ritmo tumultuoso. Possiamo inquadrare questa espansione continua dei dati secondo uno spazio a tra dimensioni, mostrato in Figura 36, in cui abbiamo collocato due degli esempi descritti in precedenza. Le dimensioni riguardano:

40

1. L’ampiezza nella rappresentazione della realtà osservata, intesa come la vastità spaziale dei fenomeni osservati; nel nostro caso il giudice sta interpretando la scheda elettorale di un elettore residente in Florida, e la cartina fotografa la situazione dei decessi in una strada di Londra.

2. La profondità nella rappresentazione della realtà osservata, intesa come vastità delle caratteristiche osservate dei fenomeni; per caratteristica intendiamo i tipi di dati con cui descriviamo i fenomeni. Nel nostro caso, oltre a osservare il voto (prima caratteristica delle persone votanti) e registrare lo stato (seconda caratteristica) in cui è stato espresso il voto, potremmo conservare anche la contea (terza caratteristica) e magari correlare i voti con le caratteristiche sociali della popolazione nelle varie contee. Riguardo a Snow, oltre che i decessi e le pompe di benzina, fu decisivo che Snow acquisisse anche le informazioni sulle compagnie che erogavano acqua dalle diverse pompe.

Figura 36 – Lo spazio dei dati

3. il tempo in cui i dati vengono generati; nel nostro caso, i voti scrutinati arrivarono nel corso di diversi giorni, e Snow estese i suoi conteggi per tutto il periodo della epidemia.

Ampiezza della rappresentazione, profondità della rappresentazione e tempo sono le tre coordinate che possono essere associate ai dati digitali, e secondo cui si espandono i dati digitali. Queste tre coordinate sono così importanti che per capirle bene vorrei fare altri esempi.

Riguardo alla ampiezza della rappresentazione, una delle più antiche mappe del mondo (vedi Figura 37) è quella di Ecateo ed è databile al 520 avanti Cristo. Il centro della mappa è il Mediterraneo, e dei paesi affacciati al grande mare vengono rappresentati pochi caratteri territoriali, la forma della costa, alcuni fiumi, alcune catene montuose.

Ai giorni nostri, i satelliti Landsat permettono di rappresentare aree della superficie terrestre di 30 metri per 30 metri, fornendo quindi rappresentazioni molto più grandi in ampiezza.

Ampiezza nella rappresentazione della realtà osservata

Tempo

Profondità nella rappresentazione della realtà osservata

Un giudice della Florida che osserva una scheda

Persone morte di colera nel 1854, misurate un certo giorno a Broad Street, Londra

41

Figura 37 – Le mappe del mondo

Questo permette di effettuare il monitoraggio ambientale del territorio, elaborare modelli metereologici molto più precisi che nel passato, monitorare tornadi e inondazioni, pianificare l’uso dei terreni per le colture.

Riguardo alla profondità della rappresentazione, la tecnologia dell’Internet delle cose sta portando alla installazione di miliardi di sensori su dispositivi, apparecchiature, impianti e sistemi, materiali e prodotti tangibili, infrastrutture e beni, macchine e attrezzature. Gli oggetti fisici possono essere, a titolo di esempio, le catene produttive, gli elettrodomestici, le automobili, i pneumatici (vedi Figura 38), le scarpe da corsa, i palloni nel gioco del calcio e le racchette nel gioco del tennis, e così via. Le funzioni rese possibili sono la identificazione, la connessione, la localizzazione, in generale, la capacità di interagire con l’ambiente esterno.

Figura 38 – I pneumatici intelligenti

Quanto alla evoluzione nel tempo, i dati prodotti da tutte le precedenti tecnologie possono essere seguiti nel tempo per fornire informazioni sui cambiamenti nella vita e stato di salute delle persone, nel territorio, negli oggetti, nei materiali. Se un sensore posto in un pneumatico fornisce un dato istantaneo sulla usura e sulla pressione e aderenza al terreno dei penumatici, il dato nel tempo permette di identificare il momento in cui conviene cambiare pneumatico o montare i penumatici da neve.

Nella Figura 39 compaiono due esempi di dati che cambiano nel tempo relativi al territorio e al traffico aereo. Nel primo, basato su Google Earth, vediamo che è possibile seguire nel tempo il processo di urbanizzazione di Dubai, effettuando una foto del territorio, ad esempio, una volta l’anno; nel secondo, basato su Flight Radar6, possiamo seguire la evoluzione della

6 https://www.flightradar24.com/45.47,9.19/8

Dalla mappa

di Hecateo(520 D.C.) … ai satelliti Landsat

Ampiezza Profondità Tempo Ampiezza Profondità Tempo

42

posizione degli aerei nelle piste di decollo e di atterraggio di un aeroporto, facilitando il controllo delle distanze di sicurezza da parte dei controllori di volo.

Figura 39 – Evoluzione nel tempo

L’esempio di Figura 40 riassume le tre coordinate. L’esempio fa riferimento al genoma umano; fIno a pochi anni fa le informazioni sulla salute e le patologie degli esseri umani si riferivano a esami di laboratorio o esami specialistici come la glicemia, le radiografie, le risonanze magnetiche.

E’ del 2003 l’annuncio del sequenziamento del genoma umano; da allora, i costi connessi con il sequenziamento sono scesi di diversi ordini di grandezza (cioè, potenze di 10), permettendo così di estendere il sequenziamento a genomi di centinaia di migliaia di persone (percorriamo qui l’asse relativo alla ampiezza della realtà osservata).

Figura 40 – Dalle radiografie al genoma umano

Ciò estende in maniera fondamentale rispetto agli esami tradizionali i dati disponibili e le scoperte scientifiche sulla natura del corpo umano e sul suo funzionamento (profondità della realtà osservata), e, inoltre, permette di conoscere e analizzare nel tempo le mutazioni, tematica che tanta importanza ha nel governo della epidemia Covid-19.

Google Earth, Dubai, 1984

FlightRadar, Dubai 11:05:30 4:3:2017

Ampiezza

Profondità

Tempo

1 anno

Google Earth, Dubai, 2015

FlightRadar, Dubai 11:05:35 4:3:2017

1 secondo

Ampiezza della realtà osservata

Tempo

Profondità della realtà osservata Profondità della realtà osservata

Ampiezza della realtà osservata

43

La disponibilità di grandi quantità di dati, l’aumento della potenza di calcolo dei computer e il perfezionamento delle tecniche di apprendimento automatico (tema che sarà discusso nel volume nel Capitolo 10) hanno reso recentemente (dicembre 2020) possibile da parte della azienda Alphamind nuovi fondamentali risultati in tema di ripiegamento delle proteine.

Il ripiegamento delle proteine è il processo fisico mediante il quale una catena proteica costruisce in modo rapido e riproducibile la sua struttura tridimensionale nativa, una conformazione che è biologicamente funzionale, cioè risponde a uno scopo. È quindi il processo fisico mediante il quale una catena di aminoacidi si ripiega nella sua caratteristica e funzionale struttura tridimensionale da una bobina casuale. Questo apre grandi prospettive per la cosiddetta medicina di precisione, che studia la posibilità di immaginare cure specifiche per le singole persone.

Vediamo in Figura 41 i miglioramenti che sono intervenuti nella accuratezza del processo di ripiegamento prodotto dalle tecniche sviluppate negli anni, intendendo per accuratezza la identificazione esatta della forma del ripiegamento.

Figura 41 – La tecnica di Alphafold, da

https://www.economist.com/science-and-technology/2020/11/30/how-do-proteins-fold

Infine, è bene ricordare che i grandi dati fanno riferimento a tutti gli oggetti dell’universo, dall’atomo all’universo delle galassie, vedi Figura 42.

Figura 42 - Dall’Atomo all’Universo https://www.biopills.net/la-struttura-atomo/

44

Una particella subatomica è stimata avere la dimensione di 10-35 metri, mentre una galassia ha la dimensione di 1024 metri, con una differenza di circa 60 ordini di grandezza (lo ricordo, potenze di 10); comprendiamo dunque che con i big data non potrà mai essere raggiunto il sogno dei geografi babilonesi di costruire una mappa in scala 1 a 1 dell’Impero babilonese, sogno descritto nel testo di Jorge Luis Borges, Storia universale dell’infamia (Il Saggiatore, 1961 traduzione di Mario Pasi)!

Riassumendo

L’umanità ha sempre dovuto risolvere problemi per prendere decisioni, per prevedere il

futuro, per comprendere le cause dei fenomeni naturali e sociali, usando dati, prima analogici e poi anche digitali.

Molti problemi possono essere affrontati solo avendo a disposizione tanti dati digitali, perché è necessaria una conoscenza che riguardi tanti fenomeni (ampiezza), tante proprietà dei fenomeni (profondità) e l’evoluzione dei fenomeni nel tempo, le tre dimensioni dei big data. I fenomeni che si possono rappresentare con i dati digitali vanno dalle particelle subatomiche all’ universo.

45

Capitolo 5

Le diverse forme che assumono i dati digitali:

Nel documento Enciclopedia dei dati digitali (pagine 38-45)