La natura della
informazione
statistica
Data Science – Big Data - Datanomics
• I dati «esistono».. Basta andare a cercarli .. E raccoglierli, anzi estrarli. È proprio così?
• I dati sono informazioni? Basta «leggere» i dati per saperli interpretare.. Ma cosa vuol dire leggere e interpretare?
• I dati sono statistiche? Occorre pertanto dirci cosa sono le statistiche e cosa è la statistica
• I dati oggi alimentano e «governano» diversi processi e meccanismi sociali: sia nell’ambito del settore pubblico che del settore privato;
• La digitalizzazione rende ancora più fluido e accelerato il processo di produzione dei dati ampliandone la quantità ma non sempre altrettanto la qualità;
• La diffusione degli «algoritmi» e dei processi di automazione e di Intelligenza Artificiale contribuisce a strutturare processi di trattamento ed elaborazione dei dati: la statistica diventa «machine learning»;
• I dati stessi diventano una «merce» di scambio fondamentale e preziosa,
costituiscono un mercato che si muove tra la normativa di tutela delle riservatezza
L’acquisizione dei dati: raccolti, estratti, prodotti… comune mai
«dati» ma sempre «presi»!
Rilevazioni dirette
• Censimenti
• Indagini
• Sondaggi
• …
Fonti statistiche
• Statistiche ufficiali
• Altri fonti non ufficiali
Dati
Prodotti statisticamente
Riferiti a tutto il collettivo (popolazione)
Riferiti ad una selezione della popolazione:
il campione
Campione selezionato (estratto) con metodo
probabilistico
Campioni ripetuti nel tempo
Campione selezionato in modo
ragionato
Forme miste di campionamento
Autoselezioni Campioni di
convenienza
Raccolti e utilizzati a fini statistici
Aggregati in collettivi trattati come popolazioni o
campioni Non utilizzabili a fini
statistici
«Cattura» delle informazioni
• In modo diretto
• In modo indiretto
Traduzione delle
informazioni
• Formati logici
• Formati numerici e matematici
Conservazione e utilizzo
• Archivi e pubblicazioni
• Archivi elettronici
• Web
dati
casi… Dai
informazioni
…alle variabili
A
B
C
D
F E
M1 M2 … Mk
A B C D E F
• In un’analisi statistica l’interesse per la conoscenza delle unità elementari (i casi o osservazioni ) diventa meno interessante (rimane il valore del «profilo»
ossia delle insieme di misure specifiche della singola informazione)
• per dare spazio all’interesse per la dimensione di analisi rappresentata dalla variabile attraverso
l’informazione che essa offre tramite la distribuzione nelle unità, ognuna delle quali mostra un valore di tale variabile (modalità)
PROFILO DI B rispetto ai valori di ciascuna Mk
Distribuzione di M1 rispetto alle unità
M
1M
2… M
kA B C D
La «matrice dei dati» : oggetto base di ogni analisi statistica
Aumentare il numero di variabili migliorare le informazioni sui casi contribuendo ad una loro più precisa identificazione e classificazione…. Ma…richiede più informazioni…
Aumentare il numero dei casi
contribuisce alla
«consistenza»
del supporto ma induce una maggiore eterogeneità
età altezza … residenza
Anna 19 175 … Palermo
Antonio 19 184 … Palermo
Maria 20 180 .. Trapani
… … … … …
Tullio 20 188 … Agrigento
Veronica 19 185 Alcamo
Vediamo un esempio: se io volessi descrivere per conoscere statisticamente la nostra aula potrei agire nelle due direzioni:
Aumentare il numero di variabili migliora la conoscenza di ogni studente sino (al limite!) ad individuare ciascuno precisamente: ciò spiega per esempio perché in ogni strumento di misura tendiamo ad aumentare il numero delle domande (item).. Ma aumentare le variabili migliora la conoscenza? (teoria della domanda marginale)
Posso scegliere di selezionare un gruppo per conoscere tuti, ma devo chiedermi quanto tale gruppo sia rappresentati vo di tutta la classe…
Consultare tutta la classe tuttavia può essere oneroso (ci vuole molto tempo, devo trovare tutti, costi….)
La conoscenza statistica:
approcci e prospettive di metodo
• Riferimento ad un SUPPORTO aggregato e collettivo, totale o parziale.
• Una volta costituita tale supporto può essere studiato in sé (analisi descrittiva) oppure in relazione ad un referente superiore (universo) identificabile almeno teoricamente (analisi inferenziale o INFERENZA)
• Rappresentazione dei fenomeni nella loro intrinseca eterogeneità o VARIABILITÀ;
• Ricerca di schemi di riduzione della complessità e di SINTESI: esistono diversi percorsi di riduzione sia dal punto di vista della aggregazione delle unità (raggruppamento o classificazione) sia dal punto di vista delle variabili (tecniche fattoriali e studio delle connessioni).
Dati, approccio empirico e metodo scientifico
Informazioni Statistiche
Dati
Conoscenza Scientifica
Modellazione &
Misurazione
Evidenza empirica
Il pensiero statistico:
Melchiorre Gioia e la filosofia della Statistica
La filosofia della
statistica è la cognizione ragionata delle norme generali per ricercare, delle fonti a cui
attingere, de’ sintomi per riconoscere, de’
È la «cognizione ragionata delle norme generali per ricercare»
• La statistica è una scienza che ha un metodo (anzi ne ha tantissimi)…
non è un metodo.
• L’esigenza di conoscere statisticamente è antica: i censimenti dei sumeri e degli egiziani. In principio era «il contare»…
• Essa si fonda sul bisogno di descrivere qualità e quantità di universi e popolazioni, ossia di avere una visione aggregata dei fenomeni.
• L’utilizzo di collettivi statistici induce una ricerca di sintesi adeguate che
forniscano tendenze e comportamenti medi: lo sviluppo del metodo scientifico e l’empirismo positivista hanno dato un grande impulso a tale approccio basato sulla ricorrenza (incidenza, frequenza) di fatti e fenomeni fisici o sociali. Le
«regolarità empiriche» assumono un valore «morale».
…delle fonti a cui attingere…
• La Statistica ha una finalità conoscitiva, di organizzazione di dati e
informazioni la cui veridicità dipende dal «soggetto» che le produce, le detiene, le diffonde o pubblica:
• Per questo nel tempo la funzione statistica è un importante compito degli Stati, particolarmente di quelli moderni dove nascono sistemi democratici e
repubblicani, laddove il potere viene dal popolo e non dalla divinità.
• Un processo di progressiva integrazione e armonizzazione: i sistemi statistici.
…de’ principi per giudicare…
• La statistica offre supporti informativi (campioni, indicatori, rapporti o indici…) per valutare ossia esprimere un giudizio su ipotesi
(teoriche) da validare empiricamente sui dati
• La statistica da descrittiva diviene inferenziale, utilizza la matematica e la probabilità come linguaggio formale che aiuta progressivamente la statistica alla luce del metodo scientifico (il disegno sperimentale)
• La statistica è supporto della valutazione: dello sviluppo economico, dei problemi sociali, delle politiche pubbliche…
…degli usi a cui servono gli elementi allo stato delle nazioni.
• La statistica è utile, serve ad agire con consapevolezza: nella vita quotidiana, nella formazione del consenso elettorale, nelle scelte
aziendali dell’impresa, nelle previsioni degli scenari macro economici dei governi.
• La connessione tra statistica e «prosperità pubblica» (Gioia parla di
«incivilimento») che oggi chiamiamo in tanti modi «progresso»
«sviluppo sostenibile» «benessere»…
Dati primari e dati secondari
• I dati statistici se sono rilevati direttamente e specificatamente vengono detti primari, altrimenti sono detti secondari.
• I dati secondari sono rilevati da soggetti professionalmente
riconosciuti possono essere ufficiali o non ufficiali a seconda che derivino da fonti statistiche istituzionalmente dedicata alla
produzione di statistiche pubbliche: i sistemi della statistica ufficiale (in Italia il SISTAN e l’ISTAT).
In sintesi: La rilevazione dei dati statistici
• I dati sono «prodotti»: lo schema di progettazione di una rilevazione viene detto «disegno» e riguarda i seguenti punti:
• Oggetto della rilevazione: cosa vogliamo conoscere attraverso i dati
• Identificazione del collettivo e delle unità di rilevazioni (unità statistiche)
• Adozione di uno strumento di misura e delle modalità di rilevazione
• Organizzazione della rilevazione ed eventuale formazione dei rilevatori
• Raccolta dei dati e controllo di qualità (presenza di errori c.d. non campionari)
Dati strutturati o non strutturati
• Nella società dell’informazione, i dati a nostra disposizione sono cresciuti per qualità e quantità.
• Si parla di Big Data, facendo riferimento a dati che hanno un enorme volume (tantissime osservazioni), una grande varietà (tantissime dimensioni o
variabili), facilmente reperibili e accessibili ossia disponibili ad una grande velocità e aderenti alla realtà secondo un alto gradi accuratezza e veridicità.
• Ci sono tanti tipi di dati che emergono da processi sociali o procedure
amministrative che sono detti non strutturati (immagini, foto, informazioni su opinioni o gradimenti tratte dai social…) .
• I dati strutturati sono invece caratterizzati per la loro organizzazione statistica e per il loro corredo di meta-informazione (definizioni, classificazioni,
elaborazioni).
Dati accessibili o «aperti» (Open data)
• Uno dei requisiti importanti della qualità di un dato è la sua facile reperibilità o accessibilità.
• La diffusione del web ha moltiplicato notevolmente questa possibilità, pertanto si è definito il concetto di «dato aperto» commisurato
all’attitudine del dato di essere facilmente reperibile e trasferibile.
• Soprattutto nell’abito delle pubbliche amministrazioni si è diffusa questa pratica di fornire dati accessibili a tutti per un esercizio più universale e
Tecnologie digitali, informatica e statistica
• Lo sviluppo delle tecnologie informatiche nell’era digitale ha accresciuto la dotazione di informazioni.
• In questo tempo – definito da alcuni come «diluvio informazionale» – il problema non è disporre di dati ma avere «criteri» per la loro selezione e interpretazione.
• La statistica diventa ancora più rilevante nella fase di analisi ed
elaborazione, nello studio delle connessioni e relazioni nonché dei
modelli che permettono di estrarre informazione, identificando nessi di causalità dalla variabilità congiunta di numerose variabili.
• Il trattamento della variabilità statistica è l’oggetto della statistica moderna.
Dalle statistiche ai Sistemi di Statistica:
l’offerta diventa “globale
• Armonizzazione e Integrazione per favorire comparabilità
• Sistemi ufficiali per assicurare continuità, tempestività e attendibilità
• Comunità scientifiche per verificare rigore, rilevanza, accuratezza e robustezza.
• La rivoluzione informatica e quella digitale per accessibilità e disponibilità.
Qualità dei dati: principi e dimensioni
• Quality of statistics is defined by Eurostat with reference to the following six criteria:
1. Relevance;
2. Accuracy;
3. timeliness and punctuality;
4. accessibility and clarity;
5. Comparability;
6. Coherence.
Collezioni di dati
• Matrici di dati
• Array ossia matrici multidimensionali (tre o più dimensioni)
• Sistemi informativi statistici (dati e metadati insieme)
• OLAP (On-Line Analytical Processing)
La Meta-Informazione
• Metadati ovvero informazioni o attributi che descrivono i dati per facilitarne l’individuazione e la comprensione
• Esempio: gli indici di catalogazione di una biblioteca.
• Definizioni è GLOSSARIO
• Classificazioni
• Metodi
https://www.istat.it/it/metodi-e-strumenti
Il sistema dell’informazione statistica
• Un sistema di collegamento tra soggetti produttori, in una logica di coordinamento amministrativo, ma anche scientifico e metodologico: il SISTAN
• Il portale Istat https://www.istat.it/it/
• L’organizzazione della statistica ufficiale a livello internazionale
• https://www.unric.org/it/informazioni-generali-sullonu/34
• https://ec.europa.eu/eurostat/web/links/international-organisations
• Il sistema comunitario: Eurostat
• https://ec.europa.eu/eurostat/web/european-statistical-system/overview
Altre informazioni statistiche non ufficiali
• Ci sono ulteriori fonti, non ufficiali ossia non appartenenti al sistema ufficiale della organizzazione statistica, ma che contribuiscono a partire dalla esperienza/competenza di comunità scientifiche o organizzazioni di volontariato e/o Non profit:
• Criteri: Affidabilità/Reputazione – Trasparenza - Completezza
Lezione 1. Concetti Chiave
La natura dell’informazione statistica
• La conoscenza statistica e il nuovo empirismo
• Dati, statistiche, informazioni
• Il disegno dell’indagine
• Collettivo: Popolazione e Campione
• La funzione sociale della Statistica: la statistica ufficiale
• Fonti statistiche
• Banche dati, Datawarehouse, Sistemi informativi, Cruscotti
Gli argomenti della lezione potranno essere approfonditi come segue:
Mecatti Di Ciaccio - Borra Agresti - Franklin
Capitoli 1, 2 e 3 Capitolo 1 Capitolo 1