• Non ci sono risultati.

La natura della informazione statistica

N/A
N/A
Protected

Academic year: 2022

Condividi "La natura della informazione statistica"

Copied!
28
0
0

Testo completo

(1)

La natura della

informazione

statistica

(2)

Data Science – Big Data - Datanomics

I dati «esistono».. Basta andare a cercarli .. E raccoglierli, anzi estrarli. È proprio così?

I dati sono informazioni? Basta «leggere» i dati per saperli interpretare.. Ma cosa vuol dire leggere e interpretare?

I dati sono statistiche? Occorre pertanto dirci cosa sono le statistiche e cosa è la statistica

I dati oggi alimentano e «governano» diversi processi e meccanismi sociali: sia nell’ambito del settore pubblico che del settore privato;

La digitalizzazione rende ancora più fluido e accelerato il processo di produzione dei dati ampliandone la quantità ma non sempre altrettanto la qualità;

La diffusione degli «algoritmi» e dei processi di automazione e di Intelligenza Artificiale contribuisce a strutturare processi di trattamento ed elaborazione dei dati: la statistica diventa «machine learning»;

I dati stessi diventano una «merce» di scambio fondamentale e preziosa,

costituiscono un mercato che si muove tra la normativa di tutela delle riservatezza

(3)

L’acquisizione dei dati: raccolti, estratti, prodotti… comune mai

«dati» ma sempre «presi»!

Rilevazioni dirette

• Censimenti

• Indagini

• Sondaggi

• …

Fonti statistiche

• Statistiche ufficiali

• Altri fonti non ufficiali

(4)

Dati

Prodotti statisticamente

Riferiti a tutto il collettivo (popolazione)

Riferiti ad una selezione della popolazione:

il campione

Campione selezionato (estratto) con metodo

probabilistico

Campioni ripetuti nel tempo

Campione selezionato in modo

ragionato

Forme miste di campionamento

Autoselezioni Campioni di

convenienza

Raccolti e utilizzati a fini statistici

Aggregati in collettivi trattati come popolazioni o

campioni Non utilizzabili a fini

statistici

(5)

«Cattura» delle informazioni

• In modo diretto

• In modo indiretto

Traduzione delle

informazioni

• Formati logici

• Formati numerici e matematici

Conservazione e utilizzo

• Archivi e pubblicazioni

• Archivi elettronici

• Web

(6)

dati

casi… Dai

informazioni

…alle variabili

A

B

C

D

F E

M1 M2 Mk

A B C D E F

In un’analisi statistica l’interesse per la conoscenza delle unità elementari (i casi o osservazioni ) diventa meno interessante (rimane il valore del «profilo»

ossia delle insieme di misure specifiche della singola informazione)

per dare spazio all’interesse per la dimensione di analisi rappresentata dalla variabile attraverso

l’informazione che essa offre tramite la distribuzione nelle unità, ognuna delle quali mostra un valore di tale variabile (modalità)

PROFILO DI B rispetto ai valori di ciascuna Mk

Distribuzione di M1 rispetto alle unità

(7)

M

1

M

2

M

k

A B C D

La «matrice dei dati» : oggetto base di ogni analisi statistica

Aumentare il numero di variabili migliorare le informazioni sui casi contribuendo ad una loro più precisa identificazione e classificazione…. Ma…richiede più informazioni…

Aumentare il numero dei casi

contribuisce alla

«consistenza»

del supporto ma induce una maggiore eterogeneità

(8)

età altezza residenza

Anna 19 175 Palermo

Antonio 19 184 Palermo

Maria 20 180 .. Trapani

Tullio 20 188 Agrigento

Veronica 19 185 Alcamo

Vediamo un esempio: se io volessi descrivere per conoscere statisticamente la nostra aula potrei agire nelle due direzioni:

Aumentare il numero di variabili migliora la conoscenza di ogni studente sino (al limite!) ad individuare ciascuno precisamente: ciò spiega per esempio perché in ogni strumento di misura tendiamo ad aumentare il numero delle domande (item).. Ma aumentare le variabili migliora la conoscenza? (teoria della domanda marginale)

Posso scegliere di selezionare un gruppo per conoscere tuti, ma devo chiedermi quanto tale gruppo sia rappresentati vo di tutta la classe…

Consultare tutta la classe tuttavia può essere oneroso (ci vuole molto tempo, devo trovare tutti, costi….)

(9)

La conoscenza statistica:

approcci e prospettive di metodo

Riferimento ad un SUPPORTO aggregato e collettivo, totale o parziale.

Una volta costituita tale supporto può essere studiato in sé (analisi descrittiva) oppure in relazione ad un referente superiore (universo) identificabile almeno teoricamente (analisi inferenziale o INFERENZA)

Rappresentazione dei fenomeni nella loro intrinseca eterogeneità o VARIABILITÀ;

Ricerca di schemi di riduzione della complessità e di SINTESI: esistono diversi percorsi di riduzione sia dal punto di vista della aggregazione delle unità (raggruppamento o classificazione) sia dal punto di vista delle variabili (tecniche fattoriali e studio delle connessioni).

(10)

Dati, approccio empirico e metodo scientifico

Informazioni Statistiche

Dati

Conoscenza Scientifica

Modellazione &

Misurazione

Evidenza empirica

(11)

Il pensiero statistico:

Melchiorre Gioia e la filosofia della Statistica

La filosofia della

statistica è la cognizione ragionata delle norme generali per ricercare, delle fonti a cui

attingere, de’ sintomi per riconoscere, de’

(12)

È la «cognizione ragionata delle norme generali per ricercare»

• La statistica è una scienza che ha un metodo (anzi ne ha tantissimi)…

non è un metodo.

L’esigenza di conoscere statisticamente è antica: i censimenti dei sumeri e degli egiziani. In principio era «il contare»…

Essa si fonda sul bisogno di descrivere qualità e quantità di universi e popolazioni, ossia di avere una visione aggregata dei fenomeni.

L’utilizzo di collettivi statistici induce una ricerca di sintesi adeguate che

forniscano tendenze e comportamenti medi: lo sviluppo del metodo scientifico e l’empirismo positivista hanno dato un grande impulso a tale approccio basato sulla ricorrenza (incidenza, frequenza) di fatti e fenomeni fisici o sociali. Le

«regolarità empiriche» assumono un valore «morale».

(13)

…delle fonti a cui attingere…

• La Statistica ha una finalità conoscitiva, di organizzazione di dati e

informazioni la cui veridicità dipende dal «soggetto» che le produce, le detiene, le diffonde o pubblica:

Per questo nel tempo la funzione statistica è un importante compito degli Stati, particolarmente di quelli moderni dove nascono sistemi democratici e

repubblicani, laddove il potere viene dal popolo e non dalla divinità.

Un processo di progressiva integrazione e armonizzazione: i sistemi statistici.

(14)

…de’ principi per giudicare…

• La statistica offre supporti informativi (campioni, indicatori, rapporti o indici…) per valutare ossia esprimere un giudizio su ipotesi

(teoriche) da validare empiricamente sui dati

La statistica da descrittiva diviene inferenziale, utilizza la matematica e la probabilità come linguaggio formale che aiuta progressivamente la statistica alla luce del metodo scientifico (il disegno sperimentale)

La statistica è supporto della valutazione: dello sviluppo economico, dei problemi sociali, delle politiche pubbliche…

(15)

…degli usi a cui servono gli elementi allo stato delle nazioni.

• La statistica è utile, serve ad agire con consapevolezza: nella vita quotidiana, nella formazione del consenso elettorale, nelle scelte

aziendali dell’impresa, nelle previsioni degli scenari macro economici dei governi.

• La connessione tra statistica e «prosperità pubblica» (Gioia parla di

«incivilimento») che oggi chiamiamo in tanti modi «progresso»

«sviluppo sostenibile» «benessere»…

(16)

Dati primari e dati secondari

• I dati statistici se sono rilevati direttamente e specificatamente vengono detti primari, altrimenti sono detti secondari.

• I dati secondari sono rilevati da soggetti professionalmente

riconosciuti possono essere ufficiali o non ufficiali a seconda che derivino da fonti statistiche istituzionalmente dedicata alla

produzione di statistiche pubbliche: i sistemi della statistica ufficiale (in Italia il SISTAN e l’ISTAT).

(17)

In sintesi: La rilevazione dei dati statistici

• I dati sono «prodotti»: lo schema di progettazione di una rilevazione viene detto «disegno» e riguarda i seguenti punti:

Oggetto della rilevazione: cosa vogliamo conoscere attraverso i dati

Identificazione del collettivo e delle unità di rilevazioni (unità statistiche)

Adozione di uno strumento di misura e delle modalità di rilevazione

Organizzazione della rilevazione ed eventuale formazione dei rilevatori

Raccolta dei dati e controllo di qualità (presenza di errori c.d. non campionari)

(18)

Dati strutturati o non strutturati

Nella società dell’informazione, i dati a nostra disposizione sono cresciuti per qualità e quantità.

Si parla di Big Data, facendo riferimento a dati che hanno un enorme volume (tantissime osservazioni), una grande varietà (tantissime dimensioni o

variabili), facilmente reperibili e accessibili ossia disponibili ad una grande velocità e aderenti alla realtà secondo un alto gradi accuratezza e veridicità.

Ci sono tanti tipi di dati che emergono da processi sociali o procedure

amministrative che sono detti non strutturati (immagini, foto, informazioni su opinioni o gradimenti tratte dai social…) .

I dati strutturati sono invece caratterizzati per la loro organizzazione statistica e per il loro corredo di meta-informazione (definizioni, classificazioni,

elaborazioni).

(19)

Dati accessibili o «aperti» (Open data)

• Uno dei requisiti importanti della qualità di un dato è la sua facile reperibilità o accessibilità.

• La diffusione del web ha moltiplicato notevolmente questa possibilità, pertanto si è definito il concetto di «dato aperto» commisurato

all’attitudine del dato di essere facilmente reperibile e trasferibile.

• Soprattutto nell’abito delle pubbliche amministrazioni si è diffusa questa pratica di fornire dati accessibili a tutti per un esercizio più universale e

(20)

Tecnologie digitali, informatica e statistica

• Lo sviluppo delle tecnologie informatiche nell’era digitale ha accresciuto la dotazione di informazioni.

• In questo tempo – definito da alcuni come «diluvio informazionale» – il problema non è disporre di dati ma avere «criteri» per la loro selezione e interpretazione.

• La statistica diventa ancora più rilevante nella fase di analisi ed

elaborazione, nello studio delle connessioni e relazioni nonché dei

modelli che permettono di estrarre informazione, identificando nessi di causalità dalla variabilità congiunta di numerose variabili.

• Il trattamento della variabilità statistica è l’oggetto della statistica moderna.

(21)

Dalle statistiche ai Sistemi di Statistica:

l’offerta diventa “globale

• Armonizzazione e Integrazione per favorire comparabilità

• Sistemi ufficiali per assicurare continuità, tempestività e attendibilità

• Comunità scientifiche per verificare rigore, rilevanza, accuratezza e robustezza.

• La rivoluzione informatica e quella digitale per accessibilità e disponibilità.

(22)

Qualità dei dati: principi e dimensioni

• Quality of statistics is defined by Eurostat with reference to the following six criteria:

1. Relevance;

2. Accuracy;

3. timeliness and punctuality;

4. accessibility and clarity;

5. Comparability;

6. Coherence.

(23)

Collezioni di dati

• Matrici di dati

• Array ossia matrici multidimensionali (tre o più dimensioni)

• Sistemi informativi statistici (dati e metadati insieme)

• OLAP (On-Line Analytical Processing)

(24)

La Meta-Informazione

Metadati ovvero informazioni o attributi che descrivono i dati per facilitarne l’individuazione e la comprensione

Esempio: gli indici di catalogazione di una biblioteca.

• Definizioni è GLOSSARIO

• Classificazioni

• Metodi

https://www.istat.it/it/metodi-e-strumenti

(25)

Il sistema dell’informazione statistica

Un sistema di collegamento tra soggetti produttori, in una logica di coordinamento amministrativo, ma anche scientifico e metodologico: il SISTAN

Il portale Istat https://www.istat.it/it/

L’organizzazione della statistica ufficiale a livello internazionale

https://www.unric.org/it/informazioni-generali-sullonu/34

https://ec.europa.eu/eurostat/web/links/international-organisations

Il sistema comunitario: Eurostat

https://ec.europa.eu/eurostat/web/european-statistical-system/overview

(26)

Altre informazioni statistiche non ufficiali

• Ci sono ulteriori fonti, non ufficiali ossia non appartenenti al sistema ufficiale della organizzazione statistica, ma che contribuiscono a partire dalla esperienza/competenza di comunità scientifiche o organizzazioni di volontariato e/o Non profit:

• Criteri: Affidabilità/Reputazione – Trasparenza - Completezza

(27)

Lezione 1. Concetti Chiave

La natura dell’informazione statistica

La conoscenza statistica e il nuovo empirismo

Dati, statistiche, informazioni

Il disegno dell’indagine

Collettivo: Popolazione e Campione

La funzione sociale della Statistica: la statistica ufficiale

Fonti statistiche

Banche dati, Datawarehouse, Sistemi informativi, Cruscotti

(28)

Gli argomenti della lezione potranno essere approfonditi come segue:

Mecatti Di Ciaccio - Borra Agresti - Franklin

Capitoli 1, 2 e 3 Capitolo 1 Capitolo 1

Riferimenti

Documenti correlati

L’attivazione del pulsante CONTINUA oltre a salvare i dati digitati, consente all’utente di accedere alla maschera successiva in cui viene visualizzato il

Obiettivo dei metodi per la riduzione di dimensionalità (dimensionality reduction) è quello di eseguire un mapping dallo spazio iniziale

• Un percorso `e una successione di rami e di nodi adiacenti senza anelli in cui ogni elemento viene attraversato una sola volta.. Il coefficiente P del percorso `e il prodotto

• Un percorso `e una successione di rami e di nodi adiacenti senza anelli in cui ogni elemento viene attraversato una sola volta.. Il coefficiente P del percorso `e il prodotto

• I grafi di flusso di segnale sono un mezzo, alternativo agli schemi a blocchi, per la rappresentazione grafica dei sistemi

Processo di ossido-riduzione in cui la stessa sostanza si ossida e si riduce.. Il numero di ossidazione degli atomi in un qualsiasi elemento libero non combinato è zero... 2. Il

In generale una reazione di ossido-riduzione è definita come una reazione in cui si ha trasferimento di elettroni fra le specie reagenti o in cui gli atomi variano il loro numero di

Per poter offrire, alle aziende, una pratica soluzione per la riduzione della carbon footprint e l’incentivazione delle best practices per la sostenibilità, save NRG ha ideato