I dati e
le previsioni
ovvero
la Matematica
dell’incertezza
J L.BORGES: La Bibioteca di Babele
“Quando si proclamò che la biblioteca
comprendeva tutti i libri, la prima impressione fu di straordinaria felicità. Tutti gli uomini si
sentirono padroni di un tesoro intatto e segreto.
Non v’era problema personale o mondiale la cui eloquente soluzione non esistesse: in qualche scaffale.”
“Quei ricercatori dimenticavano che la possibilità che un uomo trovi il suo, o qualche perfida variante del suo, è sostanzialmente zero… alla speranza
smodata, com’è naturale, successe un’eccessiva depressione. La certezza che un qualche
scaffale…..celava libri preziosi e che questi libri preziosi erano inaccessibili, parve quasi
intollerabile”
L’abbondanza di informazioni può rovesciarsi nel suo contrario: non basta avere accesso teorico ad una
informazione, occorre anche che tale informazione sia effettivamente fruibile.
Statistica
Rende utilizzabili grandi quantità di informazioni, teoricamente disponibili, ma di fatto difficilmente gestibili, relative agli oggetti della sua indagine
Raccoglie e restituisce in forma organizzata grandi quantità di informazioni
la statistica ha esigenze di tipo:
Descrittivo:corrisponde al bisogno di ogni comunità di raccogliere dati sulle sue caratteristiche e le sue
attività
Predittivo: fornendo una fotografia del
passato e del presente, aiuta a prevedere i
comportamenti futuri e a compiere scelte in
mancanza di certezze assolute.
Incertezza: si azzardano calcoli e proiezioni a partire da dati a volte essi
Il 30% degli italiani preferisce la pastasciutta, il 20% la carne;
il 15% il pesce;
il 10% la frutta;
il 25% il dolce
scetticismo
credulità acritica
Come si svolge il lavoro statistico?
Di quali fasi si compone?
Con quali problemi si scontra?
Lavoro statistico
• Definizione dei caratteri e della popolazione oggetto dell’indagine;
• scelta degli strumenti di rilevazione;
• selezione del campione rappresentativo
• raccolta dati;
• loro elaborazione e rappresentazione.
In ogni fase occorre fare delle scelte
Conseguenze rispetto ai risultati Es. Interviste:
•formulazione delle domande
•modalità di classificazione di risposte anomale
•scelta del campione rappresentativo.
Media aritmetica
• La media aritmetica di n numeri si calcola
sommando gli n numeri e dividendo il risultato per n;
• è un valore di sintesi che riassume un insieme di dati;
• ha un preciso ambito di significatività;
• è una media ponderata cioè i numeri dell’insieme da sintetizzare pesano in misura frequenza con cui ricorrono. proporzionale alla
Altri valori di sintesi
• Moda o valore normale
• è il numero che è presente con maggior frequenza nell’insieme
• Mediana
• corrisponde al valore centrale della sequenza
ottenuta disponendo in ordine crescente i numeri dell’insieme
Ogni valore di sintesi cancella il modo con cui viene a determinarsi
Uno stesso valore può corrispondere a dati articolati in modo diverso.
È importante misurare il grado di rappresentatività di un valore di sintesi prescelto.
Scostamento medio
scarto quadratico medio
Frequenza e frequenza relativa
La frequenza è rappresentata dal numero delle unità
statistiche che presentano una certa caratteristica in una determinata indagine.
Ad esempio in un’ indagine sugli individui con i capelli biondi, la popolazione è rappresentata da tutti gli individui su cui si fa l’indagine (es. gli i italiani).
La frequenza (assoluta) è il numero degli individui della popolazione che hanno i capelli biondi; la frequenza
relativa è il numero degli individui che hanno i capelli biondi rapportato a tutta la popolazione cioè al numero
Se la popolazione è composta da 100 individui e si rileva che 30 di questi individui hanno i capelli biondi si ha :
FREQUENZA ASSOLUTA: 20
FREQUENZA RELATIVA: 20|100 = 20%
I numeri indici
Quando ci troviamo di fronte alla frequenza di un fenomeno rilevato in luoghi diversi (serie territoriale) o in tempi diversi
(serie temporale) è più semplice calcolare dei rapporti pren- dendo una base comune di riferimento.
Spiegheremo meglio con un esempio:
l’esempio che segue mostra la popolazione lavorativa nell’anno 2001 in alcuni Paesi europei.
ADDETTI Italia Francia Germania Spagna
Lavoratori dipendenti dell’
industria e dei sevizi 23,8 28,5 22,6 9,0
Funzionari e impiegati 19,8 28,1 28,5 33,8
Lavoratori autonomi dell’
industria e dei servizi 14,6 6,6 5,8 11,1
Agricoltori e lavoratori
agricoli 4,2 3,9 1,7 7,0
Altri 37,6 32,8 41,4 39,1
Vogliamo fare un confronto tra le varie nazioni relativamente ai lavoratori dipendenti dell’ industria e dei servizi. Se è semplice fare confronti a due a due, meno semplice è fare dei confronti globali; è allora comodo riferirsi a uno dei due dati come base di riferimento. Scegliamo allora l’Italia come base di confronto e riferiamo tutti gli altri dati a questa base.
Poniamo uguale a 100 il dato di riferimento Italia; i valori degli altri paesi si
ottengono moltiplicando per 100 il quoziente del numero di addetti di ogni paese con il valore reale della frequenza Italia:
28,5 22,6
Francia x 100 = 119,75 Germania x 100 = 94, 96
23,8 23,8
9
Spagna x 100 = 37,82
23,8
Si ottiene così, relativamente al settore scelto
Addetti Italia Francia Germania Spagna
I dati superiori al 100 indicano un incremento percentuale rispetto alla base scelta, quelli inferiori al 100 indicano una diminuzione percentuale. Nel nostro caso i dati ci dicono che in Francia i lavoratori dipendenti dell’ industria e dei servizi sono circa il 19,75% in più di quelli dell’ Italia, in Germania il 5,04% in meno e in Spagna il 62,18%
in meno.
Se ripetiamo gli stessi calcoli nel settore dell’ agricoltura otteniamo i seguenti numeri
3,9 1,7
Francia x 100 = 92,86 Germania x 100 = 40,48
4,2 4,2
7
Spagna x 100 = 166,67 4,2
Addetti Italia Francia Germania Spagna
Agricoltori e lavoratori
agricoli 100 92,86 40,48 166,67
I dati ottenuti ci dicono che in Francia c’è il 7,14% in meno e in Germania il 59,52%
in meno di lavoratori agricoli rispetto all’ Italia mentre in Spagna vi è il 66,67% in più.
Possiamo ora dare la seguente definizione.
Si chiamano rapporti statistici indici o numeri indici, i rapporti dei dati di una serie territoriale o temporale rispetto a uno di essi preso come base di riferimento.
I numeri indici si ottengono dividendo l’ intensità in esame per l’
intensità base e moltiplicando il quoziente ottenuto per 100.
Distribuzione normale:
•si trova in tutti i fenomeni casuali Correlazione (positiva o negativa)
•due variabili sono distribuite in modo che al crescere di una cresce anche l’altra
•non conduce necessariamente ad una relazione di causa effetto ( es. Statura- distanza da casa)
Interpolazione
si rilevano dati che misurano una relazione tra Concetti importanti
Interpolazione: ricerca della funzione analitica che approssima i dati nel modo migliore
•Metodo dei minimi quadrati: metodo che rende minima la distanza dei punti della linea che
rappresenta il fenomeno
Retta interpolante
Trend= coefficiente angolare dalla retta
La
funzione interpolatrice
potrebbe non essere lineare•ma essere di 2° grado, un’iperbole, una curva esponenziale
•è il fisico, lo statista, l’economista che seleziona la formula che sembra meglio descrivere il fenomeno.
Probabilità?
•L’incertezza è condizione normale quando occorre prendere decisioni
•siamo guidati quasi sempre da valutazioni di tipo probabilistico
•è un tentativo di matematizzare i processi
inconsapevoli o intuitivi con cui attribuiamo una determinata probabilità ad un evento
•nasce su sollecitazione di giocatori d’azzardo nel 1600
favorevoli evento casi
P ( )
•Probabilità che lanciando un dado venga il numero 2
•…estraendo una carta da un mazzo di 40 carte questa sia un re
•se abbiamo lanciato 10 volte una moneta ottenendo testa, all’undicesimo lancio è più conveniente puntare su croce?
•E’ più facile indovinare l’ordine di arrivo in una gara a cui partecipano 4 atleti o indovinare la seconda lettera della trecentoquarantesima parola del terzo capitolo di un libro di lettura?
Definizione classica
•eventi equiprobabili ( lancio di due monete)
TT TC CT CC
•Probabilità che domani piova
•Probabilità che il primo
• dell’anno a Torino nevichi
Statistica
Si basa su una stima A POSTERIORI
DIFETTO: la valutazione della probabilità dipende dal numero di prove che si effettuano
Legge dei grandi numeri
Da un baule, contenente 5 paia di scarpe alla rinfusa, si estraggono ,al buio, 3 scarpe.
Qual è la probabilità di trovare un paio di scarpe ben accoppiate ?
1/9 8/9
2/8 6/8
1 3
8 2
1
Probabilità=