ELEMENTI DI STATISTICA DESCRITTIVA 1
Metodi Statistici e Probabilistici per l’Ingegneria
ELEMENTI DI
STATISTICA DESCRITTIVA
Corso di Laurea in Ingegneria Civile
Facoltà di Ingegneria, Università di Padova
Docente: Dott. L. Corain
E-mail: livio.corain@unipd.it Home page: www.gest.unipd.it/~livio/Corso_Civile.html
SOMMARIO
¾
Statistica descrittiva vs. Statistica inferenziale
¾
Gli aspetti della statistica descrittiva
descrizione e forma della distribuzione
posizione o tendenza centrale
variabilità o dispersione
¾
Gli strumenti della statistica descrittiva
tabelle e grafici
indici di sintesi
¾
Statistica descrittiva per serie temporali
ELEMENTI DI STATISTICA DESCRITTIVA
STATISTICA DESCRITTIVA vs STATISTICA INFERENZIALE
La statistica descrittiva è un insieme di tecniche usate per descrivere le caratteristiche di base dei dati raccolti in un esperimento/studio.
Esse forniscono una sintesi semplice del campione e delle misure raccolte. Insieme alla semplice analisi grafica, costituisco la base iniziale di partenza di qualsivoglia analisi quantitativa dei dati.
Mentre con le statistiche descrittive si sta semplicemente descrivendo ciò che si osserva o ciò che i dati evidenziano
nei loro tratti essenziali, con la statistica inferenziale, si
tenterà di raggiungere conclusioni che si estendono oltre i dati raccolti nel loro immediato e che possono essere valide e riferibili ad un contesto più ampio rispetto a quello dei dati di quel singolo esperimento/studio.
LA STATISTICA DESCRITTIVA: DEFINIZIONE
Con il termine statistica descrittiva si intende un insieme di tecniche e strumenti finalizzati ad assolvere uno dei principali compiti assegnati della Statistica:
descrivere, rappresentare e sintetizzare in maniera opportuna un insieme o campione di dati relativamente ad un problema (popolazione) di interesse.
Per popolazione si intende la totalità dei casi, ovvero delle unità sulle quali e possibile rilevare una variabile di interesse, ad esempio i provini ottenuti da una miscela cemento/calcestruzzo su cui si esegue una prova di compressione allo scopo di misurare il carico di rottura. Per estensione, con popolazione si intende anche il prodotto/processo/fenomeno oggetto di indagine.
Per campione si intende invece un insieme finito di n unità che si può ritenere rappresentativo dell’intera popolazione (che per definizione ha invece numerosità infinita).
ELEMENTI DI STATISTICA DESCRITTIVA 5
STATISTICA DESCRITTIVA vs STATISTICA INFERENZIALE
Mentre la statistica descrittiva si occupa di rappresentare l’informazione contenuta in un dato insieme o campione di dati, la statistica inferenziale utilizza tale informazione per fare delle affermazioni più generali riguardanti i parametri
(solitamente µ e σ) della popolazione, da cui il campione è
stato estratto.
Le affermazioni della statistica inferenziale sono di due tipi:
9 STIMA: si vuole indicare un valore plausibile per il
parametro della popolazione, sotto una delle 2 forme:
1. un valore ben definito (STIMA PUNTUALE)
2. un intervallo in cui molto verosimilmente il parametro
sia incluso (STIMA INTERVALLARE)
9 VERIFICA DI IPOTESI: indicare quale tra due specifiche
ipotesi sul parametro (nulla o alternativa) sia da accettare
STATISTICA DESCRITTIVA vs STATISTICA INFERENZIALE
Si noti la netta distinzione concettuale tra
parametri (solitamente µ e σ) della popolazione: si tratta
di quantità non osservabili (ma stimabili);
stime dei parametri (media e deviazione standard
campionaria): si tratta di valori plausibili per un parametro della popolazione e che possiamo calcolare attraverso i dati campionari.
Assunto un modello di probabilità rappresentativo della popolazione, attraverso le stime dei parametri possiamo inoltre:
stimare il profilo della distribuzione della popolazione;
costruire degli intervalli di confidenza per i parametri.
Si noti che l’assunzione che un data distribuzione di probabilità sia rappresentativa della popolazione non assicura affatto che tale distribuzione rappresenti il vero modello della popolazione.
ELEMENTI DI STATISTICA DESCRITTIVA 7
LA STATISTICA DESCRITTIVA: ASPETTI E STRUMENTI
Per descrivere e sintetizzare l’informazione campionaria di un fenomeno numerico di interesse, la statistica descrittiva si focalizza su 3 principali aspetti:
1. la descrizione e la forma della distribuzione
2. la posizione o tendenza centrale
3. la variabilità o dispersione
Gli strumenti messi a disposizione dalla statistica descrittiva possono essere sia di tipo grafico sia numerico. In questo ultimo caso si tratta di opportuni indici di sintesi, che in unico valore esprimono una specifica caratteristica della distribuzione dei dati: la tendenza centrale, la variabilità e la forma della distribuzione.
LA STATISTICA DESCRITTIVA: DETTAGLIO STRUMENTI
Grafici:
9 Dotplot
9 (tabella ed) istogramma di frequenza
¾ frequenza assoluta, frequenza relativa
¾ frequenza, frequenza cumulata
9 boxplot
9 probability plot
Indici di sintesi:
9 indici di posizione o tendenza centrale
¾ media, mediana, moda
9 indici di variabilità o dispersione
¾ varianza, deviazione standard (scarto quadr. medio)
range, range interquartile
ELEMENTI DI STATISTICA DESCRITTIVA 9 In uno studio sugli spessori di una lastra nervata in fibrocemento si sono effettuate delle misurazioni (mm), in corrispondenza a 30 posizioni della lastra.
UN ESEMPIO: SPESSORE DI UNA LASTRA
6.4 6.3 6.2 6.1 6.0 5.9 5.8 5.7 Spessore (mm)
Dotplot dello Spessore della lastra (mm)
Una prima sintetica rappresentazione grafica dei dati è fornita dal dotplot, dove ogni distinto valore osservato corrisponde ad un pallino:
Possiamo inoltre notare che i dati cadono in un range (intervallo) di 0.8 mm, calcolato come differenza tra il valore massimo (6.4) e minimo (5.6) osservato.
UNA PRIMA RAPPRESENTAZIONE GRAFICA
Osserviamo che la maggior parte dei dati tende a
“addensarsi” attorno ad un valore
ELEMENTI DI STATISTICA DESCRITTIVA Spessore Fr eq eq ue nz a r el at iv a p er cen tu al e 6.4 6.3 6.2 6.1 6.0 5.9 5.8 5.7 5.6 30 25 20 15 10 5 0
Istogramma della frequenza relativa dello Spessore
11 Per approfondire la descrizione della distribuzione dei dati, partendo dal valore minimo 5.6, dividiamo l’intervallo di osservazione dei dati (di ampiezza 0.8 mm) in 8 intervalli di uguale ampiezza pari a 0.1 mm: [5.6, 5.7[, [5.7, 5.8[, ..., [6.3, 6.4[. Se contiamo il numero di unità che cadano all’interno di ciascun intervallo, otteniamo la tabella ed il corrispondente istogramma di frequenza (assoluta o relativa).
LA TABELLA E L’ISTOGRAMMA DI FREQUENZA
Conteggio
Spessore Assoluta Relativa
5.6-5.7 1 3.3% 5.7-5.8 0 0.0% 5.8-5.9 7 23.3% 5.9-6.0 9 30.0% 6.0-6.1 8 26.7% 6.1-6.2 2 6.7% 6.2-6.3 2 6.7% 6.3-6.4 1 3.3% TOTALE 30 100.0% Frequenza
Con il termine frequenza assoluta si intende il
numero/conteggio di unità che cadano in una
determinata classe (intervallo). La frequenza assoluta somma ad n.
Con il termine frequenza relativa si intende la frazione
(o la percentuale) di unità (rispetto al numero totale di unità) cadano in una determinata classe (intervallo). La frequenza relativa somma ad 1 (o 100%).
Per frequenza cumulata si intende invece il numero di unità che sono inferiori ad una data soglia (appartengono all’intervallo [−∞, soglia[).
La frequenza cumulata può essere sia assoluta sia
relativa.
ELEMENTI DI STATISTICA DESCRITTIVA
Conteggio
Spessore Assoluta Relativa
<5.7 1 3.3% <5.8 1 3.3% <5.9 8 26.7% <6.0 17 56.7% <6.1 25 83.3% <6.2 27 90.0% <6.3 29 96.7% <6.4 30 100.0% Frequ. comulata Spessore Fr eq e que nz a r el a ti va p e rc e nt u al e cu m ul at a 6.4 6.3 6.2 6.1 6.0 5.9 5.8 5.7 5.6 100 80 60 40 20 0
Istogramma della frequenza relativa cumulata dello Spessore
13 Se sommiamo via via le frequenze in maniera cumulata rispetto agli intervalli, si ottiene la cosiddetta frequenza cumulata, che ci dice quante osservazioni cadono fino ad una certa soglia. Per costruzione, il valore della frequenza cumulata rispetto all’ultima soglia sarà il numero totale di osservazioni o il valore 100% rispettivamente per la frequenza cumulata assoluta o relativa.
LA FREQUENZA CUMULATA
porre il limite inferiore della prima classe leggermente al di sotto del valore minimo osservato, preferibilmente individuando un valore di riferimento che faciliti l’interpretazione dei dati
scegliere un numero di intervalli da un minimo di 4-5 ad un massimo di 14-15; in base al numero di intervalli calcolare la corrispondente ampiezza
in alternativa, scegliere una ampiezza opportuna dell’intervallo, preferibilmente in modo che il numero di classi sia coerente con il punto precedente
LA DEFINIZIONE DEGLI INTERVALLI
Nella definizione degli intervalli è utile seguire alcune semplici regole empiriche:
ELEMENTI DI STATISTICA DESCRITTIVA
In un’analisi statistica siamo talvolta interessati a esaminare il comportamento simultaneo di due variabili qualitative: per esempio ci possiamo chiedere se esiste un legame fra il livello delle acque ed un particolare bacino idrico, sulla base ad es. delle osservazioni mensili negli ultimi 10 anni. La tabella di contingenza è una tabella a doppia entrata in cui le osservazioni relative a due variabili categoriali vengono rappresentate/sintetizzate simultaneamente.
LA FREQUENZA NEL CASO DI VARIABILI QUALITATIVE
LIVELLO DELLE ACQUE BACINO IDRICO DEL BACIN O A B C Totale
Basso 40 19 25 84
Medio 10 11 20 41
Alto 70 90 75 235
Totale 120 120 120 360
Al fine di analizzare la possibile associazione esistente fra le due variabili qualitative, è opportuno convertire le frequenze congiunte assolute in frequenze relative (o percentuali).
Questa operazione può essere realizzata riferendosi (condizionandosi) alternativamente al:
1. totale complessivo (rappresentato nel nostro caso dalle 360 osservazioni mensili)
2. totale di riga (rispetto al numero totale di mesi per altezza del livello delle acque)
3. totale per colonna (rispetto al numero totale di mesi di osservazione per ciascun bacino)
Il risultato e l’informazione che se ne ottiene dipende dallo specifico totale che viene scelto a riferimento.
ELEMENTI DI STATISTICA DESCRITTIVA
LA FREQUENZA NEL CASO DI VARIABILI QUALITATIVE
Ad esempio, per analizzare lo stato di salute del livello idrico rispetto a ciascuna area, è opportuno riferirsi alla tabella di frequenza condizionata al totale di colonna.
LIVELLO DELLE ACQUE BACINO IDRICO
DEL BACINO A B C Totale
Basso 33.3% 15.8% 20.8% 23.3%
Medio 8.3% 9.2% 16.7% 11.4%
Alto 58.3% 75.0% 62.5% 65.3%
Totale 100.0% 100.0% 100.0% 100.0%
Frequenza nel livello delle acque per bacino idrico
0.0% 10.0% 20.0% 30.0% 40.0% 50.0% 60.0% 70.0% 80.0% A B C Bacino F re q ue nza Basso Medio Alto Livello delle acque
la media dei due valori nella posizione centrale ((30+1)/2=15.5, cioè 15° e 16°) definisce la MEDIANA il valore più vicino alla posizione ¼ ((30+1)/4=7.75
quindi l’8° dato della serie ordinata) definisce Q1 (primo QUARTILE)
il valore più vicino alla posizione ¾ ( (30+1)*3/4=23.25 quindi il 23° dato) definisce Q3 (terzo QUARTILE)
MEDIANA E QUARTILI: DEFINIZIONE
Oltre ai valori massimo e minimo, altri indici statistici di posizione possono fornirci informazioni importanti di sintesi sulla distribuzione dei dati. Se ordiniamo i dati, dal più piccolo al più grande:
Posizione ordinata 1 2 ... 8 ... 15 16 ... 23 ... 29 30 Spessore 5.69 5.81 ... 5.89 ... 5.97 5.98 ... 6.04 ... 6.24 6.37
Dato ordinato 5.69 5.89 6.04 6.37
Indice MIN Q1 Q3 MAX
5.975
ELEMENTI DI STATISTICA DESCRITTIVA Spessore 6.3 6.2 6.1 6.0 5.9 5.8 5.7
Boxplot dello Spessore
19
IL BOXPLOT
La rappresentazione grafica dei 5 numeri di sintesi: MIN, Q1, MEDIANA, Q3 e MAX, restituisce il cosiddetto BOXPLOT.
Per costruzione, all’interno della “scatola” è contenuto il 50% dei dati osservati.
La posizione, dimensione e forma della scatola (cioè la distanza tra i due quartili e la mediana) ed il modo in cui si allungano i tratti laterali (“baffi”) danno un’indicazione rispettivamente: della tendenza centrale, della variabilità (“intensità” della dispersione) e della simmetria della distribuzione. Si noti che il boxplot può essere visto come una rappresentazione “stilizzata” della distribuzione dei dati.
MIN MAX
MEDIANA Q3 Q1
MEDIANA: se n è dispari, la mediana è il valore della serie ordinata nella posizione (n+1)/2, mentre se n è pari, la mediana è la media aritmetica dei due valori della serie ordinata nelle posizioni n/2 e n/2+1
Q1 e Q3: se n+1 è divisibile per 4, Q1 e Q3 sono i valori della serie ordinata nelle posizioni (n+1)/4 e (n+1)*3/4, mentre se n+1 non è divisibile per 4, se (n+1)/4 e (n+1)*3/4 cadano esattamente tra 2 posizioni (es. 32.5 e 94.5) allora Q1 e Q3 sono definiti dalla media aritmetica dei due valori adiacenti della serie ordinata (es. 31-32 e 94-95), altrimenti sono definiti come i valore che sta nella posizione corrispondente al valore (n+1)/4 e (n+1)*3/4 una volta arrotondato all’intero più vicino
MEDIANA E QUARTILI: REGOLA DEFINIZIONE POSIZIONI
Sia n il numero di osservazioni del campione di dati. In base al fatto che n sia pari o dispari e che sia divisibile per 4, la mediana ed i quartili vengono così definiti:
ELEMENTI DI STATISTICA DESCRITTIVA Spessore 6.4 6.3 6.2 6.1 6.0 5.9 5.8 5.7 5.6
Boxplot dello Spessore
21
IL BOXPLOT MODIFICATO
Se nella costruzione del boxplot, MIN e MAX sono sostituiti
o MIN*=max{MIN,Q1-1.5*(Q3-Q1)}
o MAX*= min{MAX,Q3+1.5*(Q3-Q1)}
otteniamo il cosiddetto boxplot modificato. In questo caso, se sono
presenti alcuni valori che oltrepassano le soglie MIN* e MAX*, essi sono indicati con un asterisco, ad indicare che si potrebbe considerare come dati anomali (outlier) nel campione di dati.
MIN MAX*
outlier
IL BOXPLOT PER IL CONFRONTO TRA SERIE DI DATI
Boxplot (e dotplot) sono particolarmente efficaci nella confronto tra due o più serie di dati, per la comparazione tra tendenza centrale, variabilità e forma della distribuzione.
Colonna In di ce di r im ba lz o B A 36 34 32 30 28 26 24 22
Boxplot dell'Indice di rimbalzo per Colonna
Ad es., per confrontare i valori di indice di rimbalzo di
prove sclerometriche per
accertare la stima speditiva della resistenza meccanica di due colonne (A/B).
Ad es., per analizzare la tensione di rottura di barre d’acciaio di 3 differenti diametri (12,14,16) via prova di trazione. Spessore R ottu ra 16 14 12 630 620 610 600 590 580 570 560 550
ELEMENTI DI STATISTICA DESCRITTIVA 23
LA FREQUENZA PER IL CONFRONTO TRA SERIE DI DATI
Anche la frequenza può essere utilizzata a scopi comparativi, per evidenziare differenze ad analogie in diverse serie di dati.
Una curva più a destra o sotto/a destra rispetto ad un’altra, rispettivamente per la frequenza o frequenza cumulata, indica che la corrispondente serie di dati è distribuita su valori tendenzialmente più elevati.
Rottura F req ue n za C u m u la ta Per cen tu al e 620 600 580 560 100 80 60 40 20 0 Spessore 12 14 16
Frequenza cumulata della Rottura
Rottura Fr e q ue n za P e rc en tu al e 620 600 580 560 50 40 30 20 10 0 Spessore 12 14 16
Frequenza della Rottura
IL PROBABILITY PLOT
Un probability plot è un grafico a due dimensioni in cui le osservazioni sono riportate sull’asse verticale e a ciascuna di esse viene fatto corrispondere sull’asse orizzontale il relativo quantile di una distribuzione di probabilità (normale, log-normale,ecc.).
Se i punti del grafico si trovano approssimativamente su una linea retta immaginaria inclinata positivamente, allora possiamo affermare che i dati osservati si distribuiscono approssimativamente secondo una determinata legge di distribuzione di probabilità.
ELEMENTI DI STATISTICA DESCRITTIVA 25
IL PROBABILITY PLOT
Rottura Pe rc e n t 700 650 600 550 500 99 95 90 80 70 60 50 40 30 20 10 5 1 Mean 0.243 595.1 14.36 8 0.126 0.972 610.9 14.93 8 0.443 StDev 0.209 N AD P 589.3 27.67 8 0.419 Spessore 16 12 14Probability Plot of Rottura
Normal - 95% CI Indice di rimbalzo Pe rc e n t 40 35 30 25 20 15 99 95 90 80 70 60 50 40 30 20 10 5 1 Mean 0.912 27.5 3.689 10 0.245 0.682 StDev N AD P 30.5 2.838 10 0.167 Colonna A B
Probability Plot of Indice di rimbalzo
Normal - 95% CI Spessore Pe rc e n t 6.4 6.3 6.2 6.1 6.0 5.9 5.8 5.7 5.6 5.5 99 95 90 80 70 60 50 40 30 20 10 5 1 Mean 0.137 5.991 StDev 0.1412 N 30 AD 0.557 P-Value
Probability Plot of Spessore
Normal - 95% CI
La posizione o tendenza centrale di una serie di dati può essere utilmente rappresentata da un unico valore di sintesi
come la mediana. Si noti che la mediana non è influenzata
dalla presenza di dati anomali e per questo è detta essere un indicatore robusto.
Una alternativa è data dalla media campionaria dei valori
osservati ovvero
La media campionaria è una sorta di “baricentro” dei dati e, a differenza della mediana, tende ad essere “trascinata” verso i dati anomali.
Un’ulteriore alternativa (poco usata) è la moda, definita
come il valore più frequente in una serie di dati.
INDICI STATISTICI DI POSIZIONE O TENDENZA CENTRALE
1 2 ... 1 n i n i x x x x x n n = + + + = =
∑
ELEMENTI DI STATISTICA DESCRITTIVA 27 La variabilità o dispersione dei dati indica il grado di “oscillazione” o variazione dei valori rispetto alla loro tendenza centrale, misurata ad esempio con la media
campionaria. L’indice statistico s2, definito come
è detto varianza campionaria.
Dato che s2 è definito nel quadrato della unità di misura di
X, per facilità di interpretazione si preferisce usare la
deviazione standard o scarto quadratico medio .
Per comparare la variabilità di X e Y, se misurati su unità di
misura diverse si utilizza il coefficiente di variazione:
INDICI STATISTICI DI VARIABILITÀ O DISPERSIONE
2 2 1 ( ) 1 n i i x x s n = − = −
∑
2 s = s / CV =s xSe in luogo della media campionaria, consideriamo come indice di posizione la mediana, la variabilità dei dati può
essere misura dal Range Interquartile definito come
IQR = Q3-Q1
si noti che, per costruzione, tale indice di dispersione è
sempre ≥ 0, risultando tanto più grande quanto più i dati
sono variabili rispetto alla mediana.
Una ulteriore alternativa è fornita dal Range, ovvero
Range = MAX – MIN
Tale indice tuttavia è di scarso rilievo data la sua evidente dipendenza dalla presenza di eventuali dati anomali.
ELEMENTI DI STATISTICA DESCRITTIVA 29 Confrontando i due indici di tendenza centrale media campionaria e mediana è possibile trarre delle indicazioni in merito alla simmetria della distribuzione dei dati:
Una indicazione più precisa è data dall’indice di
asimmetria (skewness), che in base al valore assunto,
positivo o negativo, ci indica l’intensità ed il tipo
dell’eventuale asimmetria.
INDICI STATISTICI DI SIMMETRIA
z media < mediana:
asimmetria negativa o distribuzione obliqua a sinistra
z media = mediana: simmetria z media > mediana:
asimmetria positiva o distribuzione obliqua a destra
INDICI STATISTICI DI SINTESI
6.4 6.3 6.2 6.1 6.0 5.9 5.8 5.7 Median Mean 6.050 6.025 6.000 5.975 5.950 5.925 5.900
Anderson-Darling Normality Test
Variance 0.0199 Skewness 0.638190 Kurtosis 0.953411 N 30 Minimum 5.6900 A-Squared 1st Quartile 5.8900 Median 5.9750 3rd Quartile 6.0450 Maximum 6.3700
95% Confidence Interval for Mean 5.9386
0.56
6.0441 95% Confidence Interval for Median
5.9046 6.0277
95% Confidence Interval for StDev
0.1125 0.1898
P-Value 0.137
Mean 5.9913
StDev 0.1412
9 5 % Confidence Intervals
ELEMENTI DI STATISTICA DESCRITTIVA 31
INDICI STATISTICI DI SINTESI
34 32 30 28 26 24 22 Median Mean 33 32 31 30 29 28
Anderson-Darling Normality Test
Variance 8.056 Skewness 0.091120 Kurtosis -0.761950 N 10 Minimum 26.000 A-Squared 1st Quartile 28.000 Median 30.500 3rd Quartile 32.500 Maximum 35.000
95% Confidence Interval for Mean 28.470
0.17
32.530 95% Confidence Interval for Median
28.000 32.685
95% Confidence Interval for StDev
1.952 5.182
P-Value 0.912
Mean 30.500
StDev 2.838
9 5 % Confidence Inter vals
Summary for Indice di rimbalzo
Colonna = A 34 32 30 28 26 24 22 Median Mean 31.5 30.0 28.5 27.0 25.5 24.0
Anderson-Darling Normality Test
Variance 13.611 Skewness 0.08298 Kurtosis -1.24255 N 10 Minimum 22.000 A-Squared 1st Quartile 24.000 Median 27.000 3rd Quartile 30.500 Maximum 33.000
95% Confidence Interval for Mean 24.861
0.24
30.139 95% Confidence Interval for Median
24.000 30.685
95% Confidence Interval for StDev
2.538 6.735
P-Value 0.682
Mean 27.500
StDev 3.689
9 5 % Confidence Inter vals
Summary for Indice di rimbalzo
Colonna = B
L’informazione che si può desumere dagli indici statistici di sintesi può essere particolarmente apprezzata in caso di comparazione tra più serie di dati, come risulta chiaramente dall’esempio tensione di rottura di barre d’acciaio di 3 differenti diametri.
CONFRONTO TRA INDICI STATISTICI
Media Mediana 12 589.25 587.5 0.24 14 595.13 596 -0.02 16 610.88 612 -0.19 Dev.std IQR 12 27.7 50.25 14 14.4 25.75 16 14.9 30.75
Spessore Indice di posizione Skewness
ELEMENTI DI STATISTICA DESCRITTIVA 33 Spostiamo ora l’attenzione su alcune tecniche descrittive utilizzate per identificare eventuali pattern nei dati provenienti da serie temporali, ovvero sequenze di misure di uno stesso fenomeno/variabile di interesse e che seguono prefissato ordine non casuale (es. il livello delle piogge, maree, la pendenza di un campanile, ecc. misurate ad intervalli di ogni ora, giorno, ecc.).
A differenza delle analisi dei campioni di dati che sono discussi nel contesto della maggior parte delle tecniche statistiche descrittive, l'analisi delle serie temporali si basa sul presupposto che i valori successivi nel set di dati rappresentano delle misurazioni, rilevate successivamente una altra in una ben determinata sequenza e ad intervalli di tempo equidistanti.
STATISTICA DESCRITTIVA PER SERIE TEMPORALI
Ci sono due obiettivi principali nell’analisi delle serie temporali:
1. Identificare la natura del fenomeno rappresentato dalla
sequenza di osservazioni, e
2. Forecasting: prevedere valori futuri della serie temporale
Entrambi questi obiettivi richiedono che un modello esplicativo alla base dei dati della serie temporale osservata sia identificato e descritto più o meno formalmente. Una volta che il modello viene stabilito, siamo in grado di interpretare e integrare con altri dati, con l'obiettivo di estrapolare il modello individuato per predire eventi futuri. Dal punto di vista descrittivo questo può essere fatto mediante un approccio di tipo grafico e per mezzo di due strumenti: trend analysis e smoothing.
ELEMENTI DI STATISTICA DESCRITTIVA 35
STATISTICA DESCRITTIVA PER SERIE TEMPORALI
Anno P re ci p it a zio n e 1980 1971 1962 1953 1944 1935 1926 1917 1908 1900 40.0 37.5 35.0 32.5 30.0 27.5 25.0 Accuracy Measures MAPE 6.04344 MAD 1.92261 MSD 5.85462 Variable Actual Fits
Trend Analysis Plot della Precipitazione annua (Grandi Laghi)
Quadratic Trend Model Yt = 31.0169 - 0.0235468*t + 0.000777357*t**2 Anno P re ci p it a zio n e 1980 1971 1962 1953 1944 1935 1926 1917 1908 1900 40.0 37.5 35.0 32.5 30.0 27.5 25.0 Smoothing Constant Alpha 0.104448 Accuracy Measures MAPE 6.21611 MAD 2.00235 MSD 6.55249 Variable Actual Fits
Smoothing Esponenziale Precipitazione annua (Grandi Laghi)
Trend analysis mediante trend quadratico Lisciamento mediante smoothing esponenziale
Quando sulla stessa unità od oggetto vengono rilevati contemporaneamente due o più variabili numeriche, si parla di dati bi- o multi-variati. In questo caso può essere di interesse studiare il modo in cui queste variabili sono eventualmente legate tra loro.
Ad esempio possiamo considerare la Resistenza a compressione (Rc), la Prova di compressione edometrica (Ed) e la Resistenza a trazione indiretta (Rt) misurate sugli stessi provini, ottenuti da scarti provenienti da lavorazioni siderurgiche per la realizzazione di rilevati stradali.
Il diagramma di dispersione per una coppia di variabili numeriche X e Y, può fornire una prima chiave di lettura dell’eventuale legame esistente tra le variabili. Infatti, a seconda di come si dispone la “nuvola” di punti, possiamo ritenere plausibile un eventuale legame tra le due variabili.
ELEMENTI DI STATISTICA DESCRITTIVA 37 Se consideriamo una serie di diagrammi di dispersione per ogni possibile coppia di variabili, otteniamo il cosiddetto matrix-plot, che può fornire una prima chiave lettura del legame esistente tra le variabili.
Possiamo dedurre alcune chiare indicazioni:
MATRIX PLOT
1. tutte le tre misure prestazionali sono correlate
positivamente, 2. il legame più forte si
osserva tra Rt e Ed mentre quello più debole tra Ed e Rc. Rc Ed Rt 20000 10000 0 4 8 12 10.0 7.5 5.0 2000 1000 0
Matrix Plot di Rc; Ed; Rt
Un modalità più rigorosa che consente di studiare il grado di intensità del legame lineare tra coppie di variabili consiste nel calcolare l’indice di correlazione (lineare) campionaria:
La correlazione, varia tra -1 e +1, indicando
IL COEFFICIENTE DI CORRELAZIONE
¾ r= − 1 (+1): perfetta correlazione negativa (positiva)
¾ − 1 < r < − 0.7 (+ 1 < r < + 0.7):
forte correlazione negativa (positiva)
¾ − 0.7 < r < − 0.3 (+ 0.7 < r < + 0.3):
debole correlazione negativa (positiva)
¾ − 0.3 < r < + 0.3: assenza di correlazione 1 2 2 1 1 ( )( ) ( ) ( ) n i i i n n i i i i x x y y r x x y y = = = − − = − ⋅ −