Elementi di statistica descrittiva

(1)

ELEMENTI DI STATISTICA DESCRITTIVA 1

Metodi Statistici e Probabilistici per l’Ingegneria

ELEMENTI DI

STATISTICA DESCRITTIVA

Corso di Laurea in Ingegneria Civile

Facoltà di Ingegneria, Università di Padova

Docente: Dott. L. Corain

E-mail: livio.corain@unipd.it Home page: www.gest.unipd.it/~livio/Corso_Civile.html

SOMMARIO

¾

Statistica descrittiva vs. Statistica inferenziale

¾

Gli aspetti della statistica descrittiva

descrizione e forma della distribuzione

posizione o tendenza centrale

variabilità o dispersione

¾

Gli strumenti della statistica descrittiva

tabelle e grafici

indici di sintesi

¾

Statistica descrittiva per serie temporali

(2)

ELEMENTI DI STATISTICA DESCRITTIVA

STATISTICA DESCRITTIVA vs STATISTICA INFERENZIALE

La statistica descrittiva è un insieme di tecniche usate per descrivere le caratteristiche di base dei dati raccolti in un esperimento/studio.

Esse forniscono una sintesi semplice del campione e delle misure raccolte. Insieme alla semplice analisi grafica, costituisco la base iniziale di partenza di qualsivoglia analisi quantitativa dei dati.

Mentre con le statistiche descrittive si sta semplicemente descrivendo ciò che si osserva o ciò che i dati evidenziano

nei loro tratti essenziali, con la statistica inferenziale, si

tenterà di raggiungere conclusioni che si estendono oltre i dati raccolti nel loro immediato e che possono essere valide e riferibili ad un contesto più ampio rispetto a quello dei dati di quel singolo esperimento/studio.

LA STATISTICA DESCRITTIVA: DEFINIZIONE

Con il termine statistica descrittiva si intende un insieme di tecniche e strumenti finalizzati ad assolvere uno dei principali compiti assegnati della Statistica:

descrivere, rappresentare e sintetizzare in maniera opportuna un insieme o campione di dati relativamente ad un problema (popolazione) di interesse.

Per popolazione si intende la totalità dei casi, ovvero delle unità sulle quali e possibile rilevare una variabile di interesse, ad esempio i provini ottenuti da una miscela cemento/calcestruzzo su cui si esegue una prova di compressione allo scopo di misurare il carico di rottura. Per estensione, con popolazione si intende anche il prodotto/processo/fenomeno oggetto di indagine.

Per campione si intende invece un insieme finito di n unità che si può ritenere rappresentativo dell’intera popolazione (che per definizione ha invece numerosità infinita).

(3)

STATISTICA DESCRITTIVA vs STATISTICA INFERENZIALE

Mentre la statistica descrittiva si occupa di rappresentare l’informazione contenuta in un dato insieme o campione di dati, la statistica inferenziale utilizza tale informazione per fare delle affermazioni più generali riguardanti i parametri

(solitamente µ e σ) della popolazione, da cui il campione è

stato estratto.

Le affermazioni della statistica inferenziale sono di due tipi:

9 STIMA: si vuole indicare un valore plausibile per il

parametro della popolazione, sotto una delle 2 forme:

1. un valore ben definito (STIMA PUNTUALE)

2. un intervallo in cui molto verosimilmente il parametro

sia incluso (STIMA INTERVALLARE)

9 VERIFICA DI IPOTESI: indicare quale tra due specifiche

ipotesi sul parametro (nulla o alternativa) sia da accettare

STATISTICA DESCRITTIVA vs STATISTICA INFERENZIALE

Si noti la netta distinzione concettuale tra

parametri (solitamente µ e σ) della popolazione: si tratta

di quantità non osservabili (ma stimabili);

stime dei parametri (media e deviazione standard

campionaria): si tratta di valori plausibili per un parametro della popolazione e che possiamo calcolare attraverso i dati campionari.

Assunto un modello di probabilità rappresentativo della popolazione, attraverso le stime dei parametri possiamo inoltre:

stimare il profilo della distribuzione della popolazione;

costruire degli intervalli di confidenza per i parametri.

Si noti che l’assunzione che un data distribuzione di probabilità sia rappresentativa della popolazione non assicura affatto che tale distribuzione rappresenti il vero modello della popolazione.

(4)

LA STATISTICA DESCRITTIVA: ASPETTI E STRUMENTI

Per descrivere e sintetizzare l’informazione campionaria di un fenomeno numerico di interesse, la statistica descrittiva si focalizza su 3 principali aspetti:

1. la descrizione e la forma della distribuzione

2. la posizione o tendenza centrale

3. la variabilità o dispersione

Gli strumenti messi a disposizione dalla statistica descrittiva possono essere sia di tipo grafico sia numerico. In questo ultimo caso si tratta di opportuni indici di sintesi, che in unico valore esprimono una specifica caratteristica della distribuzione dei dati: la tendenza centrale, la variabilità e la forma della distribuzione.

LA STATISTICA DESCRITTIVA: DETTAGLIO STRUMENTI

Grafici:

9 Dotplot

9 (tabella ed) istogramma di frequenza

¾ frequenza assoluta, frequenza relativa

¾ frequenza, frequenza cumulata

9 boxplot

9 probability plot

Indici di sintesi:

9 indici di posizione o tendenza centrale

¾ media, mediana, moda

9 indici di variabilità o dispersione

¾ varianza, deviazione standard (scarto quadr. medio)

range, range interquartile

(5)

ELEMENTI DI STATISTICA DESCRITTIVA 9 In uno studio sugli spessori di una lastra nervata in fibrocemento si sono effettuate delle misurazioni (mm), in corrispondenza a 30 posizioni della lastra.

UN ESEMPIO: SPESSORE DI UNA LASTRA

6.4 6.3 6.2 6.1 6.0 5.9 5.8 5.7 Spessore (mm)

Dotplot dello Spessore della lastra (mm)

Una prima sintetica rappresentazione grafica dei dati è fornita dal dotplot, dove ogni distinto valore osservato corrisponde ad un pallino:

Possiamo inoltre notare che i dati cadono in un range (intervallo) di 0.8 mm, calcolato come differenza tra il valore massimo (6.4) e minimo (5.6) osservato.

UNA PRIMA RAPPRESENTAZIONE GRAFICA

Osserviamo che la maggior parte dei dati tende a

“addensarsi” attorno ad un valore

(6)

ELEMENTI DI STATISTICA DESCRITTIVA Spessore Fr eq eq ue nz a r el at iv a p er cen tu al e 6.4 6.3 6.2 6.1 6.0 5.9 5.8 5.7 5.6 30 25 20 15 10 5 0

Istogramma della frequenza relativa dello Spessore

11 Per approfondire la descrizione della distribuzione dei dati, partendo dal valore minimo 5.6, dividiamo l’intervallo di osservazione dei dati (di ampiezza 0.8 mm) in 8 intervalli di uguale ampiezza pari a 0.1 mm: [5.6, 5.7[, [5.7, 5.8[, ..., [6.3, 6.4[. Se contiamo il numero di unità che cadano all’interno di ciascun intervallo, otteniamo la tabella ed il corrispondente istogramma di frequenza (assoluta o relativa).

LA TABELLA E L’ISTOGRAMMA DI FREQUENZA

Conteggio

Spessore Assoluta Relativa

5.6-5.7 1 3.3% 5.7-5.8 0 0.0% 5.8-5.9 7 23.3% 5.9-6.0 9 30.0% 6.0-6.1 8 26.7% 6.1-6.2 2 6.7% 6.2-6.3 2 6.7% 6.3-6.4 1 3.3% TOTALE 30 100.0% Frequenza

Con il termine frequenza assoluta si intende il

numero/conteggio di unità che cadano in una

determinata classe (intervallo). La frequenza assoluta somma ad n.

Con il termine frequenza relativa si intende la frazione

(o la percentuale) di unità (rispetto al numero totale di unità) cadano in una determinata classe (intervallo). La frequenza relativa somma ad 1 (o 100%).

Per frequenza cumulata si intende invece il numero di unità che sono inferiori ad una data soglia (appartengono all’intervallo [−∞, soglia[).

La frequenza cumulata può essere sia assoluta sia

relativa.

(7)

Conteggio

Spessore Assoluta Relativa

<5.7 1 3.3% <5.8 1 3.3% <5.9 8 26.7% <6.0 17 56.7% <6.1 25 83.3% <6.2 27 90.0% <6.3 29 96.7% <6.4 30 100.0% Frequ. comulata Spessore Fr eq e que nz a r el a ti va p e rc e nt u al e cu m ul at a 6.4 6.3 6.2 6.1 6.0 5.9 5.8 5.7 5.6 100 80 60 40 20 0

Istogramma della frequenza relativa cumulata dello Spessore

13 Se sommiamo via via le frequenze in maniera cumulata rispetto agli intervalli, si ottiene la cosiddetta frequenza cumulata, che ci dice quante osservazioni cadono fino ad una certa soglia. Per costruzione, il valore della frequenza cumulata rispetto all’ultima soglia sarà il numero totale di osservazioni o il valore 100% rispettivamente per la frequenza cumulata assoluta o relativa.

LA FREQUENZA CUMULATA

porre il limite inferiore della prima classe leggermente al di sotto del valore minimo osservato, preferibilmente individuando un valore di riferimento che faciliti l’interpretazione dei dati

scegliere un numero di intervalli da un minimo di 4-5 ad un massimo di 14-15; in base al numero di intervalli calcolare la corrispondente ampiezza

in alternativa, scegliere una ampiezza opportuna dell’intervallo, preferibilmente in modo che il numero di classi sia coerente con il punto precedente

LA DEFINIZIONE DEGLI INTERVALLI

Nella definizione degli intervalli è utile seguire alcune semplici regole empiriche:

(8)

In un’analisi statistica siamo talvolta interessati a esaminare il comportamento simultaneo di due variabili qualitative: per esempio ci possiamo chiedere se esiste un legame fra il livello delle acque ed un particolare bacino idrico, sulla base ad es. delle osservazioni mensili negli ultimi 10 anni. La tabella di contingenza è una tabella a doppia entrata in cui le osservazioni relative a due variabili categoriali vengono rappresentate/sintetizzate simultaneamente.

LA FREQUENZA NEL CASO DI VARIABILI QUALITATIVE

LIVELLO DELLE ACQUE BACINO IDRICO DEL BACIN O A B C Totale

Basso 40 19 25 84

Medio 10 11 20 41

Alto 70 90 75 235

Totale 120 120 120 360

Al fine di analizzare la possibile associazione esistente fra le due variabili qualitative, è opportuno convertire le frequenze congiunte assolute in frequenze relative (o percentuali).

Questa operazione può essere realizzata riferendosi (condizionandosi) alternativamente al:

1. totale complessivo (rappresentato nel nostro caso dalle 360 osservazioni mensili)

2. totale di riga (rispetto al numero totale di mesi per altezza del livello delle acque)

3. totale per colonna (rispetto al numero totale di mesi di osservazione per ciascun bacino)

Il risultato e l’informazione che se ne ottiene dipende dallo specifico totale che viene scelto a riferimento.

(9)

LA FREQUENZA NEL CASO DI VARIABILI QUALITATIVE

Ad esempio, per analizzare lo stato di salute del livello idrico rispetto a ciascuna area, è opportuno riferirsi alla tabella di frequenza condizionata al totale di colonna.

LIVELLO DELLE ACQUE BACINO IDRICO

DEL BACINO A B C Totale

Basso 33.3% 15.8% 20.8% 23.3%

Medio 8.3% 9.2% 16.7% 11.4%

Alto 58.3% 75.0% 62.5% 65.3%

Totale 100.0% 100.0% 100.0% 100.0%

Frequenza nel livello delle acque per bacino idrico

0.0% 10.0% 20.0% 30.0% 40.0% 50.0% 60.0% 70.0% 80.0% A B C Bacino F re q ue nza Basso Medio Alto Livello delle acque

la media dei due valori nella posizione centrale ((30+1)/2=15.5, cioè 15° e 16°) definisce la MEDIANA il valore più vicino alla posizione ¼ ((30+1)/4=7.75

quindi l’8° dato della serie ordinata) definisce Q1 (primo QUARTILE)

il valore più vicino alla posizione ¾ ( (30+1)*3/4=23.25 quindi il 23° dato) definisce Q3 (terzo QUARTILE)

MEDIANA E QUARTILI: DEFINIZIONE

Oltre ai valori massimo e minimo, altri indici statistici di posizione possono fornirci informazioni importanti di sintesi sulla distribuzione dei dati. Se ordiniamo i dati, dal più piccolo al più grande:

Posizione ordinata 1 2 ... 8 ... 15 16 ... 23 ... 29 30 Spessore 5.69 5.81 ... 5.89 ... 5.97 5.98 ... 6.04 ... 6.24 6.37

Dato ordinato 5.69 5.89 6.04 6.37

Indice MIN Q1 Q3 MAX

5.975

(10)

ELEMENTI DI STATISTICA DESCRITTIVA Spessore 6.3 6.2 6.1 6.0 5.9 5.8 5.7

Boxplot dello Spessore

19

IL BOXPLOT

La rappresentazione grafica dei 5 numeri di sintesi: MIN, Q1, MEDIANA, Q3 e MAX, restituisce il cosiddetto BOXPLOT.

Per costruzione, all’interno della “scatola” è contenuto il 50% dei dati osservati.

La posizione, dimensione e forma della scatola (cioè la distanza tra i due quartili e la mediana) ed il modo in cui si allungano i tratti laterali (“baffi”) danno un’indicazione rispettivamente: della tendenza centrale, della variabilità (“intensità” della dispersione) e della simmetria della distribuzione. Si noti che il boxplot può essere visto come una rappresentazione “stilizzata” della distribuzione dei dati.

MIN MAX

MEDIANA Q3 Q1

 MEDIANA: se n è dispari, la mediana è il valore della serie ordinata nella posizione (n+1)/2, mentre se n è pari, la mediana è la media aritmetica dei due valori della serie ordinata nelle posizioni n/2 e n/2+1

 Q1 e Q3: se n+1 è divisibile per 4, Q1 e Q3 sono i valori della serie ordinata nelle posizioni (n+1)/4 e (n+1)*3/4, mentre se n+1 non è divisibile per 4, se (n+1)/4 e (n+1)*3/4 cadano esattamente tra 2 posizioni (es. 32.5 e 94.5) allora Q1 e Q3 sono definiti dalla media aritmetica dei due valori adiacenti della serie ordinata (es. 31-32 e 94-95), altrimenti sono definiti come i valore che sta nella posizione corrispondente al valore (n+1)/4 e (n+1)*3/4 una volta arrotondato all’intero più vicino

MEDIANA E QUARTILI: REGOLA DEFINIZIONE POSIZIONI

Sia n il numero di osservazioni del campione di dati. In base al fatto che n sia pari o dispari e che sia divisibile per 4, la mediana ed i quartili vengono così definiti:

(11)

ELEMENTI DI STATISTICA DESCRITTIVA Spessore 6.4 6.3 6.2 6.1 6.0 5.9 5.8 5.7 5.6

Boxplot dello Spessore

21

IL BOXPLOT MODIFICATO

Se nella costruzione del boxplot, MIN e MAX sono sostituiti

o MIN*=max{MIN,Q1-1.5*(Q3-Q1)}

o MAX*= min{MAX,Q3+1.5*(Q3-Q1)}

otteniamo il cosiddetto boxplot modificato. In questo caso, se sono

presenti alcuni valori che oltrepassano le soglie MIN* e MAX*, essi sono indicati con un asterisco, ad indicare che si potrebbe considerare come dati anomali (outlier) nel campione di dati.

MIN MAX*

outlier

IL BOXPLOT PER IL CONFRONTO TRA SERIE DI DATI

Boxplot (e dotplot) sono particolarmente efficaci nella confronto tra due o più serie di dati, per la comparazione tra tendenza centrale, variabilità e forma della distribuzione.

Colonna In di ce di r im ba lz o B A 36 34 32 30 28 26 24 22

Boxplot dell'Indice di rimbalzo per Colonna

Ad es., per confrontare i valori di indice di rimbalzo di

prove sclerometriche per

accertare la stima speditiva della resistenza meccanica di due colonne (A/B).

Ad es., per analizzare la tensione di rottura di barre d’acciaio di 3 differenti diametri (12,14,16) via prova di trazione. Spessore R ottu ra 16 14 12 630 620 610 600 590 580 570 560 550

(12)

LA FREQUENZA PER IL CONFRONTO TRA SERIE DI DATI

Anche la frequenza può essere utilizzata a scopi comparativi, per evidenziare differenze ad analogie in diverse serie di dati.

Una curva più a destra o sotto/a destra rispetto ad un’altra, rispettivamente per la frequenza o frequenza cumulata, indica che la corrispondente serie di dati è distribuita su valori tendenzialmente più elevati.

Rottura F req ue n za C u m u la ta Per cen tu al e 620 600 580 560 100 80 60 40 20 0 Spessore 12 14 16

Frequenza cumulata della Rottura

Rottura Fr e q ue n za P e rc en tu al e 620 600 580 560 50 40 30 20 10 0 Spessore 12 14 16

Frequenza della Rottura

IL PROBABILITY PLOT

Un probability plot è un grafico a due dimensioni in cui le osservazioni sono riportate sull’asse verticale e a ciascuna di esse viene fatto corrispondere sull’asse orizzontale il relativo quantile di una distribuzione di probabilità (normale, log-normale,ecc.).

Se i punti del grafico si trovano approssimativamente su una linea retta immaginaria inclinata positivamente, allora possiamo affermare che i dati osservati si distribuiscono approssimativamente secondo una determinata legge di distribuzione di probabilità.

(13)

IL PROBABILITY PLOT

Rottura Pe rc e n t 700 650 600 550 500 99 95 90 80 70 60 50 40 30 20 10 5 1 Mean 0.243 595.1 14.36 8 0.126 0.972 610.9 14.93 8 0.443 StDev 0.209 N AD P 589.3 27.67 8 0.419 Spessore 16 12 14

Probability Plot of Rottura

Normal - 95% CI Indice di rimbalzo Pe rc e n t 40 35 30 25 20 15 99 95 90 80 70 60 50 40 30 20 10 5 1 Mean 0.912 27.5 3.689 10 0.245 0.682 StDev N AD P 30.5 2.838 10 0.167 Colonna A B

Probability Plot of Indice di rimbalzo

Normal - 95% CI Spessore Pe rc e n t 6.4 6.3 6.2 6.1 6.0 5.9 5.8 5.7 5.6 5.5 99 95 90 80 70 60 50 40 30 20 10 5 1 Mean 0.137 5.991 StDev 0.1412 N 30 AD 0.557 P-Value

Probability Plot of Spessore

Normal - 95% CI

La posizione o tendenza centrale di una serie di dati può essere utilmente rappresentata da un unico valore di sintesi

come la mediana. Si noti che la mediana non è influenzata

dalla presenza di dati anomali e per questo è detta essere un indicatore robusto.

Una alternativa è data dalla media campionaria dei valori

osservati ovvero

La media campionaria è una sorta di “baricentro” dei dati e, a differenza della mediana, tende ad essere “trascinata” verso i dati anomali.

Un’ulteriore alternativa (poco usata) è la moda, definita

come il valore più frequente in una serie di dati.

INDICI STATISTICI DI POSIZIONE O TENDENZA CENTRALE

1 2 ... 1 n i n i x x x x x n n = + + + = =

∑

(14)

ELEMENTI DI STATISTICA DESCRITTIVA 27 La variabilità o dispersione dei dati indica il grado di “oscillazione” o variazione dei valori rispetto alla loro tendenza centrale, misurata ad esempio con la media

campionaria. L’indice statistico s2_{, definito come}

è detto varianza campionaria.

Dato che s2 _{è definito nel quadrato della unità di misura di}

X, per facilità di interpretazione si preferisce usare la

deviazione standard o scarto quadratico medio .

Per comparare la variabilità di X e Y, se misurati su unità di

misura diverse si utilizza il coefficiente di variazione:

INDICI STATISTICI DI VARIABILITÀ O DISPERSIONE

2 2 1 ( ) 1 n i i x x s n = − = −

∑

2 s = s / CV =s x

Se in luogo della media campionaria, consideriamo come indice di posizione la mediana, la variabilità dei dati può

essere misura dal Range Interquartile definito come

IQR = Q3-Q1

si noti che, per costruzione, tale indice di dispersione è

sempre ≥ 0, risultando tanto più grande quanto più i dati

sono variabili rispetto alla mediana.

Una ulteriore alternativa è fornita dal Range, ovvero

Range = MAX – MIN

Tale indice tuttavia è di scarso rilievo data la sua evidente dipendenza dalla presenza di eventuali dati anomali.

(15)

ELEMENTI DI STATISTICA DESCRITTIVA 29 Confrontando i due indici di tendenza centrale media campionaria e mediana è possibile trarre delle indicazioni in merito alla simmetria della distribuzione dei dati:

Una indicazione più precisa è data dall’indice di

asimmetria (skewness), che in base al valore assunto,

positivo o negativo, ci indica l’intensità ed il tipo

dell’eventuale asimmetria.

INDICI STATISTICI DI SIMMETRIA

z media < mediana:

asimmetria negativa o distribuzione obliqua a sinistra

z media = mediana: simmetria z media > mediana:

asimmetria positiva o distribuzione obliqua a destra

INDICI STATISTICI DI SINTESI

6.4 6.3 6.2 6.1 6.0 5.9 5.8 5.7 Median Mean 6.050 6.025 6.000 5.975 5.950 5.925 5.900

Anderson-Darling Normality Test

Variance 0.0199 Skewness 0.638190 Kurtosis 0.953411 N 30 Minimum 5.6900 A-Squared 1st Quartile 5.8900 Median 5.9750 3rd Quartile 6.0450 Maximum 6.3700

95% Confidence Interval for Mean 5.9386

0.56

6.0441 95% Confidence Interval for Median

5.9046 6.0277

95% Confidence Interval for StDev

0.1125 0.1898

P-Value 0.137

Mean 5.9913

StDev 0.1412

9 5 % Confidence Intervals

(16)

INDICI STATISTICI DI SINTESI

34 32 30 28 26 24 22 Median Mean 33 32 31 30 29 28

Variance 8.056 Skewness 0.091120 Kurtosis -0.761950 N 10 Minimum 26.000 A-Squared 1st Quartile 28.000 Median 30.500 3rd Quartile 32.500 Maximum 35.000

0.17

28.000 32.685

1.952 5.182

P-Value 0.912

Mean 30.500

StDev 2.838

9 5 % Confidence Inter vals

Summary for Indice di rimbalzo

Colonna = A 34 32 30 28 26 24 22 Median Mean 31.5 30.0 28.5 27.0 25.5 24.0

Variance 13.611 Skewness 0.08298 Kurtosis -1.24255 N 10 Minimum 22.000 A-Squared 1st Quartile 24.000 Median 27.000 3rd Quartile 30.500 Maximum 33.000

0.24

24.000 30.685

2.538 6.735

P-Value 0.682

Mean 27.500

StDev 3.689

9 5 % Confidence Inter vals

Summary for Indice di rimbalzo

Colonna = B

L’informazione che si può desumere dagli indici statistici di sintesi può essere particolarmente apprezzata in caso di comparazione tra più serie di dati, come risulta chiaramente dall’esempio tensione di rottura di barre d’acciaio di 3 differenti diametri.

CONFRONTO TRA INDICI STATISTICI

Media Mediana 12 589.25 587.5 0.24 14 595.13 596 -0.02 16 610.88 612 -0.19 Dev.std IQR 12 27.7 50.25 14 14.4 25.75 16 14.9 30.75

Spessore Indice di posizione Skewness

(17)

ELEMENTI DI STATISTICA DESCRITTIVA 33 Spostiamo ora l’attenzione su alcune tecniche descrittive utilizzate per identificare eventuali pattern nei dati provenienti da serie temporali, ovvero sequenze di misure di uno stesso fenomeno/variabile di interesse e che seguono prefissato ordine non casuale (es. il livello delle piogge, maree, la pendenza di un campanile, ecc. misurate ad intervalli di ogni ora, giorno, ecc.).

A differenza delle analisi dei campioni di dati che sono discussi nel contesto della maggior parte delle tecniche statistiche descrittive, l'analisi delle serie temporali si basa sul presupposto che i valori successivi nel set di dati rappresentano delle misurazioni, rilevate successivamente una altra in una ben determinata sequenza e ad intervalli di tempo equidistanti.

STATISTICA DESCRITTIVA PER SERIE TEMPORALI

Ci sono due obiettivi principali nell’analisi delle serie temporali:

1. Identificare la natura del fenomeno rappresentato dalla

sequenza di osservazioni, e

2. Forecasting: prevedere valori futuri della serie temporale

Entrambi questi obiettivi richiedono che un modello esplicativo alla base dei dati della serie temporale osservata sia identificato e descritto più o meno formalmente. Una volta che il modello viene stabilito, siamo in grado di interpretare e integrare con altri dati, con l'obiettivo di estrapolare il modello individuato per predire eventi futuri. Dal punto di vista descrittivo questo può essere fatto mediante un approccio di tipo grafico e per mezzo di due strumenti: trend analysis e smoothing.

(18)

STATISTICA DESCRITTIVA PER SERIE TEMPORALI

Anno P re ci p it a zio n e 1980 1971 1962 1953 1944 1935 1926 1917 1908 1900 40.0 37.5 35.0 32.5 30.0 27.5 25.0 Accuracy Measures MAPE 6.04344 MAD 1.92261 MSD 5.85462 Variable Actual Fits

Trend Analysis Plot della Precipitazione annua (Grandi Laghi)

Quadratic Trend Model Yt = 31.0169 - 0.0235468*t + 0.000777357*t**2 Anno P re ci p it a zio n e 1980 1971 1962 1953 1944 1935 1926 1917 1908 1900 40.0 37.5 35.0 32.5 30.0 27.5 25.0 Smoothing Constant Alpha 0.104448 Accuracy Measures MAPE 6.21611 MAD 2.00235 MSD 6.55249 Variable Actual Fits

Smoothing Esponenziale Precipitazione annua (Grandi Laghi)

Trend analysis mediante trend quadratico Lisciamento mediante smoothing esponenziale

Quando sulla stessa unità od oggetto vengono rilevati contemporaneamente due o più variabili numeriche, si parla di dati bi- o multi-variati. In questo caso può essere di interesse studiare il modo in cui queste variabili sono eventualmente legate tra loro.

Ad esempio possiamo considerare la Resistenza a compressione (Rc), la Prova di compressione edometrica (Ed) e la Resistenza a trazione indiretta (Rt) misurate sugli stessi provini, ottenuti da scarti provenienti da lavorazioni siderurgiche per la realizzazione di rilevati stradali.

Il diagramma di dispersione per una coppia di variabili numeriche X e Y, può fornire una prima chiave di lettura dell’eventuale legame esistente tra le variabili. Infatti, a seconda di come si dispone la “nuvola” di punti, possiamo ritenere plausibile un eventuale legame tra le due variabili.

(19)

ELEMENTI DI STATISTICA DESCRITTIVA 37 Se consideriamo una serie di diagrammi di dispersione per ogni possibile coppia di variabili, otteniamo il cosiddetto matrix-plot, che può fornire una prima chiave lettura del legame esistente tra le variabili.

Possiamo dedurre alcune chiare indicazioni:

MATRIX PLOT

1. tutte le tre misure prestazionali sono correlate

positivamente, 2. il legame più forte si

osserva tra Rt e Ed mentre quello più debole tra Ed e Rc. Rc Ed Rt 20000 10000 0 4 8 12 10.0 7.5 5.0 2000 1000 0

Matrix Plot di Rc; Ed; Rt

Un modalità più rigorosa che consente di studiare il grado di intensità del legame lineare tra coppie di variabili consiste nel calcolare l’indice di correlazione (lineare) campionaria:

La correlazione, varia tra -1 e +1, indicando

IL COEFFICIENTE DI CORRELAZIONE

¾ r= − 1 (+1): perfetta correlazione negativa (positiva)

¾ − 1 < r < − 0.7 (+ 1 < r < + 0.7):

forte correlazione negativa (positiva)

¾ − 0.7 < r < − 0.3 (+ 0.7 < r < + 0.3):

debole correlazione negativa (positiva)

¾ − 0.3 < r < + 0.3: assenza di correlazione 1 2 2 1 1 ( )( ) ( ) ( ) n i i i n n i i i i x x y y r x x y y = = = − − = − ⋅ −

∑

Rc Ed Ed 0.45 Rt 0.82 0.65