• Non ci sono risultati.

La rappresentazione e la sintesi dei dati

N/A
N/A
Protected

Academic year: 2021

Condividi "La rappresentazione e la sintesi dei dati"

Copied!
15
0
0

Testo completo

(1)

1

LA RAPPRESENTAZIONE E LA SINTESI DEI DATI

Metodi statistici e probabilistici per l’ingegneria

Corso di Laurea in Ingegneria Civile

A.A. 200

9-10

Facoltà di Ingegneria, Università di Padova

Docente: Dott. L. Corain

LA RAPPRESENTAZIONE

E LA SINTESI

(2)

3

LA RAPPRESENTAZIONE E LA SINTESI DEI DATI

SOMMARIO

¾

Definizione di statistica descrittiva

¾

Gli aspetti e gli strumenti della statistica

descrittiva

¾

Statistica descrittiva per i dati multivariati

LA STATISTICA DESCRITTIVA: DEFINIZIONE

Con il termine statistica descrittiva si intende un insieme di tecniche e strumenti finalizzati ad assolvere uno dei principali compiti assegnati della Statistica:

descrivere, rappresentare e sintetizzare in maniera opportuna un campione di dati proveniente da un processo produttivo o in generale da una popolazione di interesse. Per popolazione si intende la totalità dei casi, ovvero delle unità statistiche, sulle quali e possibile rilevare il fenomeno numerico di interesse, ad esempio il diametro della fascia di un pistone o la produzione di un impianto. In questo caso, la popolazione è la totalità dei pistoni o l’insieme di tutti i possibili volumi di produzione dell’impianto.

(3)

5

LA RAPPRESENTAZIONE E LA SINTESI DEI DATI

STATISTICA DESCRITTIVA vs STATISTICA INFERENZIALE

Mentre la statistica descrittiva si occupa di rappresentare l’informazione contenuta in un dato insieme o campione di dati, la statistica inferenziale utilizza tale informazione per fare delle affermazioni più generali riguardanti i parametri (solitamente µ e σ) della popolazione, da cui il campione è stato estratto.

Le affermazioni della statistica inferenziale sono di due tipi: 9 STIMA: si vuole indicare un valore plausibile per il

parametro della popolazione, sotto una delle 2 forme: 1. un valore ben definito (STIMA PUNTUALE)

2. un intervallo in cui molto verosimilmente il parametro sia incluso (STIMA INTERVALLARE)

9 VERIFICA DI IPOTESI: indicare quale tra due specifiche ipotesi sul parametro (nulla o alternativa) sia da accettare

LA STATISTICA DESCRITTIVA: ASPETTI E STRUMENTI

Per descrivere e sintetizzare l’informazione campionaria di un fenomeno numerico di interesse, la statistica descrittiva si focalizza su 3 principali aspetti:

1. la descrizione e la forma della distribuzione 2. la posizione o tendenza centrale

3. la variabilità o dispersione

Gli strumenti messi a disposizione dalla statistica descrittiva possono essere sia di tipo grafico che numerico. In questo ultimo caso si tratta di opportuni indici di sintesi, che in unico valore esprimono una specifica caratteristica della distribuzione dei dati: la tendenza centrale, la variabilità e la forma della distribuzione.

(4)

7

LA RAPPRESENTAZIONE E LA SINTESI DEI DATI

LA STATISTICA DESCRITTIVA: DETTAGLIO STRUMENTI

Grafici:

9 dotplot 9 boxplot

9 (tabella ed) istogramma di frequenza ¾ frequenza assoluta, frequenza relativa ¾ frequenza, frequenza cumulata

Indici di sintesi:

9 indici di posizione o tendenza centrale ¾ media, mediana, moda

9 indici di variabilità o dispersione

¾ varianza, deviazione standard (scarto quadr. medio) range, range interquartile

9 indice di asimmetria

Si consideri la fascia elastica di un pistone, per il quale si è misurato il diametro interno in 25 campioni di lotti casuali, ciascuno contente 5 pistoni (totale 125 osservazioni).

... ... ...

(5)

9

LA RAPPRESENTAZIONE E LA SINTESI DEI DATI

Una prima sintetica rappresentazione grafica dei dati è fornita dal dotplot, dove ogni distinto valore osservato corrisponde ad un pallino:

Possiamo inoltre notare che i dati cadono in un range (intervallo) di 0.04 mm, calcolato come differenza tra il valore massimo (74.02) e minimo (73.98) osservato.

UNA PRIMA RAPPRESENTAZIONE GRAFICA

74.02 74.01 74.00 73.99 73.98 Diametro

Dotplot of Diametro Osserviamo che la

maggior parte dei dati tende a

“addensarsi” attorno ad un valore

centrale pari a 74.00 mm.

Per approfondire la descrizione della distribuzione dei dati, partendo dal valore minimo di 73.98, dividiamo l’intervallo di osservazione dei dati (di ampiezza 0.04 mm) in 8 intervalli di uguale ampiezza pari a 0.005: [73.980, 73.985[, [73.985, 73.990[, ..., [74.015, 73.002[. Se contiamo il numero di unità che cadano all’interno di ciascun intervallo, otteniamo la tabella ed il corrispondente istogramma di frequenza.

LA TABELLA E L’ISTOGRAMMA DI FREQUENZA

Conteggio di Diametro Intervallo ass. % 73.980-73.985 4 3.2 73.985-73.990 15 12.0 73.990-73.995 15 12.0 73.995-74.000 26 20.8 74.000-74.005 30 24.0 74.005-74.010 12 9.6 74.010-74.015 14 11.2 74.015-74.020 9 7.2 Totale complessivo 125 100.0 frequenza 74.020 74.015 74.010 74.005 74.000 73.995 73.990 73.985 73.980 20 10 0 diametro (mm) fr e q ue nz a p e rc e ntual e

(6)

11

LA RAPPRESENTAZIONE E LA SINTESI DEI DATI

Se sommiamo via via le frequenze in maniera cumulata rispetto agli intervalli, si ottiene la cosiddetta frequenza

cumulata, che ci dice quante osservazioni cadono fino ad

una certa soglia. Per costruzione, il valore della frequenza cumulata rispetto all’ultima soglia sarà il numero totale di osservazioni o il valore 100% rispettivamente per la frequenza cumulata assoluta o relativa.

LA FREQUENZA CUMULATA

74.020 74.015 74.010 74.005 74.000 73.995 73.990 73.985 73.980 100 50 0 Diametro C um ula tiv e P e rc e nt

Frequenza relativa % cumulata

Conteggio di Diametro Soglia ass. % < 73.985 4 3.2 < 73.990 19 15.2 < 73.995 34 27.2 < 74.000 60 48.0 < 74.005 90 72.0 < 74.010 102 81.6 < 74.015 116 92.8 < 74.020 125 100.0 frequenza cumulata

ƒ porre il limite inferiore della prima classe leggermente al di sotto del valore minimo osservato, preferibilmente individuando un valore di riferimento che faciliti l’interpretazione dei dati

ƒ scegliere un numero di intervalli da un minimo di 4-5 ad un massimo di 10-12; in base al numero di intervalli calcolare la corrispondente ampiezza

ƒ in alternativa, scegliere una ampiezza opportuna dell’intervallo, preferibilmente in modo che il numero di classi sia coerente con il punto precedente

LA DEFINIZIONE DEGLI INTERVALLI

Nella definizione degli intervalli è utile seguire alcune semplici regole empiriche:

(7)

13

LA RAPPRESENTAZIONE E LA SINTESI DEI DATI

In un’analisi statistica siamo talvolta interessati a esaminare il comportamento simultaneo di due variabili qualitative: per esempio ci possiamo chiedere se esiste un legame fra il livello delle acque ed un particolare bacino idrico, sulla base ad es. delle osservazioni mensili negli ultimi 10 anni. La tabella di contingenza è una tabella a doppia entrata in cui le osservazioni relative a due variabili categoriali vengono rappresentate/sintetizzate simultaneamente.

LA FREQUENZA NEL CASO DI VARIABILI QUALITATIVE

LIVELLO DELLE ACQUE BACINO IDRICO

DEL BACINO A B C Totale

Basso 40 19 25 84

Medio 10 11 20 41

Alto 70 90 75 235

Totale 120 120 120 360

Al fine di analizzare la possibile relazione esistente fra le due variabili, è opportuno convertire le frequenze congiunte assolute in frequenze relative (o percentuali). Questa operazione può essere realizzata riferendosi (condizionandosi) alternativamente al:

1. totale complessivo (rappresentato nel nostro caso dalle 360 osservazioni mensili)

2. totale di riga (rispetto al numero totale di mesi per livello delle acque)

3. totale per colonna (rispetto al numero totale di mesi di osservazione per ciascun bacino)

Il risultato e l’informazione che se ne ottiene dipende dallo specifico totale che viene scelto a riferimento.

(8)

15

LA RAPPRESENTAZIONE E LA SINTESI DEI DATI

LA FREQUENZA NEL CASO DI VARIABILI QUALITATIVE

Ad esempio, per analizzare lo stato di salute del livello idrico rispetto a ciascuna area, è necessario riferirsi alla tabella di frequenza condizionata al totale di colonna.

LIVELLO DELLE ACQUE BACINO IDRICO DEL BACINO A B C Totale

Basso 33.3% 15.8% 20.8% 23.3% Medio 8.3% 9.2% 16.7% 11.4% Alto 58.3% 75.0% 62.5% 65.3% Totale 100.0% 100.0% 100.0% 100.0%

Frequenza nel livello delle acque per bacino idrico

0.0% 10.0% 20.0% 30.0% 40.0% 50.0% 60.0% 70.0% 80.0% A B C Bacino F re q ue nza Basso Medio Alto Livello delle acque

ƒ il valore nella posizione centrale ( (125+1)/2, cioè il 63°) definisce la MEDIANA

ƒ il valore nella posizione ¼ ( (125+1)/4=32.5 quindi la media 31°-32° dato) definisce Q1 (primo QUARTILE) ƒ il valore nella posizione ¾ ( (125+1)*3/4=94.5 quindi la

media 94°-95° dato) definisce Q3 (terzo QUARTILE)

MEDIANA E QUARTILI: DEFINIZIONE

Posizione 1 2 ... 31 32 ... 63 ... 94 95 ... 124 125

Diametro 73.9801 73.9829 ... 73.9942 73.9944 ... 74.0007 ... 74.0054 74.0066 ... 74.0179 74.0199

Indice MIN Q1 (1° quartile) MEDIANA MAX

73.9943 74.006

Q3 (3° quartile)

Oltre ai valori massimo e minimo, altri indici statistici di posizione possono fornirci informazioni importanti di sintesi sulla distribuzione dei dati. Se ordiniamo i dati, dal più piccolo al più grande

(9)

17

LA RAPPRESENTAZIONE E LA SINTESI DEI DATI

ƒ MEDIANA: se n è dispari, la mediana è il valore della serie ordinata nella posizione (n+1)/2, mentre se n è pari, la mediana è la media aritmetica dei due valori della serie ordinata nelle posizioni n/2 e n/2+1

ƒ Q1 e Q3: se n+1 è divisibile per 4, Q1 e Q3 sono i valori della serie ordinata nelle posizioni (n+1)/4 e (n+1)*3/4, mentre se n+1 non è divisibile per 4, se (n+1)/4 e (n+1)*3/4 cadano esattamente tra 2 posizioni (es. 32.5 e 94.5) allora Q1 e Q3 sono definiti dalla media aritmetica dei due valori adiacenti della serie ordinata (es. 31-32 e 94-95), altrimenti sono definiti come i valore che sta nella posizione corrispondente al valore (n+1)/4 e (n+1)*3/4 una volta arrotondato all’intero più vicino

MEDIANA E QUARTILI: REGOLA DEFINIZIONE POSIZIONI

Sia n il numero di osservazioni del campione di dati. In base al fatto che n sia pari o dispari e che sia divisibile per 4, la mediana ed i quartili vengono così definiti:

IL BOXPLOT

La rappresentazione grafica dei 5 numeri di sintesi: MIN, Q1, MEDIANA, Q3 e MAX, forniscono il cosiddetto BOXPLOT.

Per costruzione, all’interno della “scatola” è contenuto il 50% dei dati osservati.

La forma della scatola (rispetto alla mediana) ed il modo in cui si allungano i tratti laterali (“baffi”) danno un’indicazione sia della tendenza centrale, che sulla variabilità (“intensità” della dispersione) che sulla simmetria della distribuzione.

73.98 73.99 74.00 74.01 74.02 Diametro Boxplot of Diametro MIN MAX MEDIANA Q3 Q1

(10)

19

LA RAPPRESENTAZIONE E LA SINTESI DEI DATI

IL BOXPLOT MODIFICATO

Se nella costruzione del boxplot, MIN e MAX sono sostituiti o MIN*=max{MIN,Q1-1.5*(Q3-Q1)}

o MAX*= min{MAX,Q3+1.5*(Q3-Q1)} otteniamo il cosiddetto boxplot modificato. In questo caso, se sono

presenti alcuni valori che oltrepassano le soglie MIN* e MAX*, essi sono indicati con un asterisco, ad indicare che si potrebbe trattare di dati anomali (outlier) nel campione di dati. 3 2 1 0 Boxplot modificato MIN MAX* outliers

IL BOXPLOT PER IL CONFRONTO TRA SERIE DI DATI

Boxplot e dotplot sono particolarmente efficaci nella confronto tra più serie di dati, per la comparazione tra tendenza centrale, variabilità e forma della distribuzione. Ad esempio, considerati 3 impianti A,B,C, possiamo confrontare un campione di valori di produzione per ciascuno dei tre impianti.

C B A 115 110 105 100 95 90 85 80 Impianto P ro d uz io ne

Dotplots of Produzione by Impianto

C B A 115 110 105 100 95 90 85 80 Impianto Pr od uz io ne

(11)

21

LA RAPPRESENTAZIONE E LA SINTESI DEI DATI

LA FREQUENZA PER IL CONFRONTO TRA SERIE DI DATI

Anche la frequenza può essere utilizzata a scopi comparativi, per evidenziare differenze ad analogie in diverse serie di dati.

Una curva più a destra o sotto/a destra rispetto ad un’altra, rispettivamente per la frequenza o frequenza cumulata, indica che la corrispondente serie di dati è distribuita su valori tendenzialmente più elevati.

A B C 120 115 110 105 100 95 90 85 80 25 20 15 10 5 0 Produzione C um ul at iv e Fr equ en cy

Frequenza assoluta cumulata, per impianto

A B C 120 115 110 105 100 95 90 85 80 10 9 8 7 6 5 4 3 2 1 0 Produzione Fr equ en cy

Frequenza assoluta, per impianto

La posizione o tendenza centrale di una serie di dati può essere utilmente rappresentata da un unico valore di sintesi come la mediana. Si noti che la mediana non è influenzata dalla presenza di dati anomali e per questo è detta essere un indicatore robusto.

Una alternativa è data dalla media campionaria dei valori osservati ovvero

La media campionaria è una sorta di “baricentro” dei dati e, a differenza della mediana, tende ad essere “trascinata” verso i dati anomali.

Un’ulteriore alternativa (poco usata) è la moda, definita come il valore più frequente in una serie di dati.

INDICI STATISTICI DI POSIZIONE O TENDENZA CENTRALE

1 2 ... 1 n i n i x x x x x n n = + + + = =

(12)

23

LA RAPPRESENTAZIONE E LA SINTESI DEI DATI

La variabilità o dispersione dei dati indica il grado di “oscillazione” o variazione dei valori rispetto alla loro tendenza centrale, misurata ad esempio con la media campionaria. L’indice statistico s2, definito come

è detto varianza campionaria.

Dato che s2 è definito nel quadrato della unità di misura di X, per facilità di interpretazione si preferisce usare la

deviazione standard o scarto quadratico medio .

Per comparare la variabilità di X e Y, se misurati su unità di misura diverse si utilizza il coefficiente di variazione:

INDICI STATISTICI DI VARIABILITÀ O DISPERSIONE

2 2 1 ( ) 1 n i i x x s n = − = −

2 s = s / CV =s x

Se in luogo della media campionaria, consideriamo come indice di posizione la mediana, la variabilità dei dati può essere misura dal Range Interquartile definito come

IQR = Q3-Q1

si noti che, per costruzione, tale indice di dispersione è sempre ≥ 0, risultando tanto più grande quanto più i dati sono variabili rispetto alla mediana.

Una ulteriore alternativa è fornita dal Range, ovvero Range = MAX – MIN

Tale indice tuttavia è di scarso rilievo data la sua evidente dipendenza dalla presenza di eventuali dati anomali.

(13)

25

LA RAPPRESENTAZIONE E LA SINTESI DEI DATI

Confrontando i due indici di tendenza centrale media campionaria e mediana è possibile trarre delle indicazioni in merito alla simmetria della distribuzione dei dati:

Una indicazione più precisa è data dall’indice di

asimmetria (skewness), che in base al valore assunto,

positivo o negativo, ci indica l’intensità ed il tipo dell’eventuale asimmetria.

INDICI STATISTICI DI SIMMETRIA

z media < mediana:

asimmetria negativa o distribuzione obliqua a sinistra

z media = mediana: simmetria

z media > mediana:

asimmetria positiva o distribuzione obliqua a destra

L’informazione che si può desumere dagli indici statistici di sintesi può essere particolarmente apprezzata in caso di comparazione tra più serie di dati, come risulta chiaramente dall’esempio della produzione dei tre impianti.

CONFRONTO TRA INDICI STATISTICI

Media Mediana Skewness

A 100.1 100.0 -0.150

B 96.1 95.7 0.103

C 91.5 89.8 1.109

Varianza DevStd IQR

A 29.0 5.4 5.7

B 78.8 8.9 18.2

C 62.6 7.9 11.8

Impianto Indice di posizione

(14)

27

LA RAPPRESENTAZIONE E LA SINTESI DEI DATI

Quando sulla stessa unità od oggetto vengono rilevati contemporaneamente due o più variabili numeriche, si parla di dati bi- o multi-variati. In questo caso è di interesse studiare il modo in cui queste variabili sono eventualmente associate tra loro.

Ad esempio possiamo considerare il volume di produzione, il ciclo temporale e la temperatura media, di un certo processo industriale.

Il diagramma di dispersione per una coppia di variabili numeriche X e Y, può fornire una prima chiave lettura del legame esistente tra le variabili. Infatti, a seconda di come si dispone la “nuvola” di punti, possiamo ritenere plausibile un eventuale legame tra le due variabili.

STATISTICA DESCRITTIVA PER DATI BI- o MULTI-VARIATI

Se consideriamo una serie di diagrammi di dispersione per ogni possibile coppia di variabili, otteniamo il cosiddetto matrix-plot, che può fornire una prima chiave lettura del legame esistente tra le variabili.

Possiamo dedurre una chiara indicazione che

MATRIX PLOT

24.925 22.375 3.46 2.68 24.925 22.375 3.66 3.42 3.46 2.68 3.42 3.66 VO L_ P R O D TE M P O VOL_PROD T EM PER TEMPO TEMPER 1. tempo e volume di produzione sono correlati positivamente, 2. temperatura - tempo e temperatura - volume di produzione sono invece correlati negativamente.

(15)

29

LA RAPPRESENTAZIONE E LA SINTESI DEI DATI

Un modalità più rigorosa che consente di studiare il grado di intensità del legame lineare tra coppie di variabili consiste nel calcolare l’indice di correlazione (lineare) campionaria:

La correlazione, varia tra -1 e +1, indicando

IL COEFFICIENTE DI CORRELAZIONE

¾ r = − 1 (+1): perfetta correlazione negativa (positiva)

¾ − 1 < r < − 0.7 (+ 1 < r < + 0.7):

forte correlazione negativa (positiva)

¾ − 0.7 < r < − 0.3 (+ 0.7 < r < + 0.3):

debole correlazione negativa (positiva)

¾ − 0.3 < r < + 0.3: assenza di correlazione 1 2 2 1 1 ( )( ) ( ) ( ) n i i i n n i i i i x x y y r x x y y = = = − − = − ⋅ −

Correlations: VOL_PROD; TEMPO; TEMPER

VOL_PROD TEMPO TEMPO 0.908

TEMPER -0.915 -0.990

Riferimenti

Documenti correlati

Ammoniaca non ionizzata; Cloro residuo totale;.

DC Patrimonio Area B - assessment 2014 rappresentazione di sintesi in % e in valore. Approvvigionamenti e appalto lavori

Grado di esposizione al rischio residuo rappresentazione di sintesi in % per sottoprocesso. 0,7526881

Accertamenti medico-legali ai fini delle erogazioni delle prestazioni economiche assicurative. 50% 50% 0% 0%

Concessione riduzione tasso medio di tariffa dopo i primi due anni

Rimborso spese di viaggio e soggiorno cure idrofangotermali e soggiorni

We have results from two phase III trials testing CDK4/6 inhibitors in HER+/HER-2 advanced breast cancer patients who progressed on prior endocrine therapy:.

Banche, Finanziarie, soggetti terzi ed Enti Pubblici. Tali dati sono comunque inerenti le attività economiche e commerciali da Voi svolte e possono riguardare, ad esempio,