• Non ci sono risultati.

(3)Un utile metodo preliminare per analizzare l'eventuale presenza di un legame tra due variabili quantitative X e Y, è quello di costruire il cosidetto diagramma di correlazione

N/A
N/A
Protected

Academic year: 2021

Condividi "(3)Un utile metodo preliminare per analizzare l'eventuale presenza di un legame tra due variabili quantitative X e Y, è quello di costruire il cosidetto diagramma di correlazione"

Copied!
28
0
0

Testo completo

(1)

stabilire se esiste una qualche relazione tra due (o più) variabili di interesse.

Ad esempio, un ingegnere può essere interessato a stabilire se esiste una relazione tra il carico di rottura di un certo materiale e la sua durezza Brinell; un biologo può essere interessato a valutare se esiste una relazione tra peso ed altezza di un gruppo di individui; o un economista se esiste una relazione tra la produzione industriale e il consumo di energia elettrica.

L'eventuale presenza di una relazione tra due (o più) variabili, infatti, può in molti casi essere utilizzata sia al fine di agire sulle variabili di input per condizionare la variabile di output, che al fine di utilizzare l'osservazione effettuata su di una variabile per stimare o predire il valore dell'altra.

(2)

Queste due problematiche (per molti aspetti logicamente interconnesse) formano due vasti capitoli dell'Analisi Statistica dei Dati che vanno sotto il nome di:

Analisi di Correlazione, e

Analisi di Regressione.

Nel corso della lezione ne verranno forniti i concetti di base utilizzando alcuni esempi applicativi.

(3)

Un utile metodo preliminare per analizzare l'eventuale presenza di un legame tra due variabili quantitative X e Y, è quello di costruire il cosidetto diagramma di correlazione.

La costruzione di tale diagramma richiede la seguente procedura:

1) Rilevazione dei dati

Determinare il valore che ciascuna delle due variabili assume in corrispondenza di un certo tempo o luogo o materiale. (Ad esempio, se Y è il carico di rottura e X la durezza Brinell, la coppia (X Y1, )1 rappresenta i valori osservati in relazione al provino numero 1).

Ripetere la rilevazione in un numero N di condizioni diverse (ad esempio su N provini diversi). In genere, sono necessarie almeno 20-30 coppie di valori per poter trarre delle valutazioni da un diagramma di correlazione. È utile riportare i dati ottenuti in una tabella in cui vengono chiaramente indicate le variabili oggetto dello studio, il numero d'ordine dell'osservazione e i valori da esse assunti.

2) Costruzione del grafico di correlazione

(4)

opportune scale per rappresentare le due variabili.

Se si vuole studiare la dipendenza della variabile Y dalla variabile X è consuetudine utilizzare l'asse verticale per la Y e quello orizzontale per la X. Si riportano quindi i dati osservati sul diagramma.

Le situazioni tipiche che possono presentarsi nella pratica sono illustrate nelle Fig. 1-5.

La Fig. 1 è rappresentativa di una situazione di forte correlazione positiva, cioè di una situazione in cui ad una crescita di X corrisponde una "quasi certa'' crescita di Y. In queste situazioni la nube dei punti tende ad assumere la forma di un'ellissi molto schiacciata.

La Fig. 2 rappresenta una situazione di debole correlazione positiva, cioè una situazione in cui è presente una tendenza generale a crescere della Y quando X cresce, ma questa tendenza non è marcata, per cui in molti punti si osservano valori simili di Y in corrispondenza di valori diversi di X. In queste situazioni la nube di punti tende ad assumere la forma di un'ellissi meno schiacciata.

(5)

FIGURA 1

(6)

FIGURA 2

(7)

In Fig. 3 viene rappresentata la situazione in cui non esiste correlazione tra le variabili. I valori assunti dalla variabile Y non mostrano alcuna relazione con i valori assunti dalla variabile X nelle stesse condizioni. In queste situazioni la nube di punti tende ad assumere una forma circolare.

Infine, le Fig. 4 e 5 rappresentano situazioni simili a quelle delle Fig. 1 e 2, cioè, rispettivamente, di forte e debole correlazione tra X e Y, solo che questa volta la dipendenza è nella direzione di una diminuzione di Y in corrispondenza di una crescita di X.

Come risulta dall'analisi delle figure, tra due variabili X e Y sono possibili "gradi'' di associazione diversi. Si può andare infatti dall'assenza di correlazione fino al caso di perfetta correlazione quando tutti i punti si allineano su di una retta.

(8)

FIGURA 3

(9)

FIGURA 4

(10)

FIGURA 5

(11)

associazione'' tra due variabili è fornita dal cosidetto coefficiente di correlazione R, che può essere calcolato attraverso la seguente formula

R X X Y Y

X X Y Y

i i

i N

i i i

N i

= N∑ − −

− ∑ −

=

=

=

( )( )

( ) ( )

1

2 2

1 1

in cui

X X

N Y Y

N

i i N

i i

= ∑ =1 = ∑N=1

Il coefficiente R è un numero compreso tra -1 e 1.

Quanto più esso è prossimo ad 1, in valore assoluto, tanto più il grado di associazione tra le variabili è elevato, viceversa quanto più esso è prossimo a 0 tanto più il grado di associazione è basso.

Valori positivi di R indicano una correlazione positiva (Y cresce se X cresce), mentre valori negativi indicano una correlazione negativa (Y decresce se X cresce).

Il valore R=1 (R=-1) indica perfetta correlazione positiva (negativa), mentre il valore R=0 indica completa assenza di correlazione.

(12)

correlazione relativi a situazioni reali.

In Fig. 6 viene mostrato il diagramma di correlazione tra la variabile X="durezza Brinell'' e la variabile Y="carico di rottura'' (in psi) di provini di rame trafilato a freddo, ricavato sulla base di 100 coppie di osservazioni di tali variabili. L'andamento dei punti mostra la presenza di una forte correlazione positiva. In effetti il valore del coefficiente di correlazione calcolato sulla base dei dati osservati è R=0.976.

I dati delle Fig. 7-12 si riferiscono ad un campione di 155 modelli di autovettura prodotti da Industrie Statunitensi, Europee e Giapponesi.

Per ciascuna autovettura sono state registrate le seguenti variabili:

potenza del motore

peso (in lb)

percorrenza specifica (in miglia per gallone)

accelerazione (in secondi impiegati per raggiungere una fissata velocità)

prezzo

(13)

FIGURA 6

(14)

che si ottengono considerando alcuni possibili incroci tra tali variabili.

In particolare, in Fig. 7 si può osservare il diagramma di correlazione tra X="peso'' e Y="potenza''. Come ci si poteva aspettare, l'andamento dei punti mostra una marcata correlazione positiva tra queste variabili ( all'aumentare del peso dell'autovettura la potenza del motore tende a crescere). In effetti il coefficiente di correlazione calcolato risulta R=0.81.

In Fig. 8 viene riportato il diagramma di correlazione tra le variabili X="potenza'' e Y="miglia per gallone''. L'andamento dei punti (come si poteva prevedere) mostra la presenza di una marcata correlazione negativa tra le variabili (all'aumentare della potenza del motore diminuisce il numero di miglia percorse con un gallone di combustibile). Il coefficiente di correlazione calcolato è R=-0.79.

(15)

FIGURA 7

(16)

FIGURA 8

(17)

correlazione tra le variabili X="peso'' e Y="miglia per gallone''. L'andamento dei punti mostra la presenza di una forte correlazione negativa tra le variabili (all'aumentare del peso dell'autovettura diminuisce il numero di miglia percorse con un gallone di combustibile). In realtà questo risultato poteva essere previsto in quanto la variabile "peso'' è fortemente correlata alla variabile "potenza'' e questa alla variabile "miglia per gallone''. Il coefficiente di correlazione calcolato vale R=-0.83.

In Fig. 10 si osserva il diagramma di correlazione delle variabili X="peso'' e Y="prezzo''. Da un'analisi visiva è difficile giudicare la presenza o meno di una debole correlazione tra queste variabili. Il calcolo del coefficiente di correlazione fornisce il valore R=0.21, ma c'è da notare che tale valore è probabilmente influenzato da due dati che si discostano dagli altri.

(18)

FIGURA 9

(19)

FIGURA 10

(20)

correlazione tra le variabili X="peso'' e Y="accelerazione''. La forma della nube di punti mostra l'assenza di una correlazione tra queste variabili. In effetti il coefficiente di correlazione vale R=-0.05. Il diagramma in ultima analisi ci dice che la conoscenza del peso di un'autovettura non è in grado di fornirci alcuna indicazione su quale potrebbe essere la sua accelerazione.

In Fig. 12 viene invece mostrato il diagramma di correlazione tra le variabili X="potenza'' e Y="accelerazione''. In questo caso, l'andamento dei punti mostra la presenza di una moderata correlazione negativa tra queste variabili (il numero si secondi impiegato per raggiungere una assegnata velocità, diminuisce all'aumentare della potenza del motore). Il coefficiente di correlazione vale R=-0.49. Pertanto, sebbene (come intuitivamente ci si poteva aspettare) la potenza del motore ha un certo peso nel determinare l'accelerazione di un'autovettura, tuttavia l'andamento dei punti suggerisce che esistono altri fattori a condizionare tale variabile (in effetti è noto che l'accelerazione dipende più dal livello di

"coppia massima'' che dalla "potenza massima'').

(21)

FIGURA 11

(22)

FIGURA 12

(23)

correlazione è quello di individuare le variabili di input su cui agire al fine di condizionare la variabile di output.

Si consideri, ad esempio, la seguente situazione.

Si vuole studiare se la "temperatura'' e il "gioco'' tra i piatti di una macchina impacchettatrice influenzano la percentuale di pezzi di sapone che non passano il controllo per non corretta impacchettatura. Vengono, pertanto, effettuate alcune misure sulle tre variabili in gioco:

X1="temperatura'', X2="gioco'', e

Y="percentuale di scarti'',

in cui ovviamente X1 e X2 sono da considerare variabili di input e Y la variabile di output.

(24)

seguente

N X1 X2 Y

1 87.8 130 3.50 2 80.0 174 8.17 3 96.1 134 4.25 4 98.9 191 9.83 5 110.0 165 5.27 6 88.9 194 8.20 7 104.4 143 3.45 8 112.8 186 9.54 9 115.6 139 5.67 10 110.0 188 8.44 11 93.3 175 9.43 12 103.3 156 4.43 13 104.4 190 8.33 14 98.9 178 9.14 15 97.8 132 4.35 16 107.7 148 5.17

(25)

correlazione tra X1="temperatura'' e Y. L'analisi visiva suggerisce l'assenza di correlazione tra queste variabili. L'impressione è confermata dal calcolo del coefficiente di correlazione che vale R=- 0.05.

In Fig. 14 viene invece mostrato il diagramma di correlazione tra X2="gioco'' e Y. L'analisi visiva suggerisce la presenza di una marcata correlazione positiva (cioè all'aumentare del gioco la percentuale di scarti aumenta), e ciò è anche confermato dal valore del coefficiente di correlazione R=0.897.

Pertanto, dal punto di vista operativo, l'indagine effettuata suggerisce che un controllo più stretto sul gioco dei piatti della macchina può far diminuire sensibilmente la percentuale di scarti. Non conviene invece impegnarsi nel controllo della temperatura dei piatti perchè nell'ambito dei valori osservati questa variabile non influenza la percentuale di scarti.

(26)

FIGURA 13

(27)

FIGURA 14

(28)

di correlazione

Una prima considerazione da fare è che esiste una profonda differenza tra il concetto di correlazione e quello di causa-effetto.

Un valore elevato del coefficiente di correlazione non implica necessariamente che una variabile è la causa della variazione osservata dell'altra. Spesso, infatti, può essere presente una causa comune non osservata che determina la variazione di entrambe le variabili studiate.

Ad esempio, se riscaldiamo un parallelepipedo di acciaio, e misuriamo accuratamente la sua lunghezza e larghezza in istanti successivi, osserveremo una stretta relazione lineare tra queste due quantità. Ovviamente, però, nessuna delle due variabili è la causa della variazione dell'altra. Entrambe crescono a causa dell'aumento della temperatura del blocco.

Un'altra considerazione da fare è che il coefficiente di correlazione misura il grado di associazione lineare tra due variabili. Per cui può anche verificarsi il caso che tale coefficiente sia prossimo a 0, e tuttavia è presente una forte dipendenza non lineare tra le variabili sotto osservazione.

Riferimenti

Documenti correlati

 la taglia del campione `e molto grande (≥ 1000) ma la distribuzione della variabile in esame non ` e normale.  la varianza della variabile in esame `e

Poi confrontare le z di

[r]

Individuare, se esistono, tutte e sole le soluzioni della pre- cedente equazione differenziale, il cui grafico `e tangente alla retta y = −3x,

Come per le funzioni ad una sola variabile si definisce DOMINIO DI UNA FUNZIONE A due VARIABILI l'insieme dei valori che possono essere attribuiti alle variabili indipendenti

[r]

Una scatola contiene un numero di palline rosse, nere e blu pari rispettivamente a :..  Giorno

Un massimo o minimo vincolato per una funzione di due variabili è un massimo o minimo da ricercarsi non su tutto il dominio ma all'interno del sottoinsieme del dominio che