sul coefficiente di variazione - Per tabelle di frequenza

Per tabelle di frequenza

Esercizio 4 sul coefficiente di variazione

Per capire se c’è più variabilità tra il peso o tra l’altezza di un gruppo di studenti, non è possibile basarsi solo sulla deviazione standard.

In altre parole, se la deviazione standard è di 10 cm per l’altezza e di 8 kg per il peso, non è possibile affermare che ci sia necessariamente più variabilità tra le altezze che tra i pesi perché le unità di misura (cm e kg) differiscono tra loro.

Sapendo che l’altezza media è di 170 cm ed il peso medio del campione è di 80 kg, come possiamo allora affermare se c’è più variabilità tra il peso o tra l’altezza degli studenti?

Svolgimento

Per rispondere alla domanda, è necessario calcolare il coefficiente di variazione per il peso

(CVpeso:8/80=0,10) e per l’altezza (CValtezza: 10/170=0,06). Confrontando i due valori, possiamo osservare come ci sia più variabilità tra il peso che l’altezza in quanto CVpeso>CValtezza.

§ 4.7 – Il coefficiente di correlazione di Pearson

Il coefficiente di correlazione r di Pearson è la tecnica statistica più conosciuta per valutare la correlazione lineare tra due variabili.

Vediamo ora come arrivare alla sua definizione.

Cominciamo dal definire la covarianza di due variabili congiunte.

In statistica la covarianza di due variabili statistiche Xe Y, indicata come 𝐶𝑜𝑣(𝑋, 𝑌), è un indice di variabilità congiunta.

Se consideriamo una popolazione di N osservazioni congiunte X e Y, di rispettive medie M(X) ed M(Y), la covarianza osservata è

M[(X-M(X))(Y-M(Y)),

vale a dire

𝑪𝒐𝒗(𝑿, 𝒀) = 𝟏

𝑵∑(𝒙_𝒊− 𝑴(𝑿))(𝒚_𝒊− 𝑴(𝒀) = ⋯ = 𝟏

𝑵∑ 𝒙_𝒊𝒚_𝒊− 𝑴(𝑿)𝑴(𝒀) = 𝑴(𝑿𝒀) − 𝑴(𝑿)𝑴(𝒀)

𝑵

𝟏

La varianza e la covarianza intervengono per definire l’indice di correlazione di Bravais-Pearson

𝒓(𝑿, 𝒀) =

^{𝑪𝒐𝒗(𝑿,𝒀)}

√𝑽𝒂𝒓(𝑿)𝑽𝒂𝒓(𝒀)

=

^{𝑪𝒐𝒗(𝑿,𝒀)}_{𝝈(𝑿)𝝈(𝒀)}

Correlazione lineare statistica: a cosa serve?

In statistica, l’indice di correlazione lineare r di Pearson si utilizza per determinare la forza e la direzione di una relazione lineare tra due variabili continue.

Ad esempio, si può utilizzare per determinare la forza e la direzione di una relazione lineare tra i valori della pressione sistolica ed il peso di un campione di pazienti. Oppure per valutare la

relazione lineare tra il numero di parole scritte in un racconto e l’età di un campione di studenti. O magari per verificare se ci sia una correlazione lineare tra la capacità polmonare e la performance sportiva in una gara sui 100 metri piani.

Indice r di Bravais-Pearson: perchè si chiama così?

L’indice di Pearson è anche detto coefficiente di correlazione lineare di Bravais-Pearson. Per arrivare alla sua formulazione matematica alla fine dell’Ottocento è stato necessario infatti il lavoro di tre diversi statistici:

 Nel 1846, August Bravais è il primo a pubblicare un paper in cui viene presentata la formulazione matematica di “correlazione statistica”

 Qualche anno dopo, nel 1885, Sir Francis Galton (cugino di primo grado di Charles Darwin e come lui interessato a studiare l’ereditarietà dei caratteri innati) è stato il primo ad

utilizzare la lettera r (come abbreviazione di regressione). Voleva infatti calcolare un indice che quantificasse la forza della relazione tra le stature dei genitori e dei figli.

 Nel 1890 infine Karl Pearson ha ripreso il lavoro di Galton e Bravais ed ha sviluppato il coefficiente così come è conosciuto attualmente

Se questo indice fa riferimento alla popolazione viene indicato con la lettera greca rho (ρ), mentre se ci si riferisce ad un campione si utilizza la lettera r dell’alfabeto latino. In generale, infatti, in statistica si utilizzano le lettere dell’alfabeto greco per riferirsi ai parametri della popolazione, mentre le lettere latine indicano che ci si sta riferendo ad una statistica del campione.

Quando si può usare il coefficiente di correlazione?

Per poter effettuare questa analisi bisogna prima verificare che le due variabili superino una checklist composta da 5 controlli. Solo se i dati passano tutti questi controlli allora si può utilizzare la correlazione di Pearson per ottenere dei risultati validi dalle analisi di dati.

I primi due controlli sono teorici e riguardano il disegno di studio. Gli altri tre invece richiedono delle verifiche operative.

CONTROLLO 1: le due variabili devono essere entrambe quantitative.

Ad esempio, l’età misurata in anni compiuti è una variabile quantitativa e può essere utilizzata per l’analisi della correlazione di Pearson, mentre l’età misurata per fasce (18-30 anni, 31-40 anni, 41-50 anni, ….) è una variabile quantitativa ordinale e pertanto non si può utilizzare la correlazione di Pearson. Per esaminare la relazione quando almeno una variabile è quantitativa ordinale, sarà necessario scegliere un altro metodo di analisi, come la correlazione di Spearman o quella di Kendall.

CONTROLLO 2: Le due variabili quantitative devono essere appaiate sugli stessi casi.

Ovvero, per ogni unità statistica (es. ogni intervistato) deve essere stato misurato un valore sia per la prima che per la seconda variabile. Se i dati non sono appaiati, sarà necessario pensare ad un’

analisi basata sui campioni indipendenti per esaminare le relazioni tra le variabili.

CONTROLLO 3: Il grafico di correlazione deve mostrare una relazione di tipo lineare tra le due variabili.

Grafici di correlazione:

Per poter utilizzare l’r di Pearson, l’analisi di correlazione tra variabili deve mostrare

un’andamento lineare, come nel caso del grafico 1. Se la relazione non risultasse invece lineare, devi verificare se è almeno monotona : all’aumentare dei valori di una variabile, i valori dell’altra variabile aumentano anche se non in modo lineare? Oppure, all’aumentare dei valori di una variabile, i valori dell’altra variabile diminuiscono anche se non in modo lineare?

Se hai risposto sì ad una delle due domande, allora puoi semplicemente valutare la relazione utilizzando l’indice di correlazione di Spearman o di Kendall. In alternativa, con qualche passaggio intermedio, puoi provare a trasformare una o più variabili (ad esempio calcolandone il logaritmo) per “linearizzare” la relazione e poter così utilizzare l’indice di correlazione di Pearson.

Se invece hai risposto no ad entrambe le domande, allora puoi trasformare una o entrambe le variabili per provare a rendere la relazione almeno monotona e poi rifare tutti i controlli.

CONTROLLO 4: Non devono essere presenti outliers influenti.

Se ci fossero degli outliers, come prima cosa devi verificare che questi valori anomali non siano dovuti ad errore di imputazione o di misura.

Se i dati sono corretti, puoi decidere se eliminare questi casi e poi rifare tutti i controlli oppure tenerli sapendo che i risultati saranno influenzati da tali casi anomali. Il coefficiente di correlazione di Pearson è infatti, come la media e la varianza, un indice poco robusto il cui valore può cambiare sensibilmente in base a pochi valori estremi. In caso di indecisione su quale approccio scegliere, puoi anche calcolare la correlazione sia con sia senza gli outliers e, se non ci sono differenze di rilievo, decidere di tenere gli outliers nel dataset.

CONTROLLO 5: La distribuzione di entrambe le variabili deve essere normale.

Se la distribuzione non risultasse normale (ovvero se il p-value<0,05), allora puoi scegliere tra due alternative. Puoi trasformare i dati per provare a “normalizzarli” e poi rifare tutti i controlli oppure optare per un diverso metodo di analisi, utilizzando ad esempio la correlazione di Spearman o quella di Kendall.

Indice r di Pearson: come si calcola?

Se le tue variabili hanno superato tutti i controlli, puoi passare a calcolare l’indice di Pearson.

Come si interpretano i valori del coefficiente di Pearson?

L’indice di correlazione di Pearson è un numero che fornisce informazioni sia sulla forza sia sulla direzione della correlazione tra due variabili quantitative.

Forza della correlazione

L’indice r sarà sempre compreso tra i valori -1 (che indica una perfetta relazione negativa lineare tra le due variabili) e + 1 (che indica una perfetta relazione positiva lineare tra le due variabili). In pratica, valori uguali esattamente a +1 oppure a -1 non capitano mai con dati reali.

Un valore di 0 indica che non è presente una relazione lineare tra le due variabili. Anche un indice esattamente pari a 0 si osserva molto raramente con dati reali.

Quello che capita normalmente è infatti trovare un valore intermedio.

Per interpretarlo, ricordati che più l’indice è vicino a zero, più la relazione sarà debole, più si avvicina a -1 oppure a + 1 più la relazione sarà forte.

In altre parole, più è grande il numero in valore assoluto (quindi privato del segno), più la correlazione tra le due variabili sarà approssimabile ad una retta. Più è piccolo l’indice in valore assoluto, più la correlazione tra le due variabili sarà nulla o non lineare.

Ma quanto deve essere forte una correlazione per essere considerata accettabile? In questo caso non c’è una risposta univoca, in quanto dipende da cosa stai osservando. Ad esempio, in fenomeni fisici basati su misurazioni molto precise spesso si osservano dei valori di correlazione molto vicini

agli estremi +1 oppure -1. Quando si tratta invece di comportamenti umani, spesso le correlazioni risultano molto più basse.

Direzione della correlazione

Il segno del coefficiente di correlazione indica se la relazione tra le due variabili è positiva o negativa.

Quando due variabili quantitative sono correlate positivamente?

Quando le unità statistiche che hanno valori elevati di una variabile tendono ad avere anche valori elevati per l’altra variabile. O se preferisci, le unità statistiche con valori bassi di una variabile tendono ad avere bassi valori anche per l’altra variabile.

Quando due variabili quantitative sono invece correlate negativamente?

Quando le unità statistiche che hanno valori elevati di una variabile tendono ad avere valori bassi per l’altra variabile. Di conseguenza, le unità statistiche con valori bassi di una variabile tendono ad avere valori elevati per l’altra variabile.

Ad esempio, ipotizziamo che calcolando l’indice di correlazione di Pearson tra il peso ed i valori di pressione sistolica di un gruppo di 98 pazienti adulti ottieni r=0,45. Questo significa che tra queste due variabili c’è una relazione lineare positiva moderata. Se invece avessi ottenuto un r=-0,86 significava che tra queste due variabili c’è una forte relazione lineare negativa.

Correlazione e causalità sono sinonimi?

Quando interpreti i risultati di un’analisi della correlazione fai attenzione a non confondere la correlazione con la relazione di causa-effetto. L’analisi della correlazione non fornisce infatti nessuna indicazione sul fatto che il legame osservato sia o meno di causa-effetto.

Ad esempio, il fatto che stai osservando una relazione tra peso e pressione sistolica non significa automaticamente che sia l’aumento di peso la causa di un aumento della pressione sistolica.

Potrebbe esserci infatti un’altra variabile che spiega i cambiamenti sia nel peso che nella pressione sistolica.

Per poter affermare che una relazione tra due variabili sia di causa-effetto devono essere presenti almeno tre condizioni:

 l’isolamento: le due variabili devono essere accuratamente isolate da tutte le altre possibili variabili intervenienti sulla loro relazione. Non devono quindi essere presenti variabili di confondimento o variabili confuse.

 la relazione: la relazione tra due variabili non deve essere troppo debole. Nel caso di variabili quantitative, questo comporta che l’indice di correlazione non deve essere troppo vicino a zero.

 la direzione: la causa deve sempre precedere l’effetto.

Come riportare i risultati dell’analisi di correlazione

Ecco come potresti riportare i risultati dell’esempio precedente in un report:

E’ stato calcolato l’indice r di Pearson per valutare la relazione tra il peso (in kg) ed i valori di pressione sistolica (in mmHg) in un campione composto da 98 pazienti adulti.

Dalle analisi preliminari è infatti emerso che la relazione è lineare, entrambe le variabili sono distribuite secondo una normale (come verificato dal test di Shapiro-Wilk (p>0.5), e che non sono presenti outliers.

L’ aumento del peso dei pazienti risulta moderatamente correlato con un incremento nei valori della pressione sistolica nei pazienti adulti, r(98)=0,45.

Nel documento CAP. 1 - LA RILEVAZIONE DEI FENOMENI STATISTICI (pagine 78-85)