Trattamento e Analisi statistica dei dati sperimentali
Modulo II : Sintesi dei dati sperimentali
L6. Relazioni tra variabili
Prof. Carlo Meneghini
dip. di Scienze Università Roma Tre e-mail: carlo.meneghini@uniroma3.it
Introduzione
http://demo.istat.it/
Problema: Esiste una relazione tra il numero di Uomini e Donne stranieri in Italia a Gennaio 2015?
Introduzione
Esiste una relazione tra variabili (caratteri) diverse?
Fenomeno
Dati y Dati x
Sintesi
Modello fisico Y=f(x)
Parametri della relazione funzionale
Parametro A Parametro B
Se
a. riconosco una relazione
b. individuo la
relazione (modello) allora:
posso fare previsioni
Correlazione
http://demo.istat.it/
La variazione di X è collegata alla
variazione di Y
Correlazione
http://demo.istat.it/
Correlazione positiva: il numero di nati e di morti presentano una
"correlazione" positiva
Correlazione
Scatterplot
La durata di uno spot influenza gli spettatori?
Durante un programma televisivo è mandato uno spot di durata diversa tra t=20 e 60 s
Alla fine gli spettatori sono stati sottoposti ad un test a risposta multipla per stabilire quanto ricordassero
I dati riportano il numero di risposte corrette in funzione della durata dello spot
(xnyn)
Centroide
Il centroide di una distribuzione di dati x-y è il punto nel piano xy le cui coordinate sono i valori medi
delle coordinate:
) ,
( x y C =
x y
C
Indice di corelazione (Pearson)
r
: coefficiente di correlazione lineare (di Pearson)x xi −
y yi −
x
Covarianza
y
Indice di corelazione (Pearson)
r
: coefficiente di correlazione lineare (di Pearson)1 1 ≤ ≤ +
− r
=Pearson(X;Y)
x xi −
x y
0 r <
y yi − x
xi −
y yi −
x y
0
r >
Indice di corelazione (Pearson)
r
: coefficiente di correlazione lineare (di Pearson)1 1 ≤ ≤ +
− r
=Pearson(X;Y)
r = Frazione della variabilità di Y dovuta ad una
relazione di proporzionalità diretta: Y ~ kX
Indice di corelazione (Pearson)
r
: coefficiente di correlazione lineare (di Pearson)1 1 ≤ ≤ +
− r
La durata di uno spot influenza gli spettatori?
r=0.53
=Pearson(X;Y)
Indice di corelazione (Pearson)
r
: coefficiente di correlazione lineare (di Pearson)https://en.wikipedia.org/wiki/Pearson_correlation_coefficient
By Skbkekas - Own work, CC BY 3.0,
https://commons.wikimedia.org/w/index.php?curid=9484334
N r
r 2
lim ≈
≥
Affidabilità della correlazione
r=0.53 N=60
p=0.05
Covarianza e correlazione
Funzione Definizione
varianza
VAR (matrice)
Covarianza
COVARIANZA(matrice1 ; matrice2)
Coeff. di corr. lineare (Pearson) PEARSON(matrice1 ; matrice2)
CORRELAZIONE((matrice1 ; matrice2)
Limite di confidenza al 95% per r
rlim
N
r 2
lim =
Quantificare la corelazione
r
: coefficiente di correlazione di correlazione di Pearson1 1 ≤ ≤ +
− r
https://en.wikipedia.org/wiki/Pearson_correlation_coefficient
By DenisBoigelot, original uploader was Imagecreator - Own work, original uploader was Imagecreator, CC0, https://commons.wikimedia.org/w/index.php?curid=15165296
Nota: r =0 non significa che non ci sia una correlazione ma che la relazione tra X e Y potrebbe non essere
lineare
Indici e Grafici a dispersione
https://en.wikipedia.org/wiki/File:Anscombe%27s_quartet_3.svg
le y1, y2, y3, y4 hanno la stessa media e la stessa
correlazione
5 .
4 7
, 3 , 2 ,
1 =
y
816 .
4 0
, 3 , 2 ,
1 =
r
https://en.wikipedia.org/wiki/Correlation_and_dependence
Gli indici da soli non sono sufficienti a caratterizzare la relazione tra dati: un grafico a dispersione ci fornisce dettagli importanti, anche se qualitativi
εx
ε y
Nota
Nota: una relazione tra variabili non implica necessariamente una relazione di causa/effetto
http://twentytwowords.com/funny-graphs-show-correlation-between-completely-unrelated-stats-9-pictures/
http://www.tylervigen.com/spurious-correlations