Daniela Fortuna Daniela Fortuna
Gestione ed Analisi Statistica dei dati Gestione ed Analisi Statistica dei dati
13 giugno 2014 13 giugno 2014
Master in
Master in ““Evidence Based
Evidence
Based PracticePractice e eMetodologia della Ricerca
Metodologia della Ricerca clinicoclinico--assistenzialeassistenziale””
Argomenti
Relazioni tra variabili Analisi univariata
–
Regressione lineare
–
Correlazione
Analisi multivariata
–
Regressione lineare multivariata
–
Regressione logistica
Parte teorica
Parte teoricaLe fasi dell’analisi statistica
1° step
Descrizione del campione Descrizione del campione
frequenze descrittive delle variabili d’interesse per lo studio
3° step
Analisi Analisi Univariata Univariata
Significativit
Significatività
à
delle differenze delle caratteristiche tra idelle differenze delle caratteristiche tra i gruppi a confronto
gruppi a confronto Test di ipotesi (p-value)
misure di associazione tra variabili quantitative
misure di associazione tra variabili quantitative
(correlazione correlazione e regressione
e regressione) che esprimono la relazione lineare tra due variabili misurabili
4° step
Analisi multivariata
che esprime la relazione tra l’outcome oggetto dello studio e più variabili considerate contemporaneamente
2° step
Inferenza dal campione alla popolazione Inferenza dal campione alla popolazione
:Stima Stima
Intervalli di confidenza
Con il Test di ipotesi si mettono a confronto due misure per valutare la significatività della loro differenza
Il passo successivo
Il passo successivo è è trovare una funzione matematica trovare una funzione matematica che esprime la relazione tra le variabili
che esprime la relazione tra le variabili
ma il test d’ipotesi non ci dice nulla riguardo il tipo di relazione che esiste tra 2 variabili
Misure di associazione tra variabili quantitative
Misure di associazione tra variabili quantitative
Misure di associazione tra variabili quantitative
Partiamo con un esempio : Su un campione di 20 pazienti abbiamo rilevato l’età e la concentrazione di urea per misurare
l’associazione tra queste due variabili.
Ovvero vogliamo valutare se al crescere
dell’ età la concentrazione di urea aumenta oppure diminuisce
ID
pazienti Età Urea mmol/L
1 60 3
2 76 5,6
3 81 7,8
4 89 9,6
5 44 5,4
6 58 7,3
7 55 3,1
8 74 6,8
9 45 4,7
10 67 4
11 72 13,69
12 91 14,89
13 76 7,8
14 39 4,6
15 71 7,4
16 56 4,6
17 77 6,2
18 37 4,2
19 64 11,7
20 84 6,9
Misure di associazione tra variabili quantitative
Riportiamo i valori della tabella in un grafico
ID
pazienti Età Urea mmol/L
1 60 3
2 76 5,6
3 81 7,8
4 89 9,6
5 44 5,4
6 58 7,3
7 55 3,1
8 74 6,8
9 45 4,7
10 67 4
11 72 13,69
12 91 14,89
13 76 7,8
14 39 4,6
15 71 7,4
16 56 4,6
17 77 6,2
18 37 4,2
19 64 11,7
20 84 6,9
ID Paz 1
ID Paz 2
Dal grafico sembra che ci sia una relazione.
Verifichiamo se questa relazione è lineare e se può essere espressa mediante l’equazione di una retta
Misure di associazione tra variabili quantitative la RETTA di REGRESSIONE
Tra questi punti possono passare diverse rette.
Dobbiamo trovare la retta che sia il più possibile vicina alla maggior parte dei punti indicati sul grafico, e per individuare la retta che interpola meglio i dati utilizziamo il metodo dei minimi quadrati
y
x La retta che si ottiene
mediante il metodo dei minimi quadrati, è quella che minimizza la somma
dei quadrati delledifferenze
tra ciascun punto osservato e i punti della retta.
y
x y
Retta ottenuta con il metodo dei minimi quadrati
Indichiamo con x= età
y= Urea
ŷ= valori di urea stimati dalla retta per ogni valore di x y
x
Retta ottenuta con il metodo dei minimi quadrati
La retta che si ottiene mediante il metodo dei minimi quadrati, è
quella che minimizza la seguente somma
Σ (y- ŷ)
2(y- ŷ)
RETTA di REGRESSIONE
METODO DEI MINIMI QUADRATI METODO DEI MINIMI QUADRATI
RETTA di REGRESSIONE
ID pazienti x y
ŷ (Valori di urea stimati dalla retta)
(y-ŷ) (y-ŷ)2
1 60 3 6,3 -3,3 10,7
2 76 5,6 8,2 -2,6 6,7
3 81 7,8 8,8 -1,0 1,0
4 89 9,6 9,8 -0,2 0,0
5 44 5,4 4,3 1,1 1,1
6 58 7,3 6,0 1,3 1,6
7 55 3,1 5,7 -2,6 6,6
8 74 6,8 8,0 -1,2 1,3
9 45 4,7 4,5 0,2 0,1
10 67 4 7,1 -3,1 9,7
11 72 13,69 7,7 6,0 35,7
12 91 14,89 10,0 4,9 23,9
13 76 7,8 8,2 -0,4 0,2
14 39 4,6 3,7 0,9 0,7
15 71 7,4 7,6 -0,2 0,0
16 56 4,6 5,8 -1,2 1,4
17 77 6,2 8,3 -2,1 4,5
18 37 4,2 3,5 0,7 0,5
19 64 11,7 6,7 5,0 24,5
20 84 6,9 9,2 -2,3 5,1
La somma dei quadrati delle differenze (residui) è:
Σ
(y- ŷ)2 = 135,4E poiché abbiamo usato il metodo dei minimi quadrati per individuare la retta che meglio interpola i dati, questo è il più piccolo valore che si poteva ottenere tra tutte le possibili rette
Mediante la retta di regressione sono stati stimati dei valori di urea
corrispondenti all’età.
La differenza tra i valori stimati e i valori osservati si indicano come residui
RETTA di REGRESSIONE
La retta di regressione viene espressa mediante l’equazione:
ŷ=a+bx
a a
= intercettaintercetta (ovvero il valore in cui la retta interseca l’asse delle Y bb = Pendenza della rettaPendenza della rettaindica di quante volte cresce o diminuisce la Y al crescere di 1 unità della X La retta che abbiamo stimato sui nostri dati ha la seguente equazione:
Quindi poiché b=0,12 possiamo concludere che al crescere di 1 anno di età la concentrazione di urea nel sangue cresce di 0, 12 mmol/L
ŷ=-0,963+0,12*x
RETTA di REGRESSIONE
ID pazienti x y
ŷ (Valori di urea stimati dalla retta)
(y-ŷ) (y-ŷ)2
1 60 3 6,3 -3,3 10,7
2 76 5,6 8,2 -2,6 6,7
3 81 7,8 8,8 -1,0 1,0
4 89 9,6 9,8 -0,2 0,0
5 44 5,4 4,3 1,1 1,1
6 58 7,3 6,0 1,3 1,6
7 55 3,1 5,7 -2,6 6,6
8 74 6,8 8,0 -1,2 1,3
9 45 4,7 4,5 0,2 0,1
10 67 4 7,1 -3,1 9,7
11 72 13,69 7,7 6,0 35,7
12 91 14,89 10,0 4,9 23,9
13 76 7,8 8,2 -0,4 0,2
14 39 4,6 3,7 0,9 0,7
15 71 7,4 7,6 -0,2 0,0
16 56 4,6 5,8 -1,2 1,4
17 77 6,2 8,3 -2,1 4,5
18 37 4,2 3,5 0,7 0,5
19 64 11,7 6,7 5,0 24,5
20 84 6,9 9,2 -2,3 5,1
Sostituendo ai valori della x l’età, si ottengono i valori stimati di urea
Ad esempio per x=60
ŷ=-0,963+0,12*x
Da questa equazione
ŷ=-0,963+0,12*60= 6,3
Modello
Coefficienti non standardizzati
Coefficienti standardizzati
t Sig.
Intervallo di confidenza 95,0% per B
B
Deviazion e sta nd ard Err
ore Beta
Limite inf eri ore
Limite su per ior e
1 (Costante) -,963 2,633 -,366 ,719 -6,496 4,569
età ,120 ,039 ,589 3,096 ,006 ,039 ,202
R R-quadrato
R-quadrato corretto
Deviazione standard Errore della stima
1 ,589a ,347 ,311 2,74346
a. Predittori: (Costante), età
Riepilogo del modello
Modello
Nel valutare la relazione tra variabili quantitative (cioè misurabili) ci poniamo le seguenti domande
1. 1. Esiste una Esiste una associazione lineare associazione lineare tra due variabili? tra due variabili?
2. 2. Che Che verso verso ha tale relazione? ha tale relazione?
3. 3. Qual Qual è è la la forza forza di tale relazione? di tale relazione?
La relazione è di tipo lineare se, rappresentata su assi cartesiani, si avvicina alla lineare forma di una retta.
In questo caso,
all’aumentare di X aumenta Y.
Ad esempio, all’aumentare dell’altezza (X) di una persona aumenta anche il suo peso (Y).
1. 1. Esiste una associazione lineare Esiste una associazione lineare tra due variabili? tra due variabili?
Verifica grafica:
Verifica grafica:
YY
La relazione è di tipo non linearenon lineare, se rappresentata su assi cartesiani, ha un andamento curvilineo (parabola o iperbole).
In questo caso a livelli bassi e alti di X corrispondono livelli bassi di Y; mentre a livelli intermedi di X corrispondono livelli alti di Y.
1. 1. Esiste una Esiste una associazione lineare associazione lineare tra due variabili? tra due variabili?
Verifica grafica:
Verifica grafica:
XX YY
Il versoverso (o direzione) può essere:
positivo
positivo
, se all’aumentare di una variabile aumenta anche l’altra.2. 2. Che Che verso verso ha tale relazione? ha tale relazione?
Il versoverso (o direzione) può essere:
negativo
negativo
, se all’aumentare di una variabile l’altra diminuisce.XX YY
XX YY
Relazione lineare:
retta di regressione
Se esiste una relazione lineare allora Y può essere espressa in funzione di X mediante l’equazione :
XX YY
X X Y
Y
a a
= intercettaintercetta (ovvero il valore in cui la retta interseca l’asse delle Y bb = Pendenza della rettaPendenza della rettaindica di quante volte cresce o diminuisce la Y al crescere di 1 unità della X ovvero Esiste una funzione matematica che esprime
la relazione tra la Y (variabile dipendente) e la X (variabile indipendente)
Variabile dipendente Variabile indipendente
La regressione lineare con SPSS
SPSS
SPSS Click
Click
Analizza Analizza
Regressione Regressione
Stima di curve Stima di curve Click
Click
lineare, includi costante nell’ lineare, includi costante nell ’ equazione, equazione, visualizza grafici
visualizza grafici
SPSSSPSS
Click
Click
Analizza Analizza
Regressione Regressione
lineare lineare…
Dal dataset Completo che abbiamo creato ieri verificare se tra Età emodialitica (in mesi) e l’Età BH c’è una relazione lineare
La variabile dipendente è l Età emodialitica
Esempio con SPSS: risultato
Il risultato ci dice che l’età BH dipende linearmente dall’età emodialitica in modo
significativo. Al crescere di un unità dell’età emodialitica l’età BH cresce di 0,12 mesi Quindi l’equazione della retta di regressione è:
Y=23,34+0,12X
Mediante questa equazione possiamo stimare l
Mediante questa equazione possiamo stimare l’’etetàà BH per ogni etàBH per ogni età emodialiticaemodialitica pp-value-value
Coefficientia
Modello Coefficienti non
standardizzati
Coefficienti standardizz
ati
t Sig. Intervallo di confidenza 95,0% per B B Deviazione
standard Errore
Beta Limite
inferiore
Limite superiore
1
(Costante) 23,337 1,551 15,048 ,000 20,286 26,388
Età_emodialitica(m
esi) ,120 ,016 ,390 7,723 ,000 ,090 ,151
a. Variabile dipendente: Età_BH(mesi)
Esempio con SPSS: risultato
Graficamente: Quindi non tutta la variabilità dell’Età BH è spiegata dall’età emodialitica.
Il rapporto tra la varianza della Y stimata e la varianza osservata della Y, indicata anche come:
Varianza spiegata Varianza totale
= RR22
Coefficiente di Coefficiente di determinazione determinazione Scarti
Scarti positivi positivi
Scarti negativi Scarti negativi
Riepilogo del modello e stime dei parametri Variabile dipendente: Età_BH(mesi)
Equazion e
Riepilogo del modello Stime di parametri
R- quadrato
F df1 df2 Sig. Costant
e
b1
Lineare ,152 59,644 1 332 ,000 23,337 ,120
La variabile indipendente è Età_emodialitica(mesi).
Varianza spiegata Varianza totale
= RR22
Coefficiente di determinazione Coefficiente di determinazione
Varianza spiegata
Varianza spiegata è la varianza attribuibile alla relazione che sussiste tra X ed Y.
Ed è calcolata come differenza della retta di regressione dal valore medio
Quindi il coefficiente di determinazione RR2 2 fornisce la proporzione della varianza di Y determinata dalla sua relazione con X.
Nel nostro esempio R2 =0,152, significa che l’età emodialitica spiega il 15,8% della variabilità dell’Età BH ovvero che il rimanente 85% è spiegato da altri fattori che non sono stati considerati
Varianza totale
Varianza totale è la varianza di Y: varianza(Y) = Σ (y-media di y)2 n
Varianza spiegata(Y)
Varianza spiegata(Y) =
Σ (Ŷ-media di y)
2n
y stimato dalla retta di regressione
0 5 10 15 20 25
0 20 40 60 80 100 120
Scarti (differenze) di ciascun valore rispetto al valore stimato dalla retta
Retta di regressione
La retta di regressione ha la proprietà di minimizzare
minimizzarela somma
dei quadrati delle differenze tra i valori osservati e quelli stimati
mediante la retta
Quanto più i punti sono raggruppati attorno ad una retta, tanto
pipiù ù forte èfortela relazione tra due variabili.
3. Qual Qual è è la la forza forza di tale relazione? di tale relazione?
XX YY
XX YY
Se i punti sono dispersi sono dispersi in maniera uniforme, invece, tra
le due variabili non esiste
non esiste alcuna relazione.misure di associazione tra variabili quantitative
Correlazione
La correlazionecorrelazione indica la tendenza che hanno due variabili (X e Y) a variare
insieme, ovvero, a covariare e quindi indica la
forza forza
o l’intensitintensitàà del loro legame.La retta di regressioneretta di regressione esprime la relazione funzionale tra Y ed X , quindi dopo aver stimato
l l ’ ’ intercetta a intercetta a
e lapendenza b, pendenza b,
mediante l’equazione della rettapossiamo ottenere i valori di Y corrispondenti a ciascun valore di X
Coefficiente di correlazione
Se assume valori positivi allora tra le 2 variabili valori positivi c’è una correlazione positivacorrelazione positiva:
al crescere di una variabile anche l’altra cresce Può assumere valori compresi tra
-1 - 1
e1 1
Se assume valori negativi allora tra le 2 variabili valori negativi c’è una correlazione negativacorrelazione negativa :
al crescere di una variabile l’altra decresce
Se assume valore 0 significa che non esiste valore 0 relazione lineare tra le due variabili
X X Y
Y
XX YY
Coefficiente di correlazione di Pearson
Quantitative Si usa per variabili
Indicando con X e Y le due variabili di cui vogliamo calcolare la correlazione
R =
Covarianza(X, Y)
varianza(X) * varianza(Y)
Dove la sommatoria
Covarianza(X, Y) = Σ (x-media di x)*(y-media di y)
n Numerosità del campione
varianza(X) = Σ (x-media di x)2 n
varianza(Y) = Σ (y-media di y)2 n
varianza(X) = Σ (x-media di x)2 n
La Correlazione con SPSS
SPSS
SPSS Click
Click Correlazione
Correlazione bivariata bivariata
Nel dataset Completo calcolate la correlazione
tra l’Età BH e l’ Età emodialitica utilizzando SPSS
Correlazioni
Età_BH(m esi)
Età_emod ialitica(m
esi)
Età_BH(mesi)
Correlazione di
Pearson 1 ,390**
Sig. (2-code) ,000
N 334 334
Età_emodialitica (mesi)
Correlazione di
Pearson ,390** 1
Sig. (2-code) ,000
N 334 334
**. La correlazione è significativa al livello 0,01 (2-code).
Il coefficiente di correlazione è 0,39 ed è significativo p-value=0,000, è positivo e quindi tra l’Età BH e l’ età emodialitica esiste una correlazione positiva. Il quadrato dell’indice di correlazione fornisce il coefficiente di determinazione: 0,39x0,39=0,152
La Correlazione con SPSS
Coefficiente di correlazione
Per calcolare il coefficiente di correlazione è necessario che le variabili siano quantitative o ordinali:
Quantitative Quantitative
Ordinali
Ordinalicoefficiente di correlazione di
coefficiente di correlazione di
Pearsoncoefficienti di correlazione di
coefficienti di correlazione di
Spearman (per ranghi)Spearman
Coefficiente di correlazione di Spearman
VAS N°
rango
0 170 1
1 25 2
2 43 3
3 30 4
4 19 5
5 22 6
6 22 7
7 12 8
8 6 9
9 4 10
10 2 11
Si usa per variabili OrdinaliOrdinali ed è un coefficiente di correlazione tra ranghi Ad es. dai dati rilevati su 357 pazienti, il coefficiente di correlazione tra VAS ed età si ottiene nel modo seguente:
ADL N°pazienti
rango
0 6
1
1 8
2
2 10
3
3 16
4
4 11
5
5 30
6
6 276
7
rango Vas
rango ADL
n°
pazienti
differenza tra ranghi
1 1 2 0
1 2 1 -1
1 3 4 -2
1 4 7 -3
1 5 5 -4
1 6 12 -5
1 7 139 -6
2 1 1 1
2 2 1 0
2 3 2 -1
2 4 2 -2
2 5 19 -3
rango Vas
rango ADL
n°
pazienti
differenza tra ranghi
1 1 2 0
1 2 1 -1
1 3 4 -2
1 4 7 -3
1 5 5 -4
1 6 12 -5
1 7 139 -6
2 1 1 1
2 2 1 0
2 3 2 -1
2 4 2 -2
2 5 19 -3
Si calcola il coefficiente di correlazione di Spearman
Rs = 1- 6 Σ D2 n*(n2-1)
D2 è la differenza al quadrato tra i ranghi
Dove
Coefficiente di correlazione di Spearman
Questo è il risultato della correlazione tra la VAS e l’ADL
Correlazione -0,93: è negativa quindi al crescere dell’ADL la VAS
decresce ma questa correlazione non è significativa (p-value=0.081),
Misure simmetriche
Valore
E.S.
asint.
a
T appross.
b
Sig.
appross . Ordinale per
ordinale
Tau-bdi Kendall
-.080 .045 -1.767 .077
Tau-cdi Kendall
-.049 .028 -1.767 .077
Correlazione di Spearman
-.093 .052 -1.749 .081c
Intervallo per intervallo
R di Pearson -.064 .051 -1.202 .230c
N. di casi validi 355
Correlazione di Spearman tra VAS e ADL:
risultato di SPSS
SPSSSPSS Click
Click Analizza
Statistiche descrittive
Tavole di contingenza Statistiche
Click Correlazioni, Tau-b di Kendall, Tau-c di Kendall
Coefficiente di correlazione di
Coefficiente di correlazione di Spearman Spearman in SPSS
in SPSS
SPSSSPSS Click
Click Analizza
Correlazione bivariata
Esercizio
Utilizzando il dataset Completo Calcolate:
Retta di regressione e correlazione tra le seguenti variabili:
• VAS ed età
• VAS e v_difficoltà_inserimento
• VAS e a_difficoltà_inserimento
• VAS e effetto trampolino
• VAS e a_calibro
• Ematocrito ed età
• Ematocrito ed età emodialitica
• Ematocrito ed età BH
• Età emodialitica e BMI
Analisi Statistica multivariata
E’ la parte più importante dello studio
• L’Analisi multivariata permette di stimare un
modello matematico di associazione tra l’endpoint di interesse (variabile dipendente) e più variabili
considerate contemporaneamente (variabili indipendenti)
Y=a+b
Y=a+b
11X X
11+b +b
22X X
22Variabile Variabile dipendente
dipendente Variabili Variabili indipendenti indipendenti
Analisi di regressione
Esempio Regressione lineare semplice:
Esempio Regressione lineare semplice:
vogliamo stimare la relazione tra la pressione sistolica arteri
vogliamo stimare la relazione tra la pressione sistolica arteriosa e il peso osa e il peso corporeo
corporeo
Dati su 10 soggetti Dati su 10 soggetti
100 110 120 130 140 150 160 170
55 60 65 70 75 80 85
Peso (Kg)
PAS (mm Hg)
CC’è’è una tendenza della PAS ad aumentare una tendenza della PAS ad aumentare al crescere del peso
al crescere del peso
Diagramma di dispersione
N°
soggetti
Pressione sistolica arteriosa (PAS) (mm
Hg)
Peso corporeo
(Kg)
1 130 60
2 110 60
3 130 65
4 120 65
5 150 70
6 125 70
7 140 75
8 135 75
9 150 80
10 160 80
Totale 1350 700
media 135 70
Analisi di regressione:
esempio regressione lineare semplice
100 110 120 130 140 150 160 170
55 60 65 70 75 80 85
Peso (Kg)
PAS (mm Hg)
Questi punti sono dispersi intorno Questi punti sono dispersi intorno ad una possibile retta di regressione ad una possibile retta di regressione
L’L’equazione di questa possibile retta equazione di questa possibile retta èè::
Y=a+bX Y=a+bX
PASPAS
(variabile dipendente)
(variabile dipendente) PesoPeso
(variabile indipendente) (variabile indipendente) Mediante il metodo dei minimi quadrati che minimizza gli scarti tra la retta e i vari punti Si ottiene:
Y=19,5+1,65X Y=19,5+1,65X
che significa che per ogni valore del Peso (X)moltiplicandolo per 1,65 e sommandogli 19,5 si ottiene il valore stimatovalore stimato di PAS, a cui va associato un intervallo di confidenza
Per il peso x=80 si ha la PAS stimata y=19,5+1,65*80=151,5 Per il peso x=80 si ha la PAS stimata y=19,5+1,65*80=151,5
Perché è necessaria l’analisi multivariata ?
Ma la relazione trovata tra PAS e Peso corporeo può risentire dell’effetto di altre variabili confondenti che è necessario tenere in considerazione
N° soggetti
Pressione sistolica arteriosa (PAS) (mm
Hg) Y
Peso corporeo
(Kg) X1
Età (anni) X2
Sesso (F=1, M=0) X3
1 130 60 46 1
2 110 60 22 1
3 130 65 32 1
4 120 65 40 1
5 150 70 75 1
6 125 70 35 0
7 140 75 26 0
8 135 75 26 0
9 150 80 32 0
10 160 80 62 0
Totale 1350 700 396 5
media 135 70 39,6 0,5
1. E’ ragionevole pensare che la
relazione tra pressione arteriosa e peso sia diversa a seconda delldell’’etetàà dei pazienti
dei pazienti
2. E’ ragionevole pensare che la relazione tra pressione arteriosa e peso sia
diversa anche in base al sessosesso
esempio regressione multipla
N° soggetti
Pressione sistolica arteriosa (PAS) (mm
Hg) Y
Peso corporeo
(Kg) X1
Età (anni) X2
Sesso (F=1, M=0) X3
1 130 60 46 1
2 110 60 22 1
3 130 65 32 1
4 120 65 40 1
5 150 70 75 1
6 125 70 35 0
7 140 75 26 0
8 135 75 26 0
9 150 80 32 0
10 160 80 62 0
Totale 1350 700 396 5
Vogliamo
stimare
Y Y
in base ai valori diX X
11X X
22 eX X
33 Il modello di regressione multivariato YY =a+ bb11 XX11 + b+ b22 XX22 + bb33 XX33Dai dati si ottiene :
YY =-17,48+ 1,921,92 XX11 + 0,37+ 0,37 XX2 2 + 6,56,5 XX33 Quindi all
Quindi all’’equazione della retta aggiungiamo 2 ulteriori variabili lequazione della retta aggiungiamo 2 ulteriori variabili l’’etetàà e il sesso:e il sesso:
Y=a+b
Y=a+b
11X X
11+ b + b
22X X
22+b +b
33X X
33PASPAS
(variabile dipendente) (variabile dipendente)
PesoPesoPeso
Peso EtàEtà SessoSesso
Coefficienti parziali di regressione
Dai dati si ottiene :
Y Y =-17,48+ 1,92 1,92 X X
11+ 0,37 + 0,37 X X
2 2+ 6,5 6,5 X X
33Y=a+b
Y=a+b
11X X
11+ b + b
22X X
22+b +b
33X X
33Costante di
regressione
Interpretazione
La PAS (Y) cresce di 1,92 unit
La PAS (Y) cresce di 1,92 unitàà al crescere di 1 kg di peso (X1), al crescere di 1 kg di peso (X1), di 0,37 unit
di 0,37 unitàà al crescere di 1 anno di etàal crescere di 1 anno di età e di 6,5 unitàe di 6,5 unità se il paziente èse il paziente è femmina femmina
Come è cambiata la stima di Y passando dalla regressione univariata a quella multivariata
• La relazione tra PAS e peso senza considerare l’influenza di altri fattori di rischio, è stimata dalla retta di regressione Y=19,5+1,65 X1
• Aggiungendo altre 2 variabili la relazione stimata tra PAS e peso cambia
Y = -17,48+ 1,92 X1 + 0,37 X2 + 6,5 X3
Regressione univariata Y=19,5+1,65 X1
output SPSS
Riepilogo del modello
Modello R R-quadrato R-quadrato corretto Deviazione
standard Errore della stima
1 ,805a ,648 ,604 9,610
a. Predittori: (Costante), Peso corporeo (Kg) X1
Coefficientia
Coefficienti non standardizzati Coefficienti standardizzati Modello
B Deviazione
standard Errore
Beta
t Sig.
(Costante) 19,500 30,236 ,645 ,537
1 Peso corporeo (Kg) X1 1,650 ,430 ,805 3,839 ,005
a. Variabile dipendente: Pressione sistolica arteriosa (PAS) (mm Hg) Y
Il peso è in relazione significativa con la pressione sistolica arteriosa(PAS):
al crescere di 1 kg di peso la PAS cresce di 1,65 unità
Il 65% del valore di PAS
È spiegato dalla sua relazione con l’età
Regressione multivariata Regressione multivariata
YY = -17,48+ 1,921,92 X1 + 0,37X1 + 0,37 X2 + 6,5X2 6,5 X3X3
output SPSS output SPSS
Riepilogo del modello
Modello R R-quadrato R-quadrato
corretto
Deviazione standard Errore della
stima
1 ,946a ,895 ,842 6,075
a. Predittori: (Costante), Sesso (F=1 M=0) X3, Età (anni) X2, Peso corporeo (Kg) X1
Coefficientia
Coefficienti non standardizzati Coefficienti standardizzati Modello
B Deviazione
standard Errore
Beta
t Sig.
(Costante) -17,478 46,367 -,377 ,719
Peso corporeo (Kg) X1 1,920 ,652 ,937 2,947 ,026
Età (anni) X2 ,374 ,154 ,417 2,425 ,052
1
Sesso (F=1 M=0) X3 6,499 9,332 ,224 ,696 ,512
a. Variabile dipendente: Pressione sistolica arteriosa (PAS) (mm Hg) Y
L’89,5% della variabilità della PAS è spiegata dal modello multivariato
L’unico coefficiente significativo
La regressione lineare multivariata con SPSS
SPSS
SPSS Click
Click Analizza
Analizza
Regressione Regressione
lineare lineare…
Dal dataset Completo verificare se c’è una relazione lineare tra la VAS e
l’età
Randomizzazione
v_difficoltà_inserimento v_effetto_trampilino
La variabile dipendente è la VAS
Quindi il modello trovato per la VAS Quindi il modello trovato per la VAS è è : : Y= Y= - - 3,36+0,08X 3,36+0,08X
11+- + -0,117X 0,117X
22+2,56X +2,56X
33+0X +0X
44Coefficientia
Modello Coefficienti non
standardizzati
Coefficienti standardizzati
t Sig. Intervallo di confidenza 95,0% per B B Deviazione
standard Errore
Beta Limite
inferiore
Limite superiore
1
(Costante) 3,366 1,181 2,8
50 ,005 1,043 5,690
Randomizzazione ,084 ,171 ,026 ,49
1 ,624 -,253 ,421
V_difficoltà_inseri
mento ,117 ,343 ,021 ,34
2 ,732 -,557 ,792
V_effetto_trampoli
no 2,558 ,595 ,260 4,3
02 ,000 1,388 3,728
Età ,000 ,007 -,004
- ,07 4
,941 -,014 ,013
a. Variabile dipendente: VAS
Riepilogo del modello Modell
o
R R-
quadrato
R-quadrato corretto
Deviazione standard Errore della
stima
1 ,276a ,076 ,065 1,543
a. Predittori: (Costante), Età, Randomizzazione, V_effetto_trampolino, V_difficoltà_inserimento
Alcune considerazioni sull’Indice di determinazione R 2
l’Indice di determinazione R
2misura la frazione della
variabilità di Y dovuta alla sua dipendenza lineare dai regressori.
Presenta però degli inconvenienti:
• Assume valori elevati anche quando la relazione non è di tipo lineare
• Cresce sempre al crescere del numero di regressori Per ovviare a questi inconvenienti si considera
R
2corretto =1-(1-R
2)*(n-1)/(n-m)
dove n è la numerosità del campione ed m è il numero dei
regressori
Quindi il modello trovato per la VAS Quindi il modello trovato per la VAS è è : : Y= Y= - - 3,36+0,08X 3,36+0,08X
11+- + -0,117X 0,117X
22+2,56X +2,56X
33+0X +0X
44Coefficientia
Modello Coefficienti non
standardizzati
Coefficienti standardizzati
t Sig. Intervallo di confidenza 95,0% per B B Deviazione
standard Errore
Beta Limite
inferiore
Limite superiore
1
(Costante) 3,366 1,181 2,8
50 ,005 1,043 5,690
Randomizzazione ,084 ,171 ,026 ,49
1 ,624 -,253 ,421
V_difficoltà_inseri
mento ,117 ,343 ,021 ,34
2 ,732 -,557 ,792
V_effetto_trampoli
no 2,558 ,595 ,260 4,3
02 ,000 1,388 3,728
Età ,000 ,007 -,004
- ,07 4
,941 -,014 ,013
a. Variabile dipendente: VAS
Riepilogo del modello Modell
o
R R-
quadrato
R-quadrato corretto
Deviazione standard Errore della
stima
1 ,276a ,076 ,065 1,543
a. Predittori: (Costante), Età, Randomizzazione, V_effetto_trampolino, V_difficoltà_inserimento
Nella maggior parte degli studi clinici la variabile dipendente può assumere solo due valori:
sì , di solito codificato come 1
no codificato come 0.
Queste variabili sono definite variabili dicotomiche
Esempi di variabili dipendenti dicotomiche nella ricerca clinica:
Analisi Statistica multivariata per endpoints dicotomici
presenza/assenza di una patologia (es. BPCO, Scompenso cardiaco, Diabete ecc)
Evento sì/no (es. morte, complicanza, riospedalizzazione ecc.)
Il modello di regressione logistica è il modello per l’analisi multivariata che viene usato quando la variabile dipendente Y è una variabile dicotomica.
La Y viene espressa come logit di p ovvero il logaritmo del rapporto p tra la probabilità di avere l’evento e la probabilità di non averlo
Analisi statistica multivariata per endpoints dicotomici
il modello di regressione logistica
Logit
Logit(p)(p) =α+ ββ11 XX11 + + ββ22 XX22 + ββ33 XX33+....
E’ espresso come:
E’ un modello particolarmente utile perché l’esponenziale dei coefficienti ββ Sono gli oddsodds ratioratiodelle corrispondenti variabili indipendenti X:
e
β1β1 =OR(XX11), e ), ββ22 =OR(XX22),), ….Viene utilizzato soprattutto negli studi caso-controllo, in cui i casi sono usualmente definiti come nuovi eventi nella popolazione in studio e i controlli sono i non casi
il modello di regressione logistica il logit
Logit(p) =α+ β1 X1 + β2 X2 + β3 X3+..
Logit
Logit(p) (p) èè il il lnln p/(1-p/(1-p)p) ovvero il
ovvero il logitlogit èè il logaritmo naturale (lnil logaritmo naturale (ln) dell) dell’’oddsodds p/(1-p/(1-p)p) dove
Ad esempio se l
Ad esempio se l’’outcomeoutcome in studio èin studio è la morte il logitla morte il logit èè il logaritmo il logaritmo naturale del rapporto tra la probabilit
naturale del rapporto tra la probabilitàà di morire p e la probabilitàdi morire p e la probabilità di di sopravvivere (1
sopravvivere (1--p).p).
Da cui
Da cui
p= p=
probabilitàprobabilità di morire=di morire=1 1 - - e e
(α(α+ + ββ1 1 X1X1 + β+ β2 2 XX2 + 2 + ββ3 3 XX3+3+..)..)e e
(α(α+ + ββ1 1 XX11 + β+ β2 2 XX2 + 2 + ββ3 3 XX3+3+..)..)1 1 - - e e
(α(α+ + ββ1 1 X1X1 + β+ β2 2 XX2 + 2 + ββ3 3 XX3+3+..)..)e e
(α(α+ + ββ1 1 XX11 + β+ β2 2 XX2 + 2 + ββ3 3 XX3+3+..)..)Es. Studio sugli esiti intra-ricovero dei pazienti con età >=80 anni sottoposti ad intervento cardiochirurgico nei centri dell’Emilia-Romagna.
Obiettivo
individuazione dei fattori di rischio associati alla mortalità intra-ricovero
analisi statistiche effettuate:
1. Analisi univariata per verificare quali caratteristiche pre-operatorie prese singolarmente erano associate alla mortalità intra-ricovero
1. Analisi multivariata con modello di regressione logistica per valutare l’associazione di ciascuna delle caratteristiche risultate significative dall’analisi univariata, al netto di tutte le altre