PAS (mm Hg)

(1)

Daniela Fortuna Daniela Fortuna

Gestione ed Analisi Statistica dei dati Gestione ed Analisi Statistica dei dati

13 giugno 2014 13 giugno 2014

Master in

Master in ““Evidence Based

Evidence

Based PracticePractice e e

Metodologia della Ricerca

Metodologia della Ricerca clinicoclinico--assistenzialeassistenziale””

(2)

Argomenti

Relazioni tra variabili Analisi univariata

–

Regressione lineare

–

Correlazione

Analisi multivariata

–

Regressione lineare multivariata

–

Regressione logistica

Parte teorica

Parte teorica

(3)

Le fasi dell’analisi statistica

1° step

Descrizione del campione Descrizione del campione

frequenze descrittive delle variabili d’interesse per lo studio

3° step

Analisi Analisi Univariata Univariata

Significativit

Significatività

à

delle differenze delle caratteristiche tra i

delle differenze delle caratteristiche tra i gruppi a confronto

gruppi a confronto Test di ipotesi (p-value)

misure di associazione tra variabili quantitative

misure di associazione tra variabili quantitative

(correlazione correlazione e regressione

e regressione) che esprimono la relazione lineare tra due variabili misurabili

4° step

Analisi multivariata

che esprime la relazione tra l’outcome oggetto dello studio e più variabili considerate contemporaneamente

2° step

Inferenza dal campione alla popolazione Inferenza dal campione alla popolazione

^:

Stima Stima

Intervalli di confidenza

(4)

Con il Test di ipotesi si mettono a confronto due misure per valutare la significatività della loro differenza

Il passo successivo

Il passo successivo è è trovare una funzione matematica trovare una funzione matematica che esprime la relazione tra le variabili

che esprime la relazione tra le variabili

ma il test d’ipotesi non ci dice nulla riguardo il tipo di relazione che esiste tra 2 variabili

Misure di associazione tra variabili quantitative

(5)

Misure di associazione tra variabili quantitative

Partiamo con un esempio : Su un campione di 20 pazienti abbiamo rilevato l’età e la concentrazione di urea per misurare

l’associazione tra queste due variabili.

Ovvero vogliamo valutare se al crescere

dell’ età ^la concentrazione di urea aumenta oppure diminuisce

ID

pazienti Età Urea mmol/L

1 60 3

2 76 5,6

3 81 7,8

4 89 9,6

5 44 5,4

6 58 7,3

7 55 3,1

8 74 6,8

9 45 4,7

10 67 4

11 72 13,69

12 91 14,89

13 76 7,8

14 39 4,6

15 71 7,4

16 56 4,6

17 77 6,2

18 37 4,2

19 64 11,7

20 84 6,9

(6)

Misure di associazione tra variabili quantitative

Riportiamo i valori della tabella in un grafico

ID

pazienti Età Urea mmol/L

1 60 3

2 76 5,6

3 81 7,8

4 89 9,6

5 44 5,4

6 58 7,3

7 55 3,1

8 74 6,8

9 45 4,7

10 67 4

11 72 13,69

12 91 14,89

13 76 7,8

14 39 4,6

15 71 7,4

16 56 4,6

17 77 6,2

18 37 4,2

19 64 11,7

20 84 6,9

ID Paz 1

ID Paz 2

Dal grafico sembra che ci sia una relazione.

Verifichiamo se questa relazione è lineare e se può essere espressa mediante l’equazione di una retta

(7)

Misure di associazione tra variabili quantitative la RETTA di REGRESSIONE

Tra questi punti possono passare diverse rette.

Dobbiamo trovare la retta che sia il più possibile vicina alla maggior parte dei punti indicati sul grafico, e per individuare la retta che interpola meglio i dati utilizziamo il metodo dei minimi quadrati

y

x La retta che si ottiene

mediante il metodo dei minimi quadrati, è quella che minimizza la somma

dei quadrati delle

differenze

tra ciascun punto osservato e i punti della retta.

y

x y

Retta ottenuta con il metodo dei minimi quadrati

(8)

Indichiamo con x= età

y= Urea

ŷ= valori di urea stimati dalla retta per ogni valore di x y

x

Retta ottenuta con il metodo dei minimi quadrati

La retta che si ottiene mediante il metodo dei minimi quadrati, è

quella che minimizza la seguente somma

Σ (y- ŷ)

²

(y- ŷ)

RETTA di REGRESSIONE

METODO DEI MINIMI QUADRATI METODO DEI MINIMI QUADRATI

(9)

RETTA di REGRESSIONE

ID pazienti x y

ŷ (Valori di urea stimati dalla retta)

(y-ŷ) (y-ŷ)²

1 60 3 6,3 -3,3 10,7

2 76 5,6 8,2 -2,6 6,7

3 81 7,8 8,8 -1,0 1,0

4 89 9,6 9,8 -0,2 0,0

5 44 5,4 4,3 1,1 1,1

6 58 7,3 6,0 1,3 1,6

7 55 3,1 5,7 ^-2,6 ^6,6

8 74 6,8 8,0 ^-1,2 ^1,3

9 45 4,7 4,5 0,2 0,1

10 67 4 7,1 -3,1 9,7

11 72 13,69 7,7 6,0 35,7

12 91 14,89 10,0 4,9 23,9

13 76 7,8 8,2 -0,4 0,2

14 39 4,6 3,7 0,9 0,7

15 71 7,4 7,6 -0,2 0,0

16 56 4,6 5,8 -1,2 1,4

17 77 6,2 8,3 -2,1 4,5

18 37 4,2 3,5 ^0,7 ^0,5

19 64 11,7 6,7 5,0 24,5

20 84 6,9 9,2 -2,3 5,1

La somma dei quadrati delle differenze (residui) è:

Σ

(y- ŷ)² = 135,4

E poiché abbiamo usato il metodo dei minimi quadrati per individuare la retta che meglio interpola i dati, questo è il più piccolo valore che si poteva ottenere tra tutte le possibili rette

Mediante la retta di regressione sono stati stimati dei valori di urea

corrispondenti all’età.

La differenza tra i valori stimati e i valori osservati si indicano come residui

(10)

RETTA di REGRESSIONE

La retta di regressione viene espressa mediante l’equazione:

ŷ=a+bx

a a

= intercettaintercetta (ovvero il valore in cui la retta interseca l’asse delle Y bb = Pendenza della rettaPendenza della retta

indica di quante volte cresce o diminuisce la Y al crescere di 1 unità della X La retta che abbiamo stimato sui nostri dati ha la seguente equazione:

Quindi poiché b=0,12 possiamo concludere che al crescere di 1 anno di età la concentrazione di urea nel sangue cresce di 0, 12 mmol/L

**ŷ=-0,963+0,12*x**

(11)

RETTA di REGRESSIONE

ID pazienti x y

ŷ (Valori di urea stimati dalla retta)

(y-ŷ) (y-ŷ)²

1 60 3 6,3 ^-3,3 ^10,7

2 76 5,6 8,2 ^-2,6 ^6,7

3 81 7,8 8,8 -1,0 1,0

4 89 9,6 9,8 -0,2 0,0

5 44 5,4 4,3 1,1 1,1

6 58 7,3 6,0 1,3 1,6

7 55 3,1 5,7 -2,6 6,6

8 74 6,8 8,0 -1,2 1,3

9 45 4,7 4,5 0,2 0,1

10 67 4 7,1 -3,1 9,7

11 72 13,69 7,7 ^6,0 ^35,7

12 91 14,89 10,0 ^4,9 ^23,9

13 76 7,8 8,2 -0,4 0,2

14 39 4,6 3,7 0,9 0,7

15 71 7,4 7,6 -0,2 0,0

16 56 4,6 5,8 -1,2 1,4

17 77 6,2 8,3 -2,1 4,5

18 37 4,2 3,5 0,7 0,5

19 64 11,7 6,7 5,0 24,5

20 84 6,9 9,2 -2,3 5,1

Sostituendo ai valori della x l’età, si ottengono i valori stimati di urea

Ad esempio per x=60

**ŷ=-0,963+0,12*x**

Da questa equazione

ŷ=-0,963+0,12*60= 6,3

(12)

Modello

Coefficienti non standardizzati

Coefficienti standardizzati

t Sig.

Intervallo di confidenza 95,0% per B

B

Deviazion e sta nd ard Err

ore Beta

Limite inf eri ore

Limite su per ior e

1 (Costante) -,963 2,633 -,366 ,719 -6,496 4,569

età ,120 ,039 ,589 3,096 ,006 ,039 ,202

R R-quadrato

R-quadrato corretto

Deviazione standard Errore della stima

1 ,589^a ,347 ,311 2,74346

a. Predittori: (Costante), età

Riepilogo del modello

Modello

(13)

Nel valutare la relazione tra variabili quantitative (cioè misurabili) ci poniamo le seguenti domande

1. 1. Esiste una Esiste una associazione lineare associazione lineare tra due variabili? tra due variabili?

2. 2. Che Che verso verso ha tale relazione? ha tale relazione?

3. 3. Qual Qual è è la la forza forza di tale relazione? di tale relazione?

(14)

La relazione è di tipo lineare se, rappresentata su assi cartesiani, si avvicina alla lineare forma di una retta.

In questo caso,

all’aumentare di X aumenta Y.

Ad esempio, all’aumentare dell’altezza (X) di una persona aumenta anche il suo peso (Y).

1. 1. Esiste una associazione lineare Esiste una associazione lineare tra due variabili? tra due variabili?

Verifica grafica:

YY

(15)

La relazione è di tipo non linearenon lineare, se rappresentata su assi cartesiani, ha un andamento curvilineo (parabola o iperbole).

In questo caso a livelli bassi e alti di X corrispondono livelli bassi di Y; mentre a livelli intermedi di X corrispondono livelli alti di Y.

1. 1. Esiste una Esiste una associazione lineare associazione lineare tra due variabili? tra due variabili?

Verifica grafica:

XX YY

(16)

Il versoverso (o direzione) può essere:

positivo

, se all’aumentare di una variabile aumenta anche l’altra.

2. 2. Che Che verso verso ha tale relazione? ha tale relazione?

Il versoverso (o direzione) può essere:

negativo

, se all’aumentare di una variabile l’altra diminuisce.

XX YY

(17)

Relazione lineare:

retta di regressione

Se esiste una relazione lineare allora Y può essere espressa in funzione di X mediante l’equazione :

XX YY

X X Y

Y

a a

= intercettaintercetta (ovvero il valore in cui la retta interseca l’asse delle Y bb = Pendenza della rettaPendenza della retta

indica di quante volte cresce o diminuisce la Y al crescere di 1 unità della X ovvero Esiste una funzione matematica che esprime

la relazione tra la Y (variabile dipendente) e la X (variabile indipendente)

Variabile dipendente Variabile indipendente

(18)

La regressione lineare con SPSS

SPSS

SPSS Click

Click

Analizza Analizza

Regressione Regressione

Stima di curve Stima di curve Click

Click

lineare, includi costante nell’ lineare, includi costante nell ’ equazione, equazione, visualizza grafici

visualizza grafici

SPSS

SPSS

Click

Click

Analizza Analizza

Regressione Regressione

lineare lineare…

Dal dataset Completo che abbiamo creato ieri verificare se tra Età emodialitica (in mesi) e l’Età BH c’è una relazione lineare

La variabile dipendente è l Età emodialitica

(19)

Esempio con SPSS: risultato

Il risultato ci dice che l’età BH dipende linearmente dall’età emodialitica in modo

significativo. Al crescere di un unità dell’età emodialitica l’età BH cresce di 0,12 mesi Quindi l’equazione della retta di regressione è:

Y=23,34+0,12X

Mediante questa equazione possiamo stimare l

Mediante questa equazione possiamo stimare l’’etetàà BH per ogni etàBH per ogni età emodialiticaemodialitica pp-value-value

Coefficienti^a

Modello Coefficienti non

standardizzati

Coefficienti standardizz

ati

t Sig. Intervallo di confidenza 95,0% per B B Deviazione

standard Errore

Beta Limite

inferiore

Limite superiore

1

(Costante) 23,337 1,551 15,048 ,000 20,286 26,388

Età_emodialitica(m

esi) ,120 ,016 ,390 7,723 ,000 ,090 ,151

a. Variabile dipendente: Età_BH(mesi)

(20)

Esempio con SPSS: risultato

Graficamente: Quindi non tutta la variabilità dell’Età BH è spiegata dall’età emodialitica.

Il rapporto tra la varianza della Y stimata e la varianza osservata della Y, indicata anche come:

Varianza spiegata Varianza totale

= RR²²

Coefficiente di Coefficiente di determinazione determinazione Scarti

Scarti positivi positivi

Scarti negativi Scarti negativi

Riepilogo del modello e stime dei parametri Variabile dipendente: Età_BH(mesi)

Equazion e

Riepilogo del modello Stime di parametri

R- quadrato

F df1 df2 Sig. Costant

e

b1

Lineare ,152 59,644 1 332 ,000 23,337 ,120

La variabile indipendente è Età_emodialitica(mesi).

(21)

Varianza spiegata Varianza totale

= RR²²

Coefficiente di determinazione Coefficiente di determinazione

Varianza spiegata

Varianza spiegata è la varianza attribuibile alla relazione che sussiste tra X ed Y.

Ed è calcolata come differenza della retta di regressione dal valore medio

Quindi il coefficiente di determinazione RR²²fornisce la proporzione della varianza di Y determinata dalla sua relazione con X.

Nel nostro esempio R² =0,152, significa che l’età emodialitica spiega il 15,8% della variabilità dell’Età BH ovvero che il rimanente 85% è spiegato da altri fattori che non sono stati considerati

Varianza totale

Varianza totale è la varianza di Y: varianza(Y) = Σ (y-media di y)² n

Varianza spiegata(Y)

Varianza spiegata(Y) ⁼

Σ (Ŷ-media di y)

²

n

y stimato dalla retta di regressione

(22)

0 5 10 15 20 25

0 20 40 60 80 100 120

Scarti (differenze) di ciascun valore rispetto al valore stimato dalla retta

Retta di regressione

La retta di regressione ha la proprietà di minimizzare

minimizzare

la somma

dei quadrati delle differenze tra i valori osservati e quelli stimati

mediante la retta

(23)

Quanto più i punti sono raggruppati attorno ad una retta, tanto

pipiù ù forte èforte

la relazione tra due variabili.

3. Qual Qual è è la la forza forza di tale relazione? di tale relazione?

XX YY

(24)

Se i punti sono dispersi sono dispersi in maniera uniforme, invece, tra

le due variabili non esiste

non esiste alcuna relazione.

(25)

misure di associazione tra variabili quantitative

Correlazione

La correlazionecorrelazione indica la tendenza che hanno due variabili (X e Y) a variare

insieme, ovvero, a covariare e quindi indica la

forza forza

o l’intensitintensitàà del loro legame.

La retta di regressioneretta di regressione esprime la relazione funzionale tra Y ed X , quindi dopo aver stimato

l l ’ ’ intercetta a intercetta a

e la

pendenza b, pendenza b,

mediante l’equazione della retta

possiamo ottenere i valori di Y corrispondenti a ciascun valore di X

(26)

Coefficiente di correlazione

Se assume valori positivi allora tra le 2 variabili valori positivi c’è una correlazione positivacorrelazione positiva:

al crescere di una variabile anche l’altra cresce Può assumere valori compresi tra

-1 - 1

^e

1 1

Se assume valori negativi allora tra le 2 variabili valori negativi c’è una correlazione negativacorrelazione negativa :

al crescere di una variabile l’altra decresce

Se assume valore 0 significa che non esiste valore 0 relazione lineare tra le due variabili

X X Y

Y

XX YY

(27)

Coefficiente di correlazione di Pearson

Quantitative Si usa per variabili

Indicando con X e Y le due variabili di cui vogliamo calcolare la correlazione

R =

Covarianza(X, Y)

varianza(X) * varianza(Y)

Dove la ^sommatoria

Covarianza(X, Y) = Σ (x-media di x)*(y-media di y)

n Numerosità del campione

varianza(X) = Σ (x-media di x)² n

varianza(Y) = Σ (y-media di y)² n

varianza(X) = Σ (x-media di x)² n

(28)

La Correlazione con SPSS

SPSS

SPSS Click

Click Correlazione

Correlazione bivariata bivariata

Nel dataset Completo calcolate la correlazione

tra l’Età BH e l’ Età emodialitica utilizzando SPSS

(29)

Correlazioni

Età_BH(m esi)

Età_emod ialitica(m

esi)

Età_BH(mesi)

Correlazione di

Pearson 1 ,390^**

Sig. (2-code) ,000

N 334 334

Età_emodialitica (mesi)

Correlazione di

Pearson ,390^** 1

Sig. (2-code) ,000

N 334 334

**. La correlazione è significativa al livello 0,01 (2-code).

Il coefficiente di correlazione è 0,39 ed è significativo p-value=0,000, è positivo e quindi tra l’Età BH e l’ età emodialitica esiste una correlazione positiva. Il quadrato dell’indice di correlazione fornisce il coefficiente di determinazione: 0,39x0,39=0,152

La Correlazione con SPSS

(30)

Coefficiente di correlazione

Per calcolare il coefficiente di correlazione è necessario che le variabili siano quantitative o ordinali:

Quantitative Quantitative

Ordinali

Ordinali

coefficiente di correlazione di

Pearson

coefficienti di correlazione di

Spearman (per ranghi)

Spearman

(31)

Coefficiente di correlazione di Spearman

VAS N°

rango

0 170 1

1 25 2

2 43 3

3 30 4

4 19 5

5 22 6

6 22 7

7 12 8

8 6 9

9 4 10

10 2 11

Si usa per variabili OrdinaliOrdinali ^{ed è} un coefficiente di correlazione tra ranghi Ad es. dai dati rilevati su 357 pazienti, il coefficiente di correlazione tra VAS ed età si ottiene nel modo seguente:

ADL N°pazienti

rango

0 6

1

1 8

2

2 10

3

3 16

4

4 11

5

5 30

6

6 276

7

rango Vas

rango ADL

n°

pazienti

differenza tra ranghi

1 1 2 0

1 2 1 -1

1 3 4 -2

1 4 7 -3

1 5 5 -4

1 6 12 -5

1 7 139 -6

2 1 1 1

2 2 1 0

2 3 2 -1

2 4 2 -2

2 5 19 -3

(32)

rango Vas

rango ADL

n°

pazienti

differenza tra ranghi

1 1 2 0

1 2 1 -1

1 3 4 -2

1 4 7 -3

1 5 5 -4

1 6 12 -5

1 7 139 -6

2 1 1 1

2 2 1 0

2 3 2 -1

2 4 2 -2

2 5 19 -3

Si calcola il coefficiente di correlazione di Spearman

Rs = 1- 6 Σ D² n*(n²-1)

D² è la differenza al quadrato tra i ranghi

Dove

Coefficiente di correlazione di Spearman

(33)

Questo è il risultato della correlazione tra la VAS e l’ADL

Correlazione -0,93: è negativa quindi al crescere dell’ADL la VAS

decresce ma questa correlazione non è significativa (p-value=0.081),

Misure simmetriche

Valore

E.S.

asint.

a

T appross.

b

Sig.

appross . Ordinale per

ordinale

Tau-bdi Kendall

-.080 .045 -1.767 .077

Tau-cdi Kendall

-.049 .028 -1.767 .077

Correlazione di Spearman

-.093 .052 -1.749 .081^c

Intervallo per intervallo

R di Pearson -.064 .051 -1.202 .230^c

N. di casi validi 355

Correlazione di Spearman tra VAS e ADL:

risultato di SPSS

(34)

SPSSSPSS Click

Click Analizza

Statistiche descrittive

Tavole di contingenza Statistiche

Click Correlazioni, Tau-b di Kendall, Tau-c di Kendall

Coefficiente di correlazione di

Coefficiente di correlazione di Spearman Spearman in SPSS

in SPSS

SPSSSPSS Click

Click Analizza

Correlazione bivariata

(35)

Esercizio

Utilizzando il dataset Completo Calcolate:

Retta di regressione e correlazione tra le seguenti variabili:

• VAS ed età

• VAS e v_difficoltà_inserimento

• VAS e a_difficoltà_inserimento

• VAS e effetto trampolino

• VAS e a_calibro

• Ematocrito ed età

• Ematocrito ed età emodialitica

• Ematocrito ed età BH

• Età emodialitica e BMI

(36)

Analisi Statistica multivariata

E’ la parte più importante dello studio

• L’Analisi multivariata permette di stimare un

modello matematico di associazione tra l’endpoint di interesse (variabile dipendente) e più variabili

considerate contemporaneamente (variabili indipendenti)

Y=a+b

₁₁

X X

₁₁

+b +b

₂₂

X X

₂₂

Variabile Variabile dipendente

dipendente Variabili Variabili indipendenti indipendenti

(37)

Analisi di regressione

Esempio Regressione lineare semplice:

vogliamo stimare la relazione tra la pressione sistolica arteri

vogliamo stimare la relazione tra la pressione sistolica arteriosa e il peso osa e il peso corporeo

corporeo

Dati su 10 soggetti Dati su 10 soggetti

100 110 120 130 140 150 160 170

55 60 65 70 75 80 85

Peso (Kg)

PAS (mm Hg)

CC’è’è una tendenza della PAS ad aumentare una tendenza della PAS ad aumentare al crescere del peso

al crescere del peso

Diagramma di dispersione

N°

soggetti

Pressione sistolica arteriosa (PAS) (mm

Hg)

Peso corporeo

(Kg)

1 130 60

2 110 60

3 130 65

4 120 65

5 150 70

6 125 70

7 140 75

8 135 75

9 150 80

10 160 80

Totale 1350 700

media 135 70

(38)

Analisi di regressione:

esempio regressione lineare semplice

100 110 120 130 140 150 160 170

55 60 65 70 75 80 85

Peso (Kg)

PAS (mm Hg)

Questi punti sono dispersi intorno Questi punti sono dispersi intorno ad una possibile retta di regressione ad una possibile retta di regressione

L’L’equazione di questa possibile retta equazione di questa possibile retta èè::

Y=a+bX Y=a+bX

PASPAS

(variabile dipendente)

(variabile dipendente) PesoPeso

(variabile indipendente) (variabile indipendente) Mediante il metodo dei minimi quadrati che minimizza gli scarti tra la retta e i vari punti Si ottiene:

Y=19,5+1,65X Y=19,5+1,65X

che significa che per ogni valore del Peso (X)

moltiplicandolo per 1,65 e sommandogli 19,5 si ottiene il valore stimatovalore stimato di PAS, a cui va associato un intervallo di confidenza

Per il peso x=80 si ha la PAS stimata y=19,5+1,65*80=151,5 Per il peso x=80 si ha la PAS stimata y=19,5+1,65*80=151,5

(39)

Perché è necessaria l’analisi multivariata ?

Ma la relazione trovata tra PAS e Peso corporeo può risentire dell’effetto di altre variabili confondenti che è necessario tenere in considerazione

N° soggetti

Hg) Y

(Kg) X1

Età (anni) X₂

Sesso (F=1, M=0) X3

1 130 60 46 1

2 110 60 22 1

3 130 65 32 1

4 120 65 40 1

5 150 70 75 1

6 125 70 35 0

7 140 75 26 0

8 135 75 26 0

9 150 80 32 0

10 160 80 62 0

Totale 1350 700 396 5

media 135 70 39,6 0,5

1. E’ ragionevole pensare che la

relazione tra pressione arteriosa e peso sia diversa a seconda delldell’’etetàà dei pazienti

dei pazienti

2. E’ ragionevole pensare che la relazione tra pressione arteriosa e peso sia

diversa anche in base al sessosesso

(40)

esempio regressione multipla

N° soggetti

Hg) Y

(Kg) X1

Età (anni) X2

Sesso (F=1, M=0) X3

1 130 60 46 1

2 110 60 22 1

3 130 65 32 1

4 120 65 40 1

5 150 70 75 1

6 125 70 35 0

7 140 75 26 0

8 135 75 26 0

9 150 80 32 0

10 160 80 62 0

Totale 1350 700 396 5

Vogliamo

stimare

Y Y

in base ai valori di

X X

₁₁

X X

₂₂ e

X X

₃₃ Il modello di regressione multivariato YY =a+ bb₁₁ XX₁₁ + b+ b₂₂ XX₂₂ + bb₃₃ XX₃₃

Dai dati si ottiene :

YY =-17,48+ 1,921,92 XX₁₁ + 0,37+ 0,37 XX₂₂+ 6,56,5 XX₃₃ Quindi all

Quindi all’’equazione della retta aggiungiamo 2 ulteriori variabili lequazione della retta aggiungiamo 2 ulteriori variabili l’’etetàà e il sesso:e il sesso:

Y=a+b

₁₁

X X

₁₁

+ b + b

₂₂

X X

₂₂

+b +b

₃₃

X X

₃₃

PASPAS

(variabile dipendente) (variabile dipendente)

PesoPesoPeso

Peso EtàEtà SessoSesso

(41)

Coefficienti parziali di regressione

Dai dati si ottiene :

Y Y =-17,48+ 1,92 1,92 X X

₁₁

+ 0,37 + 0,37 X X

₂₂

+ 6,5 6,5 X X

₃₃

Y=a+b

₁₁

X X

₁₁

+ b + b

₂₂

X X

₂₂

+b +b

₃₃

X X

₃₃

Costante di

regressione

Interpretazione

La PAS (Y) cresce di 1,92 unit

La PAS (Y) cresce di 1,92 unitàà al crescere di 1 kg di peso (X1), al crescere di 1 kg di peso (X1), di 0,37 unit

di 0,37 unitàà al crescere di 1 anno di etàal crescere di 1 anno di età e di 6,5 unitàe di 6,5 unità se il paziente èse il paziente è femmina femmina

(42)

Come è cambiata la stima di Y passando dalla regressione univariata a quella multivariata

• La relazione tra PAS e peso senza considerare l’influenza di altri fattori di rischio, è stimata dalla retta di regressione Y=19,5+1,65 X1

• Aggiungendo altre 2 variabili la relazione stimata tra PAS e peso cambia

Y = -17,48+ 1,92 X1 + 0,37 X2 + 6,5 X3

(43)

Regressione univariata Y=19,5+1,65 X1

output SPSS

Modello R R-quadrato R-quadrato corretto Deviazione

standard Errore della stima

1 ,805^a ,648 ,604 9,610

a. Predittori: (Costante), Peso corporeo (Kg) X1

Coefficienti^a

Coefficienti non standardizzati Coefficienti standardizzati Modello

B Deviazione

standard Errore

Beta

t Sig.

(Costante) 19,500 30,236 ,645 ,537

1 Peso corporeo (Kg) X1 1,650 ,430 ,805 3,839 ,005

a. Variabile dipendente: Pressione sistolica arteriosa (PAS) (mm Hg) Y

Il peso è in relazione significativa con la pressione sistolica arteriosa(PAS):

al crescere di 1 kg di peso la PAS cresce di 1,65 unità

Il 65% del valore di PAS

È spiegato dalla sua relazione con l’età

(44)

Regressione multivariata Regressione multivariata

YY = -17,48+ 1,921,92 X1 + 0,37X1 + 0,37 X2 + 6,5X2 6,5 X3X3

output SPSS output SPSS

Modello R R-quadrato R-quadrato

corretto

Deviazione standard Errore della

stima

1 ,946^a ,895 ,842 6,075

a. Predittori: (Costante), Sesso (F=1 M=0) X3, Età (anni) X2, Peso corporeo (Kg) X1

Coefficienti^a

Coefficienti non standardizzati Coefficienti standardizzati Modello

B Deviazione

standard Errore

Beta

t Sig.

(Costante) -17,478 46,367 -,377 ,719

Peso corporeo (Kg) X1 1,920 ,652 ,937 2,947 ,026

Età (anni) X2 ,374 ,154 ,417 2,425 ,052

1

Sesso (F=1 M=0) X3 6,499 9,332 ,224 ,696 ,512

a. Variabile dipendente: Pressione sistolica arteriosa (PAS) (mm Hg) Y

L’89,5% della variabilità della PAS è spiegata dal modello multivariato

L’unico coefficiente significativo

(45)

La regressione lineare multivariata con SPSS

SPSS

SPSS Click

Click Analizza

Analizza

Regressione Regressione

lineare lineare…

Dal dataset Completo verificare se c’è una relazione lineare tra la VAS e

l’età

Randomizzazione

v_difficoltà_inserimento v_effetto_trampilino

La variabile dipendente è la VAS

(46)

Quindi il modello trovato per la VAS Quindi il modello trovato per la VAS è è : : Y= Y= - - 3,36+0,08X 3,36+0,08X

₁₁

+- + -0,117X 0,117X

₂₂

+2,56X +2,56X

₃₃

+0X +0X

₄₄

Coefficienti^a

Modello Coefficienti non

standardizzati

Coefficienti standardizzati

t Sig. Intervallo di confidenza 95,0% per B B Deviazione

standard Errore

Beta Limite

inferiore

Limite superiore

1

(Costante) 3,366 1,181 2,8

50 ,005 1,043 5,690

Randomizzazione ,084 ,171 ,026 ,49

1 ,624 -,253 ,421

V_difficoltà_inseri

mento ,117 ,343 ,021 ,34

2 ,732 -,557 ,792

V_effetto_trampoli

no 2,558 ,595 ,260 4,3

02 ,000 1,388 3,728

Età ,000 ,007 -,004

- ,07 4

,941 -,014 ,013

a. Variabile dipendente: VAS

Riepilogo del modello Modell

o

R R-

quadrato

R-quadrato corretto

Deviazione standard Errore della

stima

1 ,276^a ,076 ,065 1,543

a. Predittori: (Costante), Età, Randomizzazione, V_effetto_trampolino, V_difficoltà_inserimento

(47)

Alcune considerazioni sull’Indice di determinazione R ²

l’Indice di determinazione R

²

misura la frazione della

variabilità di Y dovuta alla sua dipendenza lineare dai regressori.

Presenta però degli inconvenienti:

• Assume valori elevati anche quando la relazione non è di tipo lineare

• Cresce sempre al crescere del numero di regressori Per ovviare a questi inconvenienti si considera

R

²

corretto =1-(1-R

²

)*(n-1)/(n-m)

dove n è la numerosità del campione ed m è il numero dei

regressori

(48)

Quindi il modello trovato per la VAS Quindi il modello trovato per la VAS è è : : Y= Y= - - 3,36+0,08X 3,36+0,08X

₁₁

+- + -0,117X 0,117X

₂₂

+2,56X +2,56X

₃₃

+0X +0X

₄₄

Coefficienti^a

Modello Coefficienti non

standardizzati

Coefficienti standardizzati

t Sig. Intervallo di confidenza 95,0% per B B Deviazione

standard Errore

Beta Limite

inferiore

Limite superiore

1

(Costante) 3,366 1,181 2,8

50 ,005 1,043 5,690

Randomizzazione ,084 ,171 ,026 ,49

1 ,624 -,253 ,421

V_difficoltà_inseri

mento ,117 ,343 ,021 ,34

2 ,732 -,557 ,792

V_effetto_trampoli

no 2,558 ,595 ,260 4,3

02 ,000 1,388 3,728

Età ,000 ,007 -,004

- ,07 4

,941 -,014 ,013

a. Variabile dipendente: VAS

Riepilogo del modello Modell

o

R R-

quadrato

R-quadrato corretto

Deviazione standard Errore della

stima

1 ,276^a ,076 ,065 1,543

a. Predittori: (Costante), Età, Randomizzazione, V_effetto_trampolino, V_difficoltà_inserimento

(49)

Nella maggior parte degli studi clinici la variabile dipendente può assumere solo due valori:

sì , di solito codificato come 1

no codificato come 0.

Queste variabili sono definite variabili dicotomiche

Esempi di variabili dipendenti dicotomiche nella ricerca clinica:

Analisi Statistica multivariata per endpoints dicotomici

presenza/assenza di una patologia (es. BPCO, Scompenso cardiaco, Diabete ecc)

Evento sì/no (es. morte, complicanza, riospedalizzazione ecc.)

(50)

Il modello di regressione logistica ^è il modello per l’analisi multivariata che viene usato quando la variabile dipendente Y è una variabile dicotomica.

La Y viene espressa come logit di p ovvero il logaritmo del rapporto p tra la probabilità di avere l’evento e la probabilità di non averlo

Analisi statistica multivariata per endpoints dicotomici

il modello di regressione logistica

Logit

Logit(p)(p) =α+ ββ₁₁ XX₁₁ + + ββ₂₂ XX₂₂ + ββ₃₃ XX₃₃+....

E’ espresso come:

E’ un modello particolarmente utile perché l’esponenziale dei coefficienti ββ Sono gli oddsodds ratioratiodelle corrispondenti variabili indipendenti X:

e

^β1^β¹ =OR(XX₁₁), e ), ^β^β2² =OR(XX₂₂),), ….

Viene utilizzato soprattutto negli studi caso-controllo, in cui i casi sono usualmente definiti come nuovi eventi nella popolazione in studio e i controlli sono i non casi

(51)

il modello di regressione logistica il logit

Logit(p) =α+ β1 X1 + β2 X2 + β3 X3+..

Logit

Logit(p) (p) èè il il lnln p/(1-p/(1-p)p) ovvero il

ovvero il logitlogit èè il logaritmo naturale (lnil logaritmo naturale (ln) dell) dell’’oddsodds p/(1-p/(1-p)p) dove

Ad esempio se l

Ad esempio se l’’outcomeoutcome in studio èin studio è la morte il logitla morte il logit èè il logaritmo il logaritmo naturale del rapporto tra la probabilit

naturale del rapporto tra la probabilitàà di morire p e la probabilitàdi morire p e la probabilità di di sopravvivere (1

sopravvivere (1--p).p).

Da cui

p= p=

probabilitàprobabilità di morire=di morire=

1 1 - - e e

^(α⁽^α+^{+ β}^β1¹^X1^X¹ ^{+ β}⁺^β2^{2 X}^{X2 +}^{2 + β}^β3^{3 X}^X3+^3+..)^..)

e e

^(α⁽^α+^{+ β}^β1^{1 X}^X1¹ ^{+ β}⁺^β2^{2 X}^{X2 +}^{2 + β}^β3^{3 X}^X3+³⁺^..)^..)

1 1 - - e e

^(α⁽^α+^{+ β}^β1¹^X1^X¹ ^{+ β}⁺^β2^{2 X}^{X2 +}^{2 + β}^β3^{3 X}^X3+^3+..)^..)

e e

^(α⁽^α+^{+ β}^β1^{1 X}^X1¹ ^{+ β}⁺^β2^{2 X}^{X2 +}^{2 + β}^β3^{3 X}^X3+³⁺^..)^..)

(52)

Es. Studio sugli esiti intra-ricovero dei pazienti con età >=80 anni sottoposti ad intervento cardiochirurgico nei centri dell’Emilia-Romagna.

Obiettivo

individuazione dei fattori di rischio associati alla mortalità intra-ricovero

analisi statistiche effettuate:

1. Analisi univariata per verificare quali caratteristiche pre-operatorie prese singolarmente erano associate alla mortalità intra-ricovero

1. Analisi multivariata con modello di regressione logistica per valutare l’associazione di ciascuna delle caratteristiche risultate significative dall’analisi univariata, al netto di tutte le altre

PAS (mm Hg)

Daniela Fortuna Daniela Fortuna

Gestione ed Analisi Statistica dei dati Gestione ed Analisi Statistica dei dati

Master in

Evidence

Metodologia della Ricerca

Argomenti

Relazioni tra variabili Analisi univariata

Regressione lineare

Correlazione

Analisi multivariata

Regressione lineare multivariata

Regressione logistica

Parte teorica

Le fasi dell’analisi statistica

Descrizione del campione Descrizione del campione

Analisi Analisi Univariata Univariata

Significativit

à

delle differenze delle caratteristiche tra i gruppi a confronto

misure di associazione tra variabili quantitative

(correlazione correlazione e regressione

e regressione) che esprimono la relazione lineare tra due variabili misurabili

Analisi multivariata

che esprime la relazione tra l’outcome oggetto dello studio e più variabili considerate contemporaneamente

Inferenza dal campione alla popolazione Inferenza dal campione alla popolazione

Stima Stima

Con il Test di ipotesi si mettono a confronto due misure per valutare la significatività della loro differenza

Il passo successivo

Il passo successivo è è trovare una funzione matematica trovare una funzione matematica che esprime la relazione tra le variabili

che esprime la relazione tra le variabili

ma il test d’ipotesi non ci dice nulla riguardo il tipo di relazione che esiste tra 2 variabili

Misure di associazione tra variabili quantitative

Misure di associazione tra variabili quantitative

Misure di associazione tra variabili quantitative

Partiamo con un esempio : Su un campione di 20 pazienti abbiamo rilevato l’età e la concentrazione di urea per misurare

l’associazione tra queste due variabili.

Ovvero vogliamo valutare se al crescere

dell’ età la concentrazione di urea aumenta oppure diminuisce

Misure di associazione tra variabili quantitative

Misure di associazione tra variabili quantitative la RETTA di REGRESSIONE

Tra questi punti possono passare diverse rette.

Dobbiamo trovare la retta che sia il più possibile vicina alla maggior parte dei punti indicati sul grafico, e per individuare la retta che interpola meglio i dati utilizziamo il metodo dei minimi quadrati

y

x La retta che si ottiene

mediante il metodo dei minimi quadrati, è quella che minimizza la somma

tra ciascun punto osservato e i punti della retta.

y

x y

Indichiamo con x= età

y= Urea

ŷ= valori di urea stimati dalla retta per ogni valore di x y

x

La retta che si ottiene mediante il metodo dei minimi quadrati, è

quella che minimizza la seguente somma

Σ (y- ŷ)

RETTA di REGRESSIONE

RETTA di REGRESSIONE

Σ

RETTA di REGRESSIONE

La retta di regressione viene espressa mediante l’equazione:

ŷ=a+bx

a a

ŷ=-0,963+0,12*x

RETTA di REGRESSIONE

ŷ=-0,963+0,12*x

Nel valutare la relazione tra variabili quantitative (cioè misurabili) ci poniamo le seguenti domande

1. 1. Esiste una Esiste una associazione lineare associazione lineare tra due variabili? tra due variabili?

2. 2. Che Che verso verso ha tale relazione? ha tale relazione?

3. 3. Qual Qual è è la la forza forza di tale relazione? di tale relazione?

1. 1. Esiste una associazione lineare Esiste una associazione lineare tra due variabili? tra due variabili?

1. 1. Esiste una Esiste una associazione lineare associazione lineare tra due variabili? tra due variabili?

positivo

positivo

2. 2. Che Che verso verso ha tale relazione? ha tale relazione?

negativo

negativo

Relazione lineare:

retta di regressione

a a

dell’ età ^la concentrazione di urea aumenta oppure diminuisce

**ŷ=-0,963+0,12*x**

**ŷ=-0,963+0,12*x**