Regressione Logistica

(1)

Regressione Logistica

• Modello a struttura PREDETERMINATA per variabili qualitative dicotomiche

• Tecnica non parametrica

(2)

• Utilizzo: permette di prevedere il

comportamento di una variabile dipendente dicotomica (espressa come

presenza/assenza di una caratteristica o

risultato) basandosi sui valori di una serie di variabili predittori (fattori o covariate del

modello).

Regressione Logistica

(3)

• Risultato:

– la probabilità dell’evento dati quelle covariate – la probabilità dell’influenza di ciascuna delle

covariate rispetto alla probabilità di una delle caratteristiche della dipendente

Regressione Logistica

(4)

1.Procedura: definizione del modello

1. La relazione fra la variabile dipendente e le covariate è spiegata da una funzione logaritmica

logit (variabile)= b₀ + b₁ x₁ + b₂ x₂…

Regressione Logistica

(5)

Regressione Logistica Regressione Logistica

Trasforma la variabile qualitativa dicotomica (evento, non evento) in una variabile quantitativa utilizzando il

parametro odds

• 1.Variabile 0,1

• 2.Probabilità 0 1

• 3.Odds 0 

) (

evento non

p

evento odds  p

(6)

Per poter utilizzare una equazione nel campo dei numeri reali si esegue una ulteriore trasformazione

logarimica che prende il nome di logit

Odds logit (valore - --- 0 --- +)

) (

) log (

logit

nonevento p

evento

 p

Regressione Logistica

(7)

Regressione Logistica Regressione Logistica

• Logaritmo: funzione inversa dell’esponente

• Logaritmo naturale (Ln) di x è l’esponente da dare a e (numero naturale e = 2.718) per ottenere x

• Ln 5 = 1.6 perché 2.718

^1.6

= 5

(8)

Regressione Logistica Regressione Logistica

Proprietà dei logaritmi

• Ln 1 = 0

• Ln 0 = - 

• Ln +  = + 

(9)

La variabile può essere vista come funzione dei fattori in un modello regressivo

attraverso il quale è possibile assumere la relazione stessa come lineare :

logit (variabile)= b₀ + b₁ x₁ + b₂ x₂ + b₃  x₃







⁰ ¹^ ¹

(var) e

^b

e

^b ^x

odds

Regressione Logistica

(10)

2. Procedura: VALUTAZIONE della Bontà del modello - stima dei parametri b

a.Diversi metodi di approssimazione

(iteration) basati sul maximum likelihood

– A blocchi: valuta tutti i parametri assieme tramite il criterio di tolleranza (esclude le variabili che apportano poca informazione al modello)

– Per passi o per esclusione: toglie o aggiunge i parametri a seconda dell’apporto di questi alla

significatività del modello

Regressione Logistica

(11)

• Il likelihood , utilizzato anche per il

modello Log lineare, è la probabilità che i dati sperimentali siano stati generati dal modello

Regressione Logistica

(12)

• Successive approssimazioni:

– si crea il modello con un’approssimazione – si valuta il likelihood

– Si effettua una successiva approssimazione – Si valuta il likelihood

– Se questo crea un cambiamento superiore a una certa soglia si va avanti, altrimenti ci si ferma

Regressione Logistica

(13)

b. Valutazione della bontà del modello

Statistica Wald ²



 



 

SE Wald b

Regressione Logistica Regressione Logistica

Tuttavia, la statistica Wald non può esser usata da sola poiché quando il valore assoluto di b diventa molto grande, l’errore

standard sarà anche esso grande e la statistica Wald assumerà valori molto piccoli che facilmente falsificheranno l’ipotesi nulla anche quando non sarebbe da falsificare.

(14)

c. Valutazione della bontà del modello

• Goodness of fit che valuta la probabilità che il

modello sia adeguato nella rappresentazione dei dati

• Si valuta attraverso la non falsificazione di H0 utilizzando una distribuzione ²che confronta le frequenze osservate con le frequenze attese create dal modello

Regressione Logistica

(15)

d. Valutazione della bontà del modello

• Pseudo R squared

• valuta attraverso il confronto fra il likelihood del modello e il modello

dell’ipotesi nulla (considerando che nessun parametro sia influente)

Regressione Logistica

(16)

3. Significatività di b e senso dell’influenza Il contributo di ciascun fattore e il senso

della sua influenza sulla variabile dipendente è stimato attraverso l’esponenziale di b (odds ratio)

 

^b ôdds^b¹ ¹ ôdds^b¹ ê^b⁰ ^b¹ ê^b⁰ ê^b¹ ê^b¹

Exp  ^   ^   

Regressione Logistica

(17)

Significatività

La significatività dei parametri relativi ai fattori si può anche verificare

attraverso l’intervallo di confidenza

attorno all’esponenziale di b per ciascun fattore

Regressione Logistica

(18)

La regressione logistica fornisce le significatività per:

 il modello globale

 i singoli parametri, togliendo gli effetti dei parametri già considerati

Regressione Logistica

(19)

Esempio

logit (risposta aggressiva)= b₀ + b₁ x₁ + b₂ x₂+ b₃ x₃

Dove il logit della probabilità di rispondere in modo aggressivo è visto in funzione di una costante b₀sommata al contributo dato da

ciascun fattore al quale il modello ha attribuito il valore 1 moltiplicato per il suo coefficiente b_n

Attraverso la regressione logistica tutte le variabili categoriche vengono trasformate in variabili dicotomiche (con valori 0,1) B1 è il parametro relativo all’essere maschi

B2 è il parametro relativo all’età

Regressione Logistica

(20)

Regressione Logistica Regressione Logistica

Categorical Variables Codings

18 1.000

19 .000

16 1.000

21 .000

1.00 2.00 professione

maschio femmina genere

Frequency (1) Paramete

r coding

(21)

Regressione Logistica Regressione Logistica

Variables in the Equation

1.410 .724 3.800 1 .051 4.098 .992 16.921

.000 .034 .000 1 .993 1.000 .936 1.068

-.093 .725 .017 1 .898 .911 .220 3.769

-.856 1.121 .582 1 .445 .425

genere(1) eta

professione(1) Constant Step

1^a

B S.E. Wald df Sig. Exp(B) Lower Upper

95.0% C.I.for EXP(B)

Variable(s) entered on step 1: genere, eta, professione.

a.

(22)

Exp(b)

L’esponenziale di b relativo al genere è dato dal rapporto fra l’odds di

rispondere con un comportamento aggressivo essendo femmina diviso l’odds di rispondere con un

comportamento aggressivo essendo maschi.

Regressione Logistica

(23)

logit (risposta aggressiva)= b₀ + b₁ x₁ + b₂ x₂+ b₃ x₃

logit (risposta aggressiva)=

-0.856 + 1.41  x₁ + (-0.093) + 0 x₃= 0.461

Regressione Logistica Regressione Logistica

Variables in the Equation

1.410 .724 3.800 1 .051 4.098

-.093 .725 .017 1 .898 .911

.000 .034 .000 1 .993 1.000

genere(1) professione(1) eta

Step 1^a

B S.E. Wald df Sig. Exp(B)

(24)

• P (risposta aggressiva)=1 / (1+ e^-0.461) = 0.56

• Odds ratio (genere=1) = 4.098

– Essere maschi incrementa la probabilità di risposta aggressiva di un coefficiente pari a 4.098

– l’odds di risposta aggressiva essendo maschio è 4.098 volte superiore rispetto all’odds della risposta

aggressiva essendo femmina, mantenendo costanti le altre variabili

Regressione Logistica

(25)

• SCOPO: studia la relazione fra più di due variabili qualitative categoriche

• TIPO DI PROCEDURA: modello logistico applicato a una tavola di contingenza multidimensionale

Analisi Log - lineare

(26)

Analisi Log lineare Analisi Log lineare

• I dati sperimentali possono produrre diversi modelli Log Lineari.

• Il modello è definito saturo quando rappresenta tutte le possibili

combinazioni fra le celle;

• non saturato quando solo alcune delle interazioni sono considerate.

(27)

• Nel modello gerarchico l’effetto

interazione (definito termine di ordine superiore in quanto comprende in sé più termini) è accostato a termini di ordine inferiore(singoli fattori).

• Attraverso questo modello è possibile considerare solo gli effetti di ordine superiore o inferiore

Analisi Log lineare

(28)

Analisi Log lineare Analisi Log lineare

Tavola di contingenza multidimensionale:

ogni cella è vista come combinazione di due o più variabili

Esempio

120 46 38

14 7 11

28 64 147

Terapia

farmacologica integrata

Esito negativo

farmacologica Esito

A B C

Tipo di personalità

(29)

Analisi Log lineare Analisi Log lineare

• Applicare più test χ² per analizzare ciascuna combinazione sarebbe una procedura non corretta perché:

• Aumento dell’errore alpha

• Lettura dei risultati non comprensibile

(30)

Analisi Log lineare Analisi Log lineare

• Date le tre variabili da studiare nella loro relazione è possibile analizzare:

• Ogni confronto binario

• L’interazione fra tutte le variabili

(31)

Analisi Log lineare Analisi Log lineare

Modello Log lineare attraverso un’unica procedura di analisi rappresenta tutte le possibili combinazioni in modo

indipendente le une dalle altre.

1. Struttura modello

2. Stima dei parametri e valutazione della bontà del modello

(32)

dove:

• F_ij è la frequenza osservata della cella ij,

• λ_i^X, è l’effetto della i-esima categoria della variabile X,

• λ_j^Yl’effetto della j-esima categoria della variabile Y

• λ_ij^XYl’effetto interazione fra le due.

• μ è la media dei logaritmi calcolati per tutte le celle XY

ij Y

j X

i

F

ij

        ln

Analisi Log lineare Analisi Log lineare

1. Struttura del modello

(33)

Analisi Log lineare Analisi Log lineare

Struttura: logaritmo delle frequenze di ogni combinazione possibile in funzione dei valori delle varie componenti di classificazione

ln F_ijk = μ+λ_iÎ + λ_j^J + λ_k^K + λ_iÎ_j^J + λ_iÎ_k^K + λ_j^J_k^K + λ_iÎ_j^J_k^K Tuttavia…

Scopo del modello è rappresentare adeguatamente i dati

sperimentali con il numero minore di relazioni fra le variabili ln F_ijk = μ+ λ_iÎ + λ_j^J + λ_k^K + λ_iÎ_j^J + λ_iÎ_k^K

(34)

Analisi Log lineare Analisi Log lineare

Tutte le variabili sono considerate come variabili indipendenti o fattori, la

variabile dipendente è il numero di casi in ogni cella, ovvero la frequenza

osservata, che è proprio l’indice

dell’interazione fra le variabili in studio.

(35)

Stima dei parametri:

1. Calcolo del logaritmo delle frequenze osservate

2. Calcolo delle frequenze attese

3. Confronto frequenze attese con le frequenze osservate - residui

Analisi Log lineare

(36)

Analisi Log lineare:

Rappresentazione dei Parametri Rappresentazione dei Parametri

Parametro Esito

1 Costante

2 Esito=0; Terapia=1

5* Esito=1; Terapia=2

6 Esito=0; Tipo=A

7 Esito=0; Tipo=B

8* Esito=0; Tipo=C

9 Esito=1; Tipo=A

10 Esito=1; Tipo=B

Rappresentazione dei parametri secondo il modello Esito x

Terapia + Esito x Tipo (Esito=0 corrisponde a esito negativo; Esito=1 corrisponde a esito

positivo; Terapia=1 è la terapia farmacologica;

Terapia=2 sta per terapia integrata

(37)

3a Una volta calcolate le frequenze attese per ogni cella si calcolano i punti z dei residui (dividendoli per la radice

quadrata delle frequenze attese) 3b Dato il modello vengono quindi

calcolati i parametri che divisi per il loro SE diventano punti z

Analisi Log lineare

(38)

Calcoliamo ad esempio la stima del

parametro 2 relativo alla probabilità di avere un esito negativo avendo

effettuato una terapia farmacologica (terapia =1 esito = 0). Per calcolare

questa probabilità devo togliere dalla media generale gli effetti dovuti ai

fattori terapia, tipo di personalità ed esito.

Analisi Log lineare

(39)

• Per verificare se il modello rappresenta sufficientemente i dati si può

considerare il test sull’ipotesi nulla che λ sia uguale a zero attraverso i limiti di falsificazione della distribuzione z (+- 1.96)

Analisi Log lineare

(40)

Analisi Log lineare Analisi Log lineare

4. Valutazione della bontà del 4. Valutazione della bontà del

modello modello

Il Goodness of fit test è basato sul Χ² e testa la probabilità che quel particolare modello (F_ij) rappresenti bene i dati

sperimentali (F_ij). È calcolato tramite la formula:

 

 ^

 F

ij F Fij

ˆ

²



2

(41)

Analisi Log lineare Analisi Log lineare

Il Likelyhood ratio test: la probabilità che raccolti quei dati sperimentali essi siano generati dal modello ed è dato dal logaritmo del rapporto fra valori