Regressione Logistica
• Modello a struttura PREDETERMINATA per variabili qualitative dicotomiche
• Tecnica non parametrica
• Utilizzo: permette di prevedere il
comportamento di una variabile dipendente dicotomica (espressa come
presenza/assenza di una caratteristica o
risultato) basandosi sui valori di una serie di variabili predittori (fattori o covariate del
modello).
Regressione Logistica
Regressione Logistica
• Risultato:
– la probabilità dell’evento dati quelle covariate – la probabilità dell’influenza di ciascuna delle
covariate rispetto alla probabilità di una delle caratteristiche della dipendente
Regressione Logistica
Regressione Logistica
1.Procedura: definizione del modello
1. La relazione fra la variabile dipendente e le covariate è spiegata da una funzione logaritmica
logit (variabile)= b0 + b1 x1 + b2 x2 …
Regressione Logistica
Regressione Logistica
Regressione Logistica Regressione Logistica
Trasforma la variabile qualitativa dicotomica (evento, non evento) in una variabile quantitativa utilizzando il
parametro odds
• 1.Variabile 0,1
• 2.Probabilità 0 1
• 3.Odds 0
) (
) (
evento non
p
evento odds p
Per poter utilizzare una equazione nel campo dei numeri reali si esegue una ulteriore trasformazione
logarimica che prende il nome di logit
Odds logit (valore - --- 0 --- +)
) (
) log (
logit
nonevento p
evento
p
Regressione Logistica
Regressione Logistica
Regressione Logistica Regressione Logistica
• Logaritmo: funzione inversa dell’esponente
• Logaritmo naturale (Ln) di x è l’esponente da dare a e (numero naturale e = 2.718) per ottenere x
• Ln 5 = 1.6 perché 2.718
1.6= 5
Regressione Logistica Regressione Logistica
Proprietà dei logaritmi
• Ln 1 = 0
• Ln 0 = -
• Ln + = +
La variabile può essere vista come funzione dei fattori in un modello regressivo
attraverso il quale è possibile assumere la relazione stessa come lineare :
logit (variabile)= b0 + b1 x1 + b2 x2 + b3 x3
0 1 1(var) e
be
b xodds
Regressione Logistica
Regressione Logistica
2. Procedura: VALUTAZIONE della Bontà del modello - stima dei parametri b
a.Diversi metodi di approssimazione
(iteration) basati sul maximum likelihood
– A blocchi: valuta tutti i parametri assieme tramite il criterio di tolleranza (esclude le variabili che apportano poca informazione al modello)
– Per passi o per esclusione: toglie o aggiunge i parametri a seconda dell’apporto di questi alla
significatività del modello
Regressione Logistica
Regressione Logistica
• Il likelihood , utilizzato anche per il
modello Log lineare, è la probabilità che i dati sperimentali siano stati generati dal modello
Regressione Logistica
Regressione Logistica
• Successive approssimazioni:
– si crea il modello con un’approssimazione – si valuta il likelihood
– Si effettua una successiva approssimazione – Si valuta il likelihood
– Se questo crea un cambiamento superiore a una certa soglia si va avanti, altrimenti ci si ferma
Regressione Logistica
Regressione Logistica
b. Valutazione della bontà del modello
Statistica Wald 2
SE Wald b
Regressione Logistica Regressione Logistica
Tuttavia, la statistica Wald non può esser usata da sola poiché quando il valore assoluto di b diventa molto grande, l’errore
standard sarà anche esso grande e la statistica Wald assumerà valori molto piccoli che facilmente falsificheranno l’ipotesi nulla anche quando non sarebbe da falsificare.
c. Valutazione della bontà del modello
• Goodness of fit che valuta la probabilità che il
modello sia adeguato nella rappresentazione dei dati
• Si valuta attraverso la non falsificazione di H0 utilizzando una distribuzione 2 che confronta le frequenze osservate con le frequenze attese create dal modello
Regressione Logistica
Regressione Logistica
d. Valutazione della bontà del modello
• Pseudo R squared
• valuta attraverso il confronto fra il likelihood del modello e il modello
dell’ipotesi nulla (considerando che nessun parametro sia influente)
Regressione Logistica
Regressione Logistica
3. Significatività di b e senso dell’influenza Il contributo di ciascun fattore e il senso
della sua influenza sulla variabile dipendente è stimato attraverso l’esponenziale di b (odds ratio)
b oddsb1 1 oddsb1 eb0 b1 eb0 eb1 eb1Exp
Regressione Logistica
Regressione Logistica
Significatività
La significatività dei parametri relativi ai fattori si può anche verificare
attraverso l’intervallo di confidenza
attorno all’esponenziale di b per ciascun fattore
Regressione Logistica
Regressione Logistica
La regressione logistica fornisce le significatività per:
il modello globale
i singoli parametri, togliendo gli effetti dei parametri già considerati
Regressione Logistica
Regressione Logistica
Esempio
logit (risposta aggressiva)= b0 + b1 x1 + b2 x2+ b3 x3
Dove il logit della probabilità di rispondere in modo aggressivo è visto in funzione di una costante b0 sommata al contributo dato da
ciascun fattore al quale il modello ha attribuito il valore 1 moltiplicato per il suo coefficiente bn
Attraverso la regressione logistica tutte le variabili categoriche vengono trasformate in variabili dicotomiche (con valori 0,1) B1 è il parametro relativo all’essere maschi
B2 è il parametro relativo all’età
Regressione Logistica
Regressione Logistica
Regressione Logistica Regressione Logistica
Categorical Variables Codings
18 1.000
19 .000
16 1.000
21 .000
1.00 2.00 professione
maschio femmina genere
Frequency (1) Paramete
r coding
Regressione Logistica Regressione Logistica
Variables in the Equation
1.410 .724 3.800 1 .051 4.098 .992 16.921
.000 .034 .000 1 .993 1.000 .936 1.068
-.093 .725 .017 1 .898 .911 .220 3.769
-.856 1.121 .582 1 .445 .425
genere(1) eta
professione(1) Constant Step
1a
B S.E. Wald df Sig. Exp(B) Lower Upper
95.0% C.I.for EXP(B)
Variable(s) entered on step 1: genere, eta, professione.
a.
Exp(b)
L’esponenziale di b relativo al genere è dato dal rapporto fra l’odds di
rispondere con un comportamento aggressivo essendo femmina diviso l’odds di rispondere con un
comportamento aggressivo essendo maschi.
Regressione Logistica
Regressione Logistica
logit (risposta aggressiva)= b0 + b1 x1 + b2 x2+ b3 x3
logit (risposta aggressiva)=
-0.856 + 1.41 x1 + (-0.093) + 0 x3= 0.461
Regressione Logistica Regressione Logistica
Variables in the Equation
1.410 .724 3.800 1 .051 4.098
-.093 .725 .017 1 .898 .911
.000 .034 .000 1 .993 1.000
genere(1) professione(1) eta
Step 1a
B S.E. Wald df Sig. Exp(B)
• P (risposta aggressiva)=1 / (1+ e-0.461) = 0.56
• Odds ratio (genere=1) = 4.098
– Essere maschi incrementa la probabilità di risposta aggressiva di un coefficiente pari a 4.098
– l’odds di risposta aggressiva essendo maschio è 4.098 volte superiore rispetto all’odds della risposta
aggressiva essendo femmina, mantenendo costanti le altre variabili
Regressione Logistica
Regressione Logistica
• SCOPO: studia la relazione fra più di due variabili qualitative categoriche
• TIPO DI PROCEDURA: modello logistico applicato a una tavola di contingenza multidimensionale
Analisi Log - lineare
Analisi Log lineare Analisi Log lineare
• I dati sperimentali possono produrre diversi modelli Log Lineari.
• Il modello è definito saturo quando rappresenta tutte le possibili
combinazioni fra le celle;
• non saturato quando solo alcune delle interazioni sono considerate.
• Nel modello gerarchico l’effetto
interazione (definito termine di ordine superiore in quanto comprende in sé più termini) è accostato a termini di ordine inferiore(singoli fattori).
• Attraverso questo modello è possibile considerare solo gli effetti di ordine superiore o inferiore
Analisi Log lineare
Analisi Log lineare
Analisi Log lineare Analisi Log lineare
Tavola di contingenza multidimensionale:
ogni cella è vista come combinazione di due o più variabili
Esempio
120 46 38
14 7 11
28 64 147
Terapia
farmacologica integrata
Esito negativo
farmacologica Esito
A B C
Tipo di personalità
Analisi Log lineare Analisi Log lineare
• Applicare più test χ² per analizzare ciascuna combinazione sarebbe una procedura non corretta perché:
• Aumento dell’errore alpha
• Lettura dei risultati non comprensibile
Analisi Log lineare Analisi Log lineare
• Date le tre variabili da studiare nella loro relazione è possibile analizzare:
• Ogni confronto binario
• L’interazione fra tutte le variabili
Analisi Log lineare Analisi Log lineare
Modello Log lineare attraverso un’unica procedura di analisi rappresenta tutte le possibili combinazioni in modo
indipendente le une dalle altre.
1. Struttura modello
2. Stima dei parametri e valutazione della bontà del modello
dove:
• Fij è la frequenza osservata della cella ij,
• λiX, è l’effetto della i-esima categoria della variabile X,
• λjY l’effetto della j-esima categoria della variabile Y
• λijXY l’effetto interazione fra le due.
• μ è la media dei logaritmi calcolati per tutte le celle XY
ij Y
j X
i
F
ij ln
Analisi Log lineare Analisi Log lineare
1. Struttura del modello
1. Struttura del modello
Analisi Log lineare Analisi Log lineare
Struttura: logaritmo delle frequenze di ogni combinazione possibile in funzione dei valori delle varie componenti di classificazione
ln Fijk = μ+λiI + λjJ + λkK + λiIjJ + λiIkK + λjJkK + λiIjJkK Tuttavia…
Scopo del modello è rappresentare adeguatamente i dati
sperimentali con il numero minore di relazioni fra le variabili ln Fijk = μ+ λiI + λjJ + λkK + λiIjJ + λiIkK
Analisi Log lineare Analisi Log lineare
Tutte le variabili sono considerate come variabili indipendenti o fattori, la
variabile dipendente è il numero di casi in ogni cella, ovvero la frequenza
osservata, che è proprio l’indice
dell’interazione fra le variabili in studio.
Stima dei parametri:
1. Calcolo del logaritmo delle frequenze osservate
2. Calcolo delle frequenze attese
3. Confronto frequenze attese con le frequenze osservate - residui
Analisi Log lineare
Analisi Log lineare
Analisi Log lineare:
Analisi Log lineare:
Rappresentazione dei Parametri Rappresentazione dei Parametri
Parametro Esito
1 Costante
2 Esito=0; Terapia=1
3 Esito=0; Terapia=2
4 Esito=1; Terapia=1
5* Esito=1; Terapia=2
6 Esito=0; Tipo=A
7 Esito=0; Tipo=B
8* Esito=0; Tipo=C
9 Esito=1; Tipo=A
10 Esito=1; Tipo=B
Rappresentazione dei parametri secondo il modello Esito x
Terapia + Esito x Tipo (Esito=0 corrisponde a esito negativo; Esito=1 corrisponde a esito
positivo; Terapia=1 è la terapia farmacologica;
Terapia=2 sta per terapia integrata
3a Una volta calcolate le frequenze attese per ogni cella si calcolano i punti z dei residui (dividendoli per la radice
quadrata delle frequenze attese) 3b Dato il modello vengono quindi
calcolati i parametri che divisi per il loro SE diventano punti z
Analisi Log lineare
Analisi Log lineare
Calcoliamo ad esempio la stima del
parametro 2 relativo alla probabilità di avere un esito negativo avendo
effettuato una terapia farmacologica (terapia =1 esito = 0). Per calcolare
questa probabilità devo togliere dalla media generale gli effetti dovuti ai
fattori terapia, tipo di personalità ed esito.
Analisi Log lineare
Analisi Log lineare
• Per verificare se il modello rappresenta sufficientemente i dati si può
considerare il test sull’ipotesi nulla che λ sia uguale a zero attraverso i limiti di falsificazione della distribuzione z (+- 1.96)
Analisi Log lineare
Analisi Log lineare
Analisi Log lineare Analisi Log lineare
4. Valutazione della bontà del 4. Valutazione della bontà del
modello modello
Il Goodness of fit test è basato sul Χ2 e testa la probabilità che quel particolare modello (Fij ) rappresenti bene i dati
sperimentali (Fij ). È calcolato tramite la formula:
F
ij F Fij
ˆ
ˆ
2
2Analisi Log lineare Analisi Log lineare
Il Likelyhood ratio test: la probabilità che raccolti quei dati sperimentali essi siano generati dal modello ed è dato dal logaritmo del rapporto fra valori
sperimentali e teorici per tutte le possibili condizioni.