• Non ci sono risultati.

Regressione Logistica

N/A
N/A
Protected

Academic year: 2021

Condividi "Regressione Logistica"

Copied!
41
0
0

Testo completo

(1)

Regressione Logistica

• Modello a struttura PREDETERMINATA per variabili qualitative dicotomiche

• Tecnica non parametrica

(2)

• Utilizzo: permette di prevedere il

comportamento di una variabile dipendente dicotomica (espressa come

presenza/assenza di una caratteristica o

risultato) basandosi sui valori di una serie di variabili predittori (fattori o covariate del

modello).

Regressione Logistica

Regressione Logistica

(3)

• Risultato:

– la probabilità dell’evento dati quelle covariate – la probabilità dell’influenza di ciascuna delle

covariate rispetto alla probabilità di una delle caratteristiche della dipendente

Regressione Logistica

Regressione Logistica

(4)

1.Procedura: definizione del modello

1. La relazione fra la variabile dipendente e le covariate è spiegata da una funzione logaritmica

logit (variabile)= b0 + b1  x1 + b2  x2

Regressione Logistica

Regressione Logistica

(5)

Regressione Logistica Regressione Logistica

Trasforma la variabile qualitativa dicotomica (evento, non evento) in una variabile quantitativa utilizzando il

parametro odds

• 1.Variabile 0,1

• 2.Probabilità 0 1

• 3.Odds 0 

) (

) (

evento non

p

evento odds p

(6)

Per poter utilizzare una equazione nel campo dei numeri reali si esegue una ulteriore trasformazione

logarimica che prende il nome di logit

Odds logit (valore - --- 0 --- +)

) (

) log (

logit

nonevento p

evento

p

Regressione Logistica

Regressione Logistica

(7)

Regressione Logistica Regressione Logistica

• Logaritmo: funzione inversa dell’esponente

• Logaritmo naturale (Ln) di x è l’esponente da dare a e (numero naturale e = 2.718) per ottenere x

• Ln 5 = 1.6 perché 2.718

1.6

= 5

(8)

Regressione Logistica Regressione Logistica

Proprietà dei logaritmi

• Ln 1 = 0

• Ln 0 = - 

• Ln +  = + 

(9)

La variabile può essere vista come funzione dei fattori in un modello regressivo

attraverso il quale è possibile assumere la relazione stessa come lineare :

logit (variabile)= b0 + b1  x1 + b2  x2 + b3  x3



0 1 1

(var) e

b

e

b x

odds

Regressione Logistica

Regressione Logistica

(10)

2. Procedura: VALUTAZIONE della Bontà del modello - stima dei parametri b

a.Diversi metodi di approssimazione

(iteration) basati sul maximum likelihood

– A blocchi: valuta tutti i parametri assieme tramite il criterio di tolleranza (esclude le variabili che apportano poca informazione al modello)

– Per passi o per esclusione: toglie o aggiunge i parametri a seconda dell’apporto di questi alla

significatività del modello

Regressione Logistica

Regressione Logistica

(11)

• Il likelihood , utilizzato anche per il

modello Log lineare, è la probabilità che i dati sperimentali siano stati generati dal modello

Regressione Logistica

Regressione Logistica

(12)

• Successive approssimazioni:

– si crea il modello con un’approssimazione – si valuta il likelihood

– Si effettua una successiva approssimazione – Si valuta il likelihood

– Se questo crea un cambiamento superiore a una certa soglia si va avanti, altrimenti ci si ferma

Regressione Logistica

Regressione Logistica

(13)

b. Valutazione della bontà del modello

Statistica Wald 2

SE Wald b

Regressione Logistica Regressione Logistica

Tuttavia, la statistica Wald non può esser usata da sola poiché quando il valore assoluto di b diventa molto grande, l’errore

standard sarà anche esso grande e la statistica Wald assumerà valori molto piccoli che facilmente falsificheranno l’ipotesi nulla anche quando non sarebbe da falsificare.

(14)

c. Valutazione della bontà del modello

• Goodness of fit che valuta la probabilità che il

modello sia adeguato nella rappresentazione dei dati

• Si valuta attraverso la non falsificazione di H0 utilizzando una distribuzione 2 che confronta le frequenze osservate con le frequenze attese create dal modello

Regressione Logistica

Regressione Logistica

(15)

d. Valutazione della bontà del modello

• Pseudo R squared

• valuta attraverso il confronto fra il likelihood del modello e il modello

dell’ipotesi nulla (considerando che nessun parametro sia influente)

Regressione Logistica

Regressione Logistica

(16)

3. Significatività di b e senso dell’influenza Il contributo di ciascun fattore e il senso

della sua influenza sulla variabile dipendente è stimato attraverso l’esponenziale di b (odds ratio)

 

b oddsb1 1 oddsb1 eb0 b1 eb0 eb1 eb1

Exp

Regressione Logistica

Regressione Logistica

(17)

Significatività

La significatività dei parametri relativi ai fattori si può anche verificare

attraverso l’intervallo di confidenza

attorno all’esponenziale di b per ciascun fattore

Regressione Logistica

Regressione Logistica

(18)

La regressione logistica fornisce le significatività per:

 il modello globale

 i singoli parametri, togliendo gli effetti dei parametri già considerati

Regressione Logistica

Regressione Logistica

(19)

Esempio

logit (risposta aggressiva)= b0 + b1  x1 + b2  x2+ b3  x3

Dove il logit della probabilità di rispondere in modo aggressivo è visto in funzione di una costante b0 sommata al contributo dato da

ciascun fattore al quale il modello ha attribuito il valore 1 moltiplicato per il suo coefficiente bn

Attraverso la regressione logistica tutte le variabili categoriche vengono trasformate in variabili dicotomiche (con valori 0,1) B1 è il parametro relativo all’essere maschi

B2 è il parametro relativo all’età

Regressione Logistica

Regressione Logistica

(20)

Regressione Logistica Regressione Logistica

Categorical Variables Codings

18 1.000

19 .000

16 1.000

21 .000

1.00 2.00 professione

maschio femmina genere

Frequency (1) Paramete

r coding

(21)

Regressione Logistica Regressione Logistica

Variables in the Equation

1.410 .724 3.800 1 .051 4.098 .992 16.921

.000 .034 .000 1 .993 1.000 .936 1.068

-.093 .725 .017 1 .898 .911 .220 3.769

-.856 1.121 .582 1 .445 .425

genere(1) eta

professione(1) Constant Step

1a

B S.E. Wald df Sig. Exp(B) Lower Upper

95.0% C.I.for EXP(B)

Variable(s) entered on step 1: genere, eta, professione.

a.

(22)

Exp(b)

L’esponenziale di b relativo al genere è dato dal rapporto fra l’odds di

rispondere con un comportamento aggressivo essendo femmina diviso l’odds di rispondere con un

comportamento aggressivo essendo maschi.

Regressione Logistica

Regressione Logistica

(23)

logit (risposta aggressiva)= b0 + b1  x1 + b2  x2+ b3 x3

logit (risposta aggressiva)=

-0.856 + 1.41  x1 + (-0.093) + 0 x3= 0.461

Regressione Logistica Regressione Logistica

Variables in the Equation

1.410 .724 3.800 1 .051 4.098

-.093 .725 .017 1 .898 .911

.000 .034 .000 1 .993 1.000

genere(1) professione(1) eta

Step 1a

B S.E. Wald df Sig. Exp(B)

(24)

• P (risposta aggressiva)=1 / (1+ e-0.461) = 0.56

• Odds ratio (genere=1) = 4.098

– Essere maschi incrementa la probabilità di risposta aggressiva di un coefficiente pari a 4.098

– l’odds di risposta aggressiva essendo maschio è 4.098 volte superiore rispetto all’odds della risposta

aggressiva essendo femmina, mantenendo costanti le altre variabili

Regressione Logistica

Regressione Logistica

(25)

• SCOPO: studia la relazione fra più di due variabili qualitative categoriche

• TIPO DI PROCEDURA: modello logistico applicato a una tavola di contingenza multidimensionale

Analisi Log - lineare

(26)

Analisi Log lineare Analisi Log lineare

• I dati sperimentali possono produrre diversi modelli Log Lineari.

• Il modello è definito saturo quando rappresenta tutte le possibili

combinazioni fra le celle;

• non saturato quando solo alcune delle interazioni sono considerate.

(27)

• Nel modello gerarchico l’effetto

interazione (definito termine di ordine superiore in quanto comprende in sé più termini) è accostato a termini di ordine inferiore(singoli fattori).

• Attraverso questo modello è possibile considerare solo gli effetti di ordine superiore o inferiore

Analisi Log lineare

Analisi Log lineare

(28)

Analisi Log lineare Analisi Log lineare

Tavola di contingenza multidimensionale:

ogni cella è vista come combinazione di due o più variabili

Esempio

120 46 38

14 7 11

28 64 147

Terapia

farmacologica integrata

Esito negativo

farmacologica Esito

A B C

Tipo di personalità

(29)

Analisi Log lineare Analisi Log lineare

• Applicare più test χ² per analizzare ciascuna combinazione sarebbe una procedura non corretta perché:

• Aumento dell’errore alpha

• Lettura dei risultati non comprensibile

(30)

Analisi Log lineare Analisi Log lineare

• Date le tre variabili da studiare nella loro relazione è possibile analizzare:

• Ogni confronto binario

• L’interazione fra tutte le variabili

(31)

Analisi Log lineare Analisi Log lineare

Modello Log lineare attraverso un’unica procedura di analisi rappresenta tutte le possibili combinazioni in modo

indipendente le une dalle altre.

1. Struttura modello

2. Stima dei parametri e valutazione della bontà del modello

(32)

dove:

• Fij è la frequenza osservata della cella ij,

• λiX, è l’effetto della i-esima categoria della variabile X,

• λjY l’effetto della j-esima categoria della variabile Y

• λijXY l’effetto interazione fra le due.

• μ è la media dei logaritmi calcolati per tutte le celle XY

ij Y

j X

i

F

ij

        ln

Analisi Log lineare Analisi Log lineare

1. Struttura del modello

1. Struttura del modello

(33)

Analisi Log lineare Analisi Log lineare

Struttura: logaritmo delle frequenze di ogni combinazione possibile in funzione dei valori delle varie componenti di classificazione

ln Fijk = μ+λiI + λjJ + λkK + λiIjJ + λiIkK + λjJkK + λiIjJkK Tuttavia…

Scopo del modello è rappresentare adeguatamente i dati

sperimentali con il numero minore di relazioni fra le variabili ln Fijk = μ+ λiI + λjJ + λkK + λiIjJ + λiIkK

(34)

Analisi Log lineare Analisi Log lineare

Tutte le variabili sono considerate come variabili indipendenti o fattori, la

variabile dipendente è il numero di casi in ogni cella, ovvero la frequenza

osservata, che è proprio l’indice

dell’interazione fra le variabili in studio.

(35)

Stima dei parametri:

1. Calcolo del logaritmo delle frequenze osservate

2. Calcolo delle frequenze attese

3. Confronto frequenze attese con le frequenze osservate - residui

Analisi Log lineare

Analisi Log lineare

(36)

Analisi Log lineare:

Analisi Log lineare:

Rappresentazione dei Parametri Rappresentazione dei Parametri

Parametro Esito

1 Costante

2 Esito=0; Terapia=1

3 Esito=0; Terapia=2

4 Esito=1; Terapia=1

5* Esito=1; Terapia=2

6 Esito=0; Tipo=A

7 Esito=0; Tipo=B

8* Esito=0; Tipo=C

9 Esito=1; Tipo=A

10 Esito=1; Tipo=B

Rappresentazione dei parametri secondo il modello Esito x

Terapia + Esito x Tipo (Esito=0 corrisponde a esito negativo; Esito=1 corrisponde a esito

positivo; Terapia=1 è la terapia farmacologica;

Terapia=2 sta per terapia integrata

(37)

3a Una volta calcolate le frequenze attese per ogni cella si calcolano i punti z dei residui (dividendoli per la radice

quadrata delle frequenze attese) 3b Dato il modello vengono quindi

calcolati i parametri che divisi per il loro SE diventano punti z

Analisi Log lineare

Analisi Log lineare

(38)

Calcoliamo ad esempio la stima del

parametro 2 relativo alla probabilità di avere un esito negativo avendo

effettuato una terapia farmacologica (terapia =1 esito = 0). Per calcolare

questa probabilità devo togliere dalla media generale gli effetti dovuti ai

fattori terapia, tipo di personalità ed esito.

Analisi Log lineare

Analisi Log lineare

(39)

• Per verificare se il modello rappresenta sufficientemente i dati si può

considerare il test sull’ipotesi nulla che λ sia uguale a zero attraverso i limiti di falsificazione della distribuzione z (+- 1.96)

Analisi Log lineare

Analisi Log lineare

(40)

Analisi Log lineare Analisi Log lineare

4. Valutazione della bontà del 4. Valutazione della bontà del

modello modello

Il Goodness of fit test è basato sul Χ2 e testa la probabilità che quel particolare modello (Fij ) rappresenti bene i dati

sperimentali (Fij ). È calcolato tramite la formula:

 



F

ij F Fij

ˆ

ˆ

2

2

(41)

Analisi Log lineare Analisi Log lineare

Il Likelyhood ratio test: la probabilità che raccolti quei dati sperimentali essi siano generati dal modello ed è dato dal logaritmo del rapporto fra valori

sperimentali e teorici per tutte le possibili condizioni.



ij

F F F

L

2

2 ln ˆ

Riferimenti

Documenti correlati

1) La assenza o la presenza degli effetti specifici temporali , che permettono la dicotomizzazione tra modelli di regressione one-way error component (i primi) e two-way

Le osservazioni fin gui esposte giustificano, a mio parere, l'opinione di chi ritiene fallito il tentativo compiuto da Ross di concepire il diritto soggettivo

pericolosità di reazione dal ∆H e dalla Tonset. ∆H → indice dell’energia potenziale liberata dalla reazione.. Tonset → indice della

A large number of reconstruction algorithms exist to date to estimate the subsurface elastic properties, but very few of them use only the information collected at the

Abbiamo visto nei capitoli precedenti come stimare i parametri di un modello state-space. Tali modelli sono spesso la versione discreta di un’equazione alle derivate parziali.

Abbiamo gi` a osservato che quando si fa della proba- bilit` a si suppone che le distribuzioni siano completa- mente note, mentre in statistica si fa dell’inferenza su

Infine, in generale esistono anche altri fattori che controllano l’origine e la distribuzione spaziale dei sinkholes, come l’uso del suolo, la quota e la pendenza dei terreni (G ALVE

Tuttavia, nella regressione logistica l’output Y è dicotomico: 0 o 1, mentre i predittori assumono valori reali generici, come nella regressione lineare multipla tradizionale.. Si