1 Regressione logistica
Come in tutti i modelli regressivi, ci sono dei fattori X1; :::; Xpmisurabili, ed un output Y anch’esso misurabile, tutti relativamente ad un insieme di individui.
Tuttavia, nella regressione logistica l’output Y è dicotomico: 0 o 1, mentre i predittori assumono valori reali generici, come nella regressione lineare multipla tradizionale.
Si pensa che, dati i valori dei predittori, l’output Y 2 f0; 1g sia casuale ma con legge univocamente determinata dai predittori. Inoltre, il modo di dipendere dai predittori non è qualsiasi ma avviene solo attraverso una loro combinazione a¢ ne, detta predittore lineare
= a1X1+ ::: + apXp+ b:
Mettiamo a confronto regressione logistica (RLog) e regressione lineare mul- tipla (RLM) tradizionale, per spiegare meglio il modello RLog. Nella RLM, dati i valori x1; :::; xpdei predittori, noti i coe¢ cienti a1; :::; ap; b, l’output è una v.a.
gaussiana Y di media = (media uguale al predittore lineare) e varianza 2, quindi rappresentabile nella forma
Y = a1x1+ ::: + apxp+ b + "
con " N 0; 2 . Invece, nella RLog, dati i valori x1; :::; xpdei predittori, noti i coe¢ cienti a1; :::; ap; b, l’output è una v.a. di Bernoulli Y , di parametro p che dipende da attraverso una certa funzione.
Pensiamo ad un esempio: supponiamo che gli individui siano le nazioni eu- ropee e che, per una certa nazione, sia Y = 1 se la nazione migliora la propria condizione economica (Y = 0 altrimenti) durante l’anno 2011. I predittori potrebbero essere gli investimenti in ricerca, e così via del 2010. Noti i valori dei predittori, la casualità non è certo esaurita, quindi Y resta aleatorio, ma la sua legge è ora determinata, nota. La legge, trattandosi di una Bernoulli, è riassunta nel numero p. Nel modello RLog si suppone che la probabilità p di miglioramento sia nota quando sono noti i predittori. Inoltre si suppone che p dipenda dai predittori solo attraverso la loro combinazione a¢ ne .
Un altro esempio: gli individui sono esemplari di complessi sistemi meccanici o elettronici, Y = 1 se il sistema funziona per un anno, i predittori possono essere valori misurati di caratteristiche meccaniche ecc. di sottoparti, del materiale ecc.
Essendo p una probabilità, non possiamo pensare che la relazione tra p ed sia del tipo p = , cioè
p = a1x1+ ::: + apxp+ b
altrimenti otterremmo per p valori anche esterni a [0; 1]. Si deve adottare un modello del tipo
g (p) = a1x1+ ::: + apxp+ b
dove g è una funzione de…nita in [0; 1] a valori reali, invertibile. In modo che sia p = g 1(a1x1+ ::: + apxp+ b) :
1
Una scelta molto comune è la funzione detta logit g (p) = log p
1 p :
Per p ! 0 essa tende a 1, mentre per p ! 1 tende a +1; ed è strettamente crescente, oltre che regolare. La sua funzione inversa è
g 1( ) = exp ( ) 1 + exp ( )
[Infatti log 1 pp = , 1 pp = exp ( ), p = (1 p) exp ( ), p (1 + exp ( )) = exp ( ), p = 1+exp( )exp( ) .] In de…nitiva, il modello è
Y B (1; p) con p = exp ( )
1 + exp ( ) dove = a1x1+ ::: + apxp+ b:
Quando i coe¢ cienti a1; :::; ap; b sono divenuti noti, preso un nuovo individuo, calcolati i valori dei suoi predittori x1; :::; xp, si calcola la probabilità p relativa a quell’individuo (probabilità di questo o quell’accadimento, dipende dal prob- lema). Se p è molto elevata, siamo abbastanza sicuri che per quell’individuo sarà Y = 1, mentre se è molto bassa, conteremo che sia Y = 0; nel mezzo ovviamente c’è molta indecisione sul valore di Y di quell’individuo, pur valendo comunque che se p > 1=2 è più probabile Y = 1 e viceversa.
Nella teoria generale dei modelli lineari generalizzati, il numero = a1x1+ ::: + apxp+ b viene detto predittore lineare, la funzione g 1 viene detta link function e la funzione g viene detta mean function. Nella regressione logistica, la link function è la funzione logistica, rappresentata in …gura.
-5 -4 -3 -2 -1 0 1 2 3 4 5
0.2 0.4 0.6 0.8 1.0
x y
Funzione logistica 1+exp( )exp( ) .
Resta il problema di trovare i coe¢ cienti. Si devono avere n individui di cui si conoscano i valori dei predittori Xi e di Y . Si usa il metodo della massima
2
verosimiglianza. Noti i valori x1; :::; xp dei predittori di un individuo, abbiamo detto che Y è B (1; p), con p = g 1( ), = a1x1 + ::: + apxp + b. Quindi P (Y = 1) = p, P (Y = 0) = 1 p. Se indichiamo uno dei due numeri 0 o 1 con y, si può scrivere in una sola formula
P (Y = y) = py(1 p)1 y:
Supponiamo come abbiamo detto che, per un individuo noto, sia noto anche il valore di Y , che chiamiamo con y. Il numero py(1 p)1 y è la verosimiglianza relativa a quell’individuo. In astratto, la verosimiglianza è funzione di molte grandezze: x1; :::; xp, y, a1; :::; ap; b. Trattandosi di un individuo con x1; :::; xp, y noti, ben precisi, la verosimiglianza è funzione di a1; :::; ap; b. Se poi consid- eriamo gli n individui indipendenti, ed indichiamo con x(i)1 ; :::; x(i)p , y(i) i loro valori noti, vale
P Y(1)= y(1); :::; Y(n)= y(n) = Yn i=1
p(i) y
(i)
1 p(i) 1 y
(i)
dove
p(i)= g 1 (i) ; (i)= a1x(i)1 + ::: + apx(i)p + b:
Questa è la verosimiglianza del campione sperimentale, funzione di a1; :::; ap; b.
Il metodo di massima verosimiglianza consiste nel cercare i valori di a1; :::; ap; b che rendono massima la verosimiglianza, cioè
Yn i=1
p(i) y
(i)
1 p(i) 1 y
(i)
. Tec- nicamente, conviene massimizzare il logaritmo della verosimiglianza (è equiva- lente), cioè
Xn i=1
y(i)log p(i)+ 1 y(i) log 1 p(i) : Il software esegue la massimizzazione con un procedimento iterativo.
1.1 Classi…cazione
Il metodo della regressione logistica serve ad esempio per e¤ettuare una classi…- cazione non perentoria. L’output Y può assumere due valori, che per comodità espositiva chiamiamo A e B. Assume A con probabilità p.
A partire da un set di dati, cioè di individui di cui si conoscano sia i pred- ittori sia la classe, A o B, a cui appartengono, si calcolano i coe¢ cienti del modello. Poi, esaminando nuovi individui che vogliamo classi…care sulla base della sola conoscenza dei predittori, calcoliamo il numero p di un individuo, ed assegnamolo alla classe che ha probabilità maggiore (A se p > 1=2). Eseguita così è una classi…cazione perentoria, ma è corredata dal numero p stesso, che fornisce un’indicazione del grado di sicurezza che abbiamo, nella classi…cazione appena eseguita.
3
2 Modelli lineari generalizzati
Sono una generalizzazione del modello base, gaussiano, Y = a1X1+ ::: + apXp+ b + "
e di quello bernoulliano (detto modello binomiale, in questo contensto) appena visto
Y B (1; p) con p = exp ( )
1 + exp ( ) dove = a1x1+ ::: + apxp+ b:
In generale, si ipotizza che l’output Y abbia distribuzione di una certa classe, ad esempio appunto gaussiana, Bernoulli, Poisson, ecc., e si ipotizza che un suo parametro fondamentale , di solito la media ( per la gaussiana, p per la Bernoulli, per la Poisson) sia legato ai fattori attraverso una formula del tipo
= g 1( ) dove
= a1x1+ ::: + apxp+ b
è chiamiato predittore lineare. Chiamiamo link function la funzione g. Nella re- gressione logistica si prende come g la funzione logit. Nella regressione tradizionale, g è l’identità.
Il comando di R che esegue la regressione per i modelli lineari generalizzati è glm.
4