1 Regressione logistica

(1)

1 Regressione logistica

Come in tutti i modelli regressivi, ci sono dei fattori X₁; :::; X_pmisurabili, ed un output Y anch’esso misurabile, tutti relativamente ad un insieme di individui.

Tuttavia, nella regressione logistica l’output Y è dicotomico: 0 o 1, mentre i predittori assumono valori reali generici, come nella regressione lineare multipla tradizionale.

Si pensa che, dati i valori dei predittori, l’output Y 2 f0; 1g sia casuale ma con legge univocamente determinata dai predittori. Inoltre, il modo di dipendere dai predittori non è qualsiasi ma avviene solo attraverso una loro combinazione a¢ ne, detta predittore lineare

= a1X1+ ::: + apXp+ b:

Mettiamo a confronto regressione logistica (RLog) e regressione lineare multipla (RLM) tradizionale, per spiegare meglio il modello RLog. Nella RLM, dati i valori x1; :::; xpdei predittori, noti i coe¢ cienti a1; :::; ap; b, l’output è una v.a.

gaussiana Y di media = (media uguale al predittore lineare) e varianza ², quindi rappresentabile nella forma

Y = a1x1+ ::: + apxp+ b + "

con " N 0; ² . Invece, nella RLog, dati i valori x₁; :::; x_pdei predittori, noti i coe¢ cienti a1; :::; ap; b, l’output è una v.a. di Bernoulli Y , di parametro p che dipende da attraverso una certa funzione.

Pensiamo ad un esempio: supponiamo che gli individui siano le nazioni eu- ropee e che, per una certa nazione, sia Y = 1 se la nazione migliora la propria condizione economica (Y = 0 altrimenti) durante l’anno 2011. I predittori potrebbero essere gli investimenti in ricerca, e così via del 2010. Noti i valori dei predittori, la casualità non è certo esaurita, quindi Y resta aleatorio, ma la sua legge è ora determinata, nota. La legge, trattandosi di una Bernoulli, è riassunta nel numero p. Nel modello RLog si suppone che la probabilità p di miglioramento sia nota quando sono noti i predittori. Inoltre si suppone che p dipenda dai predittori solo attraverso la loro combinazione a¢ ne .

Un altro esempio: gli individui sono esemplari di complessi sistemi meccanici o elettronici, Y = 1 se il sistema funziona per un anno, i predittori possono essere valori misurati di caratteristiche meccaniche ecc. di sottoparti, del materiale ecc.

Essendo p una probabilità, non possiamo pensare che la relazione tra p ed sia del tipo p = , cioè

p = a₁x₁+ ::: + a_px_p+ b

altrimenti otterremmo per p valori anche esterni a [0; 1]. Si deve adottare un modello del tipo

g (p) = a₁x₁+ ::: + a_px_p+ b

dove g è una funzione de…nita in [0; 1] a valori reali, invertibile. In modo che sia p = g ¹(a1x1+ ::: + apxp+ b) :

1

(2)

Una scelta molto comune è la funzione detta logit g (p) = log p

1 p :

Per p ! 0 essa tende a 1, mentre per p ! 1 tende a +1; ed è strettamente crescente, oltre che regolare. La sua funzione inversa è

g ¹( ) = exp ( ) 1 + exp ( )

[Infatti log _{1 p}^p = , _{1 p}^p = exp ( ), p = (1 p) exp ( ), p (1 + exp ( )) = exp ( ), p = _{1+exp( )}^{exp( )} .] In de…nitiva, il modello è

Y B (1; p) con p = exp ( )

1 + exp ( ) dove = a₁x₁+ ::: + a_px_p+ b:

Quando i coe¢ cienti a₁; :::; a_p; b sono divenuti noti, preso un nuovo individuo, calcolati i valori dei suoi predittori x₁; :::; x_p, si calcola la probabilità p relativa a quell’individuo (probabilità di questo o quell’accadimento, dipende dal problema). Se p è molto elevata, siamo abbastanza sicuri che per quell’individuo sarà Y = 1, mentre se è molto bassa, conteremo che sia Y = 0; nel mezzo ovviamente c’è molta indecisione sul valore di Y di quell’individuo, pur valendo comunque che se p > 1=2 è più probabile Y = 1 e viceversa.

Nella teoria generale dei modelli lineari generalizzati, il numero = a1x1+ ::: + apxp+ b viene detto predittore lineare, la funzione g ¹ viene detta link function e la funzione g viene detta mean function. Nella regressione logistica, la link function è la funzione logistica, rappresentata in …gura.

-5 -4 -3 -2 -1 0 1 2 3 4 5

0.2 0.4 0.6 0.8 1.0

x y

Funzione logistica _{1+exp( )}^{exp( )} .

Resta il problema di trovare i coe¢ cienti. Si devono avere n individui di cui si conoscano i valori dei predittori Xi e di Y . Si usa il metodo della massima

2

(3)

verosimiglianza. Noti i valori x1; :::; xp dei predittori di un individuo, abbiamo detto che Y è B (1; p), con p = g ¹( ), = a1x1 + ::: + apxp + b. Quindi P (Y = 1) = p, P (Y = 0) = 1 p. Se indichiamo uno dei due numeri 0 o 1 con y, si può scrivere in una sola formula

P (Y = y) = p^y(1 p)^{1 y}:

Supponiamo come abbiamo detto che, per un individuo noto, sia noto anche il valore di Y , che chiamiamo con y. Il numero p^y(1 p)^{1 y} è la verosimiglianza relativa a quell’individuo. In astratto, la verosimiglianza è funzione di molte grandezze: x1; :::; xp, y, a1; :::; ap; b. Trattandosi di un individuo con x1; :::; xp, y noti, ben precisi, la verosimiglianza è funzione di a1; :::; ap; b. Se poi consid- eriamo gli n individui indipendenti, ed indichiamo con x⁽ⁱ⁾₁ ; :::; x⁽ⁱ⁾p , y⁽ⁱ⁾ i loro valori noti, vale

P Y⁽¹⁾= y⁽¹⁾; :::; Y⁽ⁿ⁾= y⁽ⁿ⁾ = Yn i=1

p⁽ⁱ⁾ ^y

(i)

1 p⁽ⁱ⁾ ^{1 y}

(i)

dove

p⁽ⁱ⁾= g ¹ ⁽ⁱ⁾ ; ⁽ⁱ⁾= a₁x⁽ⁱ⁾₁ + ::: + a_px⁽ⁱ⁾_p + b:

Questa è la verosimiglianza del campione sperimentale, funzione di a1; :::; ap; b.

Il metodo di massima verosimiglianza consiste nel cercare i valori di a1; :::; ap; b che rendono massima la verosimiglianza, cioè

Yn i=1

p^{(i) y}

(i)

1 p^{(i) 1 y}

(i)

. Tec- nicamente, conviene massimizzare il logaritmo della verosimiglianza (è equiva- lente), cioè

Xn i=1

y⁽ⁱ⁾log p⁽ⁱ⁾+ 1 y⁽ⁱ⁾ log 1 p⁽ⁱ⁾ : Il software esegue la massimizzazione con un procedimento iterativo.

1.1 Classi…cazione

Il metodo della regressione logistica serve ad esempio per e¤ettuare una classi…- cazione non perentoria. L’output Y può assumere due valori, che per comodità espositiva chiamiamo A e B. Assume A con probabilità p.

A partire da un set di dati, cioè di individui di cui si conoscano sia i predittori sia la classe, A o B, a cui appartengono, si calcolano i coe¢ cienti del modello. Poi, esaminando nuovi individui che vogliamo classi…care sulla base della sola conoscenza dei predittori, calcoliamo il numero p di un individuo, ed assegnamolo alla classe che ha probabilità maggiore (A se p > 1=2). Eseguita così è una classi…cazione perentoria, ma è corredata dal numero p stesso, che fornisce un’indicazione del grado di sicurezza che abbiamo, nella classi…cazione appena eseguita.

3

(4)

2 Modelli lineari generalizzati

Sono una generalizzazione del modello base, gaussiano, Y = a₁X₁+ ::: + a_pX_p+ b + "

e di quello bernoulliano (detto modello binomiale, in questo contensto) appena visto

Y B (1; p) con p = exp ( )

1 + exp ( ) dove = a1x1+ ::: + apxp+ b:

In generale, si ipotizza che l’output Y abbia distribuzione di una certa classe, ad esempio appunto gaussiana, Bernoulli, Poisson, ecc., e si ipotizza che un suo parametro fondamentale , di solito la media ( per la gaussiana, p per la Bernoulli, per la Poisson) sia legato ai fattori attraverso una formula del tipo

= g ¹( ) dove

= a1x1+ ::: + apxp+ b

è chiamiato predittore lineare. Chiamiamo link function la funzione g. Nella regressione logistica si prende come g la funzione logit. Nella regressione tradizionale, g è l’identità.

Il comando di R che esegue la regressione per i modelli lineari generalizzati è glm.

4