• Non ci sono risultati.

1 Regressione logistica

N/A
N/A
Protected

Academic year: 2021

Condividi "1 Regressione logistica"

Copied!
4
0
0

Testo completo

(1)

1 Regressione logistica

Come in tutti i modelli regressivi, ci sono dei fattori X1; :::; Xpmisurabili, ed un output Y anch’esso misurabile, tutti relativamente ad un insieme di individui.

Tuttavia, nella regressione logistica l’output Y è dicotomico: 0 o 1, mentre i predittori assumono valori reali generici, come nella regressione lineare multipla tradizionale.

Si pensa che, dati i valori dei predittori, l’output Y 2 f0; 1g sia casuale ma con legge univocamente determinata dai predittori. Inoltre, il modo di dipendere dai predittori non è qualsiasi ma avviene solo attraverso una loro combinazione a¢ ne, detta predittore lineare

= a1X1+ ::: + apXp+ b:

Mettiamo a confronto regressione logistica (RLog) e regressione lineare mul- tipla (RLM) tradizionale, per spiegare meglio il modello RLog. Nella RLM, dati i valori x1; :::; xpdei predittori, noti i coe¢ cienti a1; :::; ap; b, l’output è una v.a.

gaussiana Y di media = (media uguale al predittore lineare) e varianza 2, quindi rappresentabile nella forma

Y = a1x1+ ::: + apxp+ b + "

con " N 0; 2 . Invece, nella RLog, dati i valori x1; :::; xpdei predittori, noti i coe¢ cienti a1; :::; ap; b, l’output è una v.a. di Bernoulli Y , di parametro p che dipende da attraverso una certa funzione.

Pensiamo ad un esempio: supponiamo che gli individui siano le nazioni eu- ropee e che, per una certa nazione, sia Y = 1 se la nazione migliora la propria condizione economica (Y = 0 altrimenti) durante l’anno 2011. I predittori potrebbero essere gli investimenti in ricerca, e così via del 2010. Noti i valori dei predittori, la casualità non è certo esaurita, quindi Y resta aleatorio, ma la sua legge è ora determinata, nota. La legge, trattandosi di una Bernoulli, è riassunta nel numero p. Nel modello RLog si suppone che la probabilità p di miglioramento sia nota quando sono noti i predittori. Inoltre si suppone che p dipenda dai predittori solo attraverso la loro combinazione a¢ ne .

Un altro esempio: gli individui sono esemplari di complessi sistemi meccanici o elettronici, Y = 1 se il sistema funziona per un anno, i predittori possono essere valori misurati di caratteristiche meccaniche ecc. di sottoparti, del materiale ecc.

Essendo p una probabilità, non possiamo pensare che la relazione tra p ed sia del tipo p = , cioè

p = a1x1+ ::: + apxp+ b

altrimenti otterremmo per p valori anche esterni a [0; 1]. Si deve adottare un modello del tipo

g (p) = a1x1+ ::: + apxp+ b

dove g è una funzione de…nita in [0; 1] a valori reali, invertibile. In modo che sia p = g 1(a1x1+ ::: + apxp+ b) :

1

(2)

Una scelta molto comune è la funzione detta logit g (p) = log p

1 p :

Per p ! 0 essa tende a 1, mentre per p ! 1 tende a +1; ed è strettamente crescente, oltre che regolare. La sua funzione inversa è

g 1( ) = exp ( ) 1 + exp ( )

[Infatti log 1 pp = , 1 pp = exp ( ), p = (1 p) exp ( ), p (1 + exp ( )) = exp ( ), p = 1+exp( )exp( ) .] In de…nitiva, il modello è

Y B (1; p) con p = exp ( )

1 + exp ( ) dove = a1x1+ ::: + apxp+ b:

Quando i coe¢ cienti a1; :::; ap; b sono divenuti noti, preso un nuovo individuo, calcolati i valori dei suoi predittori x1; :::; xp, si calcola la probabilità p relativa a quell’individuo (probabilità di questo o quell’accadimento, dipende dal prob- lema). Se p è molto elevata, siamo abbastanza sicuri che per quell’individuo sarà Y = 1, mentre se è molto bassa, conteremo che sia Y = 0; nel mezzo ovviamente c’è molta indecisione sul valore di Y di quell’individuo, pur valendo comunque che se p > 1=2 è più probabile Y = 1 e viceversa.

Nella teoria generale dei modelli lineari generalizzati, il numero = a1x1+ ::: + apxp+ b viene detto predittore lineare, la funzione g 1 viene detta link function e la funzione g viene detta mean function. Nella regressione logistica, la link function è la funzione logistica, rappresentata in …gura.

-5 -4 -3 -2 -1 0 1 2 3 4 5

0.2 0.4 0.6 0.8 1.0

x y

Funzione logistica 1+exp( )exp( ) .

Resta il problema di trovare i coe¢ cienti. Si devono avere n individui di cui si conoscano i valori dei predittori Xi e di Y . Si usa il metodo della massima

2

(3)

verosimiglianza. Noti i valori x1; :::; xp dei predittori di un individuo, abbiamo detto che Y è B (1; p), con p = g 1( ), = a1x1 + ::: + apxp + b. Quindi P (Y = 1) = p, P (Y = 0) = 1 p. Se indichiamo uno dei due numeri 0 o 1 con y, si può scrivere in una sola formula

P (Y = y) = py(1 p)1 y:

Supponiamo come abbiamo detto che, per un individuo noto, sia noto anche il valore di Y , che chiamiamo con y. Il numero py(1 p)1 y è la verosimiglianza relativa a quell’individuo. In astratto, la verosimiglianza è funzione di molte grandezze: x1; :::; xp, y, a1; :::; ap; b. Trattandosi di un individuo con x1; :::; xp, y noti, ben precisi, la verosimiglianza è funzione di a1; :::; ap; b. Se poi consid- eriamo gli n individui indipendenti, ed indichiamo con x(i)1 ; :::; x(i)p , y(i) i loro valori noti, vale

P Y(1)= y(1); :::; Y(n)= y(n) = Yn i=1

p(i) y

(i)

1 p(i) 1 y

(i)

dove

p(i)= g 1 (i) ; (i)= a1x(i)1 + ::: + apx(i)p + b:

Questa è la verosimiglianza del campione sperimentale, funzione di a1; :::; ap; b.

Il metodo di massima verosimiglianza consiste nel cercare i valori di a1; :::; ap; b che rendono massima la verosimiglianza, cioè

Yn i=1

p(i) y

(i)

1 p(i) 1 y

(i)

. Tec- nicamente, conviene massimizzare il logaritmo della verosimiglianza (è equiva- lente), cioè

Xn i=1

y(i)log p(i)+ 1 y(i) log 1 p(i) : Il software esegue la massimizzazione con un procedimento iterativo.

1.1 Classi…cazione

Il metodo della regressione logistica serve ad esempio per e¤ettuare una classi…- cazione non perentoria. L’output Y può assumere due valori, che per comodità espositiva chiamiamo A e B. Assume A con probabilità p.

A partire da un set di dati, cioè di individui di cui si conoscano sia i pred- ittori sia la classe, A o B, a cui appartengono, si calcolano i coe¢ cienti del modello. Poi, esaminando nuovi individui che vogliamo classi…care sulla base della sola conoscenza dei predittori, calcoliamo il numero p di un individuo, ed assegnamolo alla classe che ha probabilità maggiore (A se p > 1=2). Eseguita così è una classi…cazione perentoria, ma è corredata dal numero p stesso, che fornisce un’indicazione del grado di sicurezza che abbiamo, nella classi…cazione appena eseguita.

3

(4)

2 Modelli lineari generalizzati

Sono una generalizzazione del modello base, gaussiano, Y = a1X1+ ::: + apXp+ b + "

e di quello bernoulliano (detto modello binomiale, in questo contensto) appena visto

Y B (1; p) con p = exp ( )

1 + exp ( ) dove = a1x1+ ::: + apxp+ b:

In generale, si ipotizza che l’output Y abbia distribuzione di una certa classe, ad esempio appunto gaussiana, Bernoulli, Poisson, ecc., e si ipotizza che un suo parametro fondamentale , di solito la media ( per la gaussiana, p per la Bernoulli, per la Poisson) sia legato ai fattori attraverso una formula del tipo

= g 1( ) dove

= a1x1+ ::: + apxp+ b

è chiamiato predittore lineare. Chiamiamo link function la funzione g. Nella re- gressione logistica si prende come g la funzione logit. Nella regressione tradizionale, g è l’identità.

Il comando di R che esegue la regressione per i modelli lineari generalizzati è glm.

4

Riferimenti

Documenti correlati

Sicuramente quello che le diversifica sono le variabili perchè l’analisi log lineare è in grado di valutare delle variabili categoriche a più di 2 valori, mentre la

Procedura: VALUTAZIONE della Bontà del modello - stima dei parametri b.. a.Diversi metodi

attorno al modello possono essere individuate due fasce di ampiezza

Il metodo della Regressione Lineare (o metodo di stima ai Minimi Quadrati) si occupa di individuare, all’interno di un certo ambito di funzioni, una relazione fra le

Un esempio di funzione matematica in grado di approssimare in modo soddisfacente i valori osservati è riportato nella figura seguente che riporta lo scatter relativo ai

Supponiamo ora di avere una differente incertezza per ciascuna misura sulle y e che non esista incertezza sulla misura dell’osservabile x. La nuova relazione non è altro che

L’algoritmo di regressione lineare da’ sempre come risultato una retta, indipendemente dal fatto che i punti si collochino o meno sulla una retta stessa.. E’ necessario