• Non ci sono risultati.

L’analisi discriminante lineare è uno dei metodi tuttora ampiamente usati per la classificazione del rischio di default delle imprese. Essa, attraverso una serie di variabili, permette di costruire un’equazione lineare che separa le osservazioni in gruppi prestabiliti il più possibile omogenei. Questa metodologia funziona con più efficacia nei casi in cui i gruppi siano già suddivisi precedentemente all’analisi. Lo scopo dell’utilizzo di questo tipo di strumento è ottenere un modello che consenta di assegnare un caso non preso in considerazione precedentemente al gruppo più appropriato, in funzione di alcune variabili decise anch’esse in precedenza. Il numero di funzioni che si ottengono è (k-1), dove k è il numero di gruppi stabiliti.

In questo lavoro verrà fatto utilizzo della funzione discriminante tramite i minimi quadrati, che ha la stessa metodologia di calcolo della regressione lineare multipla, strumento statistico che permette di ottenere la variabilità minima all’interno di gruppi pre-determinati e variabilità massima tra questi gruppi. Vengono individuate le variabili statistiche più significative ed assegnati a queste dei pesi, che permettano di dare massima efficacia ai requisiti sopra descritti.

39

Nello specifico, dato un insieme di osservazioni, l’analisi discriminante lineare permette di suddividerle in sotto-gruppi, in base a dei criteri definiti dalle variabili prese in considerazione e definendo le soglie ottimali di discriminazione.

L’analisi discriminante viene utilizzata in vari ambiti:

1. Previsione della bancarotta: nella previsione della bancarotta basata su analisi di indicatori finanziari, l’analisi discriminante è stata uno dei primi metodi utilizzati per spiegare in modo sistematico quali imprese sarebbero state l’anno successivo in bancarotta o in buono stato. Il modello di Altman, costruito nel 1968 e poi continuamente aggiornato, che verrà specificato nel paragrafo successivo, è un modello che tuttora è usato nelle applicazioni pratiche.

2. Riconoscimento facciale: nel riconoscimento facciale computerizzato, ogni volto è rappresentato da un certo numero di pixel. L’analisi discriminante è utilizzata per ridurre il numero di pixel rappresentativi dei lineamenti in un numero maggiormente gestibile prima della classificazione. Ognuna delle nuove dimensioni è una combinazione lineare di pixel, che formano un immagine. Le combinazioni lineari ottenuti usando l’analisi di Fisher, sono chiamate “Fisher

faces”.

3. Marketing: nel marketing, l’analisi discriminante è stata spesso usata per determinare i fattori che differenziano diversi tipi di clienti o prodotti, sulla base di interviste o altri tipi di dati. L’analisi nel marketing segue gli step:

 Formulazione del problema e raccolta dei dati. È necessario individuare le caratteristiche principali che i clienti usano per definire i prodotti in una determinata categoria. I dati che vengono raccolti devono essere il più possibile quantitativi, e devono permettere di fornire una specie di ‘rating’ che il cliente dà al prodotto in questione, ad esempio permettendo di dare un voto da 1 a 10 a determinate caratteristiche definite dall’intervistatore. Le caratteristiche incluse possono essere: peso, funzionalità, colore, misura, prezzo, … in base al prodotto in oggetto. Le domande vengono fatte in riferimento a tutti i prodotti

40

previsti nello studio. I dati vengono classificati e immessi in appositi programmi statistici.

 Stima della funzione discriminante e determinazione della relativa significanza e validità. Si può scegliere tra più metodi discriminanti: il metodo diretto permette di stimare la funzione discriminante usando tutti i predittori simultaneamente. Il metodo a step permette di immettere i predittori in maniera sequenziale. Il metodo two-group viene, invece, utilizzato quando la variabile dipendenti ha due possibili stati. Il metodo discriminante multiplo viene utilizzato quando la variabile dipendente ha tre o più categorizzazioni. Per la significanza si può usare un test-F. il metodo più comunemente usato per verificare la validità del modello è di suddividere le osservazioni in un primo gruppo che verrà usato per la stima e le analisi e in un altro che verrà usato per la validazione o la verifica. Il primo viene usato per la costruzione della funzione discriminante. Il secondo è usato per costruire una matrice che mostra la quantità di corrette ed errate classificazioni. La percentuale di casi correttamente classificati è chiamato “hit ratio”.

 Immettere i dati in un grafico, definirne le dimensioni e interpretare i risultati. Il programma statistico utilizzato formerà il grafico. La distanza nella mappa di un prodotto dall’altro indica quanto sono differenti. Questo step richiede un giudizio soggettivo.

L’analisi lineare fu proposta per la prima volta nel 1936 da Fisher32

, essa permetteva di classificare un oggetto in una di più popolazioni note, ciascuna delle quali avente delle determinate caratteristiche, esplicitate da una serie di variabili : l’oggetto veniva: osservato su queste e in base alla maggiore o minore distanza complessiva, attribuito

32

41

alla popolazione più vicina. Fisher ha lavorato sulla combinazione lineare delle variabili osservate e tra tutte quelle individuabili, ha estrapolato quella che rende i due insiemi più lontani tra loro , cioè quella che massimizza il rapporto tra la varianza tra le popolazioni e la varianza nelle popolazioni.

Il valore che ne esce, cioè lo score, determina la classificazione di un oggetto sulla base della distanza tra gli score medi della popolazione.

Analiticamente, la funzione è la seguente:

Zj = A1X1j+A2X2j+…AiXij+…+AnXnj

dove

Zj = score dell’impresa j-esima

Ai = coefficiente della variabile Xi

Xi = variabile descrittiva della caratteristica i-esima dell’impresa ( indica il vettore

colonna di tali variabili)

Dati quindi due campioni (A;B), di numerosità NA e NB, riguardanti le due popolazioni

note a priori, siano:

 XA e XB, le matrici (NA x n) e (NB x n) delle osservazioni sulle n variabili (X);

 ̅ e ̅ i vettori colonna delle medie delle variabili dei due campioni;

 ̅ = ̅ ̅ il vettore colonna delle medie complessive, in cui N = NA +

NB Indica la numerosità totale dei campioni;

 V = matrice n x n delle varianze e covarianze complessive, cioè calcolate sull’unione dei due campioni, rispetto alle medie ̅.

La regola di classificazione lineare vale quindi:

l’impresa j-esima è attribuita alla popolazione A se

|( ̅ ̅ ) ( ̅ )| |( ̅ ̅ ) ( ̅ )|

42

Si osservi che ( ̅ ̅ ) rappresenta il vettore dei coefficienti della funzione

lineare con cui pesare le variabili X per ottenere il punteggio che sintetizza il profilo delle imprese.

Pertanto lo score dell’impresa j-esima è dato da: ( ̅ ̅ )

mentre la media degli score della popolazione A, ovvero lo score corrispondente al centroide di A ( ̅ ) è dato da

( ̅ ̅ )

e analogamente è definito .

La regola di classificazione lineare può quindi essere espressa in termini di distanze tra gli score:

L’impresa j-esima è assegnata alla popolazione A se: | | | | ovvero

( ), per Altrimenti è assegnata alla popolazione B.

43

Figura 2: Sintesi grafica dell’analisi discriminante lineare33

Documenti correlati