Analisi Statitica per le Imprese 5.5 Analisi Fattoriale

(1)

Analisi Statitica per le Imprese

5.5 Analisi Fattoriale

Prof. L. Neri

Dip. di Economia Politica e Statistica

(2)

Premessa

Come evidenziato in precedenza l’approccio di segmentazione per omogeneità prevede la classificazione delle unità statistiche effettuata sulla base del grado di dissomiglianza rispetto ad un insieme di variabili (comportamenti, bisogni, benefici di caratteristiche di prodotti, attitudini dei consumatori, lo stile di vita, ecc.. ).

Per giungere a tale classificazione si può ricorrere all’uso congiunto di due tecniche di statistica multivariata: l’analisi fattoriale e l’analisi dei gruppi.

 Con l’analisi fattoriale si determinano i ‘pilastri della segmentazione’ ovvero le macro- caratteristiche intorno alle quali costruire la segmentazione stessa

 Con l’analisi dei gruppi vengono

effettivamente raggruppate le unità statistiche

(3)

Cosa è l’analisi fattoriale?

E’ una tecnica statistica multivariata utilizzata per ridurre e sintetizzare i dati.

Come opera?

Da un numero consistente di variabili tra loro correlate (a diversi livelli)

↓

ad un insieme più ridotto di variabili (fattori) che costituiscono le dimensioni fondamentali del fenomeno.

Ruolo delle variabili originali?

L’analisi fattoriale è una metodologia di analisi che

non distingue le variabili indipendenti dalla/e

variabile/i dipendente/i (interdipendenza): tutte le

variabili sono sullo stesso piano

(4)

Applicazioni dell’analisi fattoriale nelle ricerche di mercato

Segmentazione del mercato: viene utilizzata per identificare le variabili che servono per suddividere in gruppi i clienti

Segmentazione della domanda per il posizionamento dei prodotti: per determinare le caratteristiche del prodotto (brand attributes) che influenzano le scelte dei consumatori

Le ricerche sull’efficacia della pubblicità:

utilizzate per capire come cambiano le abitudini di consumo di un certo prodotto a seguito di una campagna pubblicitaria

Le ricerche per la definizione ed il controllo dei

prezzi: utilizzate per identificare le

caratteristiche dei consumatori price sensitive

(5)

Il modello di analisi fattoriale

 A prima vista appare come un modello di regressione multipla perché è espresso da una combinazione lineare

Specificazione del modello

Se indichiamo con X

i

(i=1…p) il vettore colonna relativo alla i-esima variabile originale standardizzata (cioè trasformata in modo che abbia media zero e varianza uno), tale variabile può essere espressa con il seguente modello:

X

i

=A

i1

F

1

+ A

i2

F

2

+ ….+A

im

F

m

+V

i

U

i [4.1]

Dove

Fattori unici U: sono specifici di ogni singola variabile originale; sono tra loro incorrelati e sono incorrelati con i fattori comuni

Fattori comuni F: possono essere espressi

come combinazione lineare delle variabili

osservate

(6)

Più in dettaglio:

o A

ij

(j=1…m, m<p) è il coefficiente che lega il fattore comune j alla variabile originale i, ovvero il coeff. di correlazione tra la variabile osservate ed il fattore comune, è detto peso fattoriale (factor loading

o F

^j

(vettore colonna di dimensione n) è il fattore comune a tutte le variabili, incorrelato con gli altri fattori e con il termine U

i

o V

ⁱ

è il coefficiente che lega la variabile i al fattore unico i

o U

ⁱ

è il fattore unico i (specifico della variabile X

i

)

o m= numero di fattori comuni, m<p.

In forma matriciale, la [4.1] è:

X=FA’+VU

 X(n,p) matrice delle variabili originali

standardizzate

(7)

 F(n,m) le cui colonne sono gli m fattori comuni, ogni colonna ha media 0 e varianza 1

 A (p,m) matrice dei factor loadings

 V (n,p) matrice dei fattori specifici, uno per ogni variabile osservata

 U(p,p) matrice diagonale contenente i coefficienti dei fattori specifici

L’analisi fattoriale ha lo scopo di determinare i fattori comuni, mentre i fattori specifici si determinano per differenza dalla

VU=X- FA’

La soluzione fattoriale è costituita

essenzialmente dalla matrice A’, tale matrice

indica quali variabili risultano principalmente

correlate con i diversi fattori comuni e

individua, inoltre, l’intensità e la direzione di

tali relazione

(8)

Dato che variabili originali ed i fattori sono standardizzati (quindi hanno varianza unitaria), e che per costruzione i fattori sono tra loro incorrelati, il quadrato dei factor loadings esprime la quota di varianza di ciascuna variabile spiegata da ciascun fattore.

Variabili osservate

(standardizzate )

Fattori comuni F

1

… F

k…

F

m

Comunalità

X

1

A

11

...A

1k

…A

1m ^



k

Ak

h₁² ₁²

X

i

A

i1

…A

ik

…A

im ^



k ik

i A

h² ²

X

p

A

p1

…A

pk

...A

pm ^



k pk

p A

h² ²

Autovalori λ

k

λ

1

….. λ

k

….λ

m



^



i i k

k h²



(9)

Se si sommano per riga i quadrati dei factor loadings si ottengono le comunalità, ossia la quota di varianza delle singole variabili spiegata nel complesso dai fattori comuni.

Se si sommano per colonna i quadrati dei factor loadings si ottengono gli autovalori, ossia l’ammontare di varianza complessiva della matrice X estratta da ciascun fattore.

A questo punto ci chiediamo: come si estraggono i fattori comuni iniziali?

Il metodo usato più frequentemente è il metodo delle componenti principali.

Le componenti principali

E’ un metodo di trasformazione di un insieme di p variabili osservate in un nuovo insieme di p variabili calcolate dette appunto componenti principali (c.p.).

La costruzione viene effettuata in modo che

(10)

la prima componente (o fattore) spieghi la più alta proporzione della varianza totale;

la seconda componente in modo che spieghi la più alta proporzione della varianza totale al netto di quella spiegata dal primo fattore, essendo incorrelato con il primo fattore;…. e così via.

I fattori estratti come componenti principali (c.p) hanno le seguenti caratteristiche:

o Sono tra loro incorrelati

o Il primo fattore tiene conto dell’ammontare maggiore di varianza

o Il secondo fattore tiene conto dell’ammontare maggiore di varianza al netto del primo etc…

o I fattori estratti, nel loro complesso

forniscono lo stesso contributo

informativo delle variabili originali.

(11)

Data la matrice X delle variabili originali standardizzate e data la corrispondente matrice di varianza- covarianza S, la prima c.p., y 1 , è una combinazione lineare delle variabili X i , espressa come

y 1 =W 11 X 1 + W 12 X 2 + ….+W 1p X p

in forma matriciale y 1 =X W 1

dove

o y ¹ è il vettore colonna di dimensione n dei valori della prima c.p.

o X è la matrice (n,p) delle variabili originali

o W ¹ è il vettore (p,1) dei

coefficienti da applicare alle

(12)

variabili osservate per ottenere la prima c.p.

Essendo X una matrice nota, si calcola W 1 in modo che

Var( y 1 )=max sotto il vincolo W’ 1 W 1 =1

Si tratta quindi di risolvere un problema di massimo vincolato, risolvibile con il metodo di Lagrange.

Il risultato cui si giunge è che la prima c.p. è il primo autovettore della matrice delle covarianze S. La varianza della prima c.p è uguale al primo autovalore ^λ 1 di S.

Essendo p le variabili originali

standardizzate, la somma delle loro

varianze (variabilità totale) sarà pari

(13)

a p, quindi il rapporto ^λ 1 /p fornisce la quota della varianza totale spiegata dalla prima c.p.

Successivamente si estrae la seconda c.p.

y 2 =X W 2

calcolando W 2 in modo che Var( y 2 )=max sotto i vincoli W’ 2 W 2 =1 e cov(y 1 , y 2 )

Si risolve con il metodo di Lagrange

ottenendo che la seconda c.p. è il

secondo autovettore della matrice

delle covarianze S, il corrispondente

autovalore ^λ 2 esprime la varianza

della seconda c.p.

(14)

Il procedimento prosegue fino all’estrazione di tante componenti quante sono le variabili originali (m=p).

Alla fine del processo di estrazione avremo la matrice Y (n,p) data da

Y=XW

Essendo per costruzione le c.p tra loro incorrelate, la matrice delle covarianze di Y sarà una matrice diagonale che chiameremo L (sulla diagonale ci sono ^λ 1 ….. ^λ k …. ^λ p ).

Ricordiamo che:

o le progressive componenti estratte presentano un contenuto informativo sempre decrescente

o l’insieme di tutte le componenti

estratte contiene

complessivamente il 100% della

variabilità delle variabili originali.

(15)

E’ chiaro quindi che le prime m componenti principali siano le più importanti. Come decidere m?

Ci sono diversi metodi per stabilire quante componenti principali selezionare

 Determinazione basata sugli autovalori

Si tengono i fattori con autovalori maggiori di 1.

Gli autovalori esprimono l’ammontare di variabilità associata al fattore

Dato che ogni variabile originale ha varianza 1 per effetto della standardizzazione, se l’ammontare di varianza è <1 vuol dire che il fattore non è migliore della variabile originale

 Determinazione basata sullo scree

plot

(16)

Grafico degli autovalori rispetto al numero del fattore (in ordine di estrazione) quindi il grafico rappresenta la percentuale di varianza spiegata da ciascun fattore. Quindi può essere opportuno fermarsi al fattore che sul grafico corrisponde ad una significativa diminuzione della pendenza della spezzata. Non sempre questo grafico è facile da interpretare.

 Determinazione basata sulla quota di varianza spiegata

Si tengono le c.p. fino al

raggiungimento di una opportuna

quota di varianza spiegata.

(17)

Concludendo:

il metodo delle c.p. fornisce una soluzione Fattoriale per il modello X=FA’ secondo il quale il contenuto informativo originale viene descritto attraverso un numero inferiore di fattori comuni.

Se invece si ipotizza che la variabilità totale del nostro fenomeno non possa essere descritta solo da fattori comuni a tutte le variabili originali ma anche da fattori specifici, si procede così:

si devono sostituire i valori pari a 1

che si trovano sulla diagonale

principale della matrice S con le

quote di varianza della variabile Xi

spiegate dagli m fattori comuni

(comunalità).

(18)

Come si conduce un’analisi fattoriale

1. Si formula il problema

2. Si costruisce la matrice delle correlazioni

3. Si stabilisce il metodo di analisi fattoriale

4. Si determina il numero di fattori

5. Rotazione dei fattori

6. Interpretazione dei fattori

(19)

Esempio (a conclusione di questo capitolo il problema introdotto viene sviluppato con un programma scritto in Stata)

1. Si formula il problema

o Si vogliono determinare i benefici che i consumatori cercano nell’acquisto di un dentifricio

o Si hanno 30 rispondenti

o Devono indicare il livello di accordo con una serie di statements

o La scala di classificazione degli statement è in 7 punti: 1= totalmente in disaccordo, 7= totalmente d’accordo

Statements dell’esempio

V 1 : è importante acquistare un dentifricio che previene la carie;

V 2 : mi piace il dentifricio che dà denti splendenti

V 3 : il dentifricio dovrebbe essenzialmente rinforzare le gengive;

V 4 : preferisco il dentifricio che rinfresca l’alito

(20)

V 5 : la prevenzione della caduta dei denti non è un fattore di cui tenere conto nell’acquisto di un dentifricio

V 6 : la più importante considerazione da fare per la scelta di un dentifricio è la bellezza dei denti

2. Si costruisce la matrice delle correlazioni

N:B: base di questa operazione c’è un’ipotesi: la distanza tra un punteggi successivi della scala di valutazione è costante (esempio: tra il punteggio 2 e 3 c’è la stessa distanza che tra 6 e 7).

o L’analisi fattoriale è basata sull’idea che le variabili rilevate siano tra loro correlate attraverso una struttura sottostante (i fattori che vogliamo individuare)

o Esaminando la matrice di

correlazione si verifica se l’ipotesi di

correlazione è plausibile

(21)

o Se tutte le correlazioni sono piccole (in valore assoluto) l’analisi fattoriale non è adeguata

3. Si stabilisce il metodo di analisi fattoriale

Componenti principali : da utilizzare quando

l’obiettivo principale è determinare il numero

minimo di fattori che tengono conto della

massima variabilità dei dati (metodo da

utilizzare se per esempio le componenti

principali devono divenire variabili esplicative

di un modello di regressione lineare). Si

tenga conto però che nell’analisi delle

componenti principali tutte le componenti

vengono comunque considerate (per

spiegare comunque il 100% della variabilità

osservata), anche se solo alcune saranno

poi utilizzate a fini interpretativi. Il caso

estremo è quello in cui le variabili originali

del problema sono incorrelate e quindi il

numero di componenti uguaglia il numero

delle variabili originali.

(22)

Analisi fattoriale delle comunalità: utilizzata quando l’obiettivo principale è individuare la struttura sottostante le nostre variabili originali. In questo caso i fattori sono stimati solo tenendo conto della variabilità comune delle variabili originali.

4. Si determina il numero di fattori

Si possono costruire tante componenti principali/fattori quante sono le variabili originali.

Per sintetizzare l’informazione di base devono essere un numero inferiore alle variabili originali.

5. Rotazione dei fattori

Una rotazione dei fattori è un cambiamento di posizione delle dimensioni estratte nella prima fase di analisi, mantenendo fissa l’origine.

Obiettivo della rotazione è la semplificazione

della struttura dei fattori.

(23)

La rotazione determina una riduzione del valore dei pesi fattoriali che nella prima estrazione erano relativamente piccoli e nell’incremento (in valore assoluto) dei pesi già dominanti. La soluzione ideale è quella in cui tutti i pesi fattoriali sono prossimi a 0 o 1. Esistono diversi metodi di rotazione.

6. Interpretazione dei fattori

Interpretare un fattore significa dargli un “nome”

che abbia pertinenza con il fenomeno studiato e con le variabili dominanti per quel fattore.

Per approfondimenti teorici sull’analisi fattoriale:

Fabbris L.(1997) Statistica multivariata e analisi

esplorativa dei dati. McGraw-Hill

(24)

Esempio ACQUISTO DEL DENTIFRICIO

use "F:\written\didattica\statistica per le analisi di mercato\dati/dentifricio"

. /*analisi preliminare dei dati anche per avere un'idea della variabilità di

> ogni item*/

. summarize v1-v6

Variable | Obs Mean Std. Dev. Min Max ---+---

v1 | 30 3.933333 1.981524 1 7

v2 | 30 3.9 1.373392 2 7

v3 | 30 4.1 2.056948 1 7

v4 | 30 4.1 1.373392 2 7

v5 | 30 3.5 1.907336 1 7

---+--- v6 | 30 4.166667 1.391683 2 7

. . /*Analisi di correlazione e test di significatività: h0 e' che la matrice di > correlazione sia una matrice identità e che quindi le variabili siano incorrelate (test basat su chi quadro)*/ . pwcorr v1 v2 v3 v4 v5 v6, star(5) | v1 v2 v3 v4 v5 v6 ---+--- v1 | 1.0000

v2 | -0.0532 1.0000

v3 | 0.8731* -0.1550 1.0000

v4 | -0.0862 0.5722* -0.2478 1.0000

v5 | -0.8576* 0.0197 -0.7778* -0.0066 1.0000

v6 | 0.0042 0.6405* -0.0181 0.6405* -0.1364 1.0000 .

. /*per vedere se ci sono outlier e per avere un'idea delle relazioni tra gli item*/

. graph matrix v1-v6, mlabel(cod) msymbol(none) .

. /*componenti principali della matrice di correlazione da cui vedo quanta parte di variabilità è spiegata da ogni componente ad esempio la prima spiega il 45%, le prime 2 l'82%*/

. pca v1-v6

(25)

(obs=30)

(principal components; 6 components retained)

Component Eigenvalue Difference Proportion Cumulative --- 1 2.73119 0.51307 0.4552 0.4552 2 2.21812 1.77652 0.3697 0.8249 3 0.44160 0.10034 0.0736 0.8985 4 0.34126 0.15863 0.0569 0.9554 5 0.18263 0.09742 0.0304 0.9858 6 0.08521 . 0.0142 1.0000

Eigenvectors

Variable | 1 2 3 4 5 6 ---+--- v1 | 0.56174 0.17003 -0.01161 0.24440 0.17120 0.75257 v2 | -0.18185 0.53396 0.69061 0.43660 -0.06215 -0.10190 v3 | 0.56648 0.08788 0.15767 -0.15899 0.58984 -0.52281 v4 | -0.20669 0.52974 -0.68163 0.34707 0.26361 -0.14860 v5 | -0.52568 -0.23554 0.17877 -0.03986 0.74090 0.29275 v6 | -0.10688 0.58493 0.03855 -0.77609 -0.02205 0.20528 . /*scree plot: autovalori rispetto al loro rango*/

. greigen .

. /*i factor loading esprimono la correlazione tra le componenti principali estratte e le variabili originali non è detto che sia semplice interpretare i fattori */

. factor v1-v6, pcf (obs=30)

(principal component factors; 2 factors retained) Factor Eigenvalue Difference Proportion Cumulative --- 1 2.73119 0.51307 0.4552 0.4552 2 2.21812 1.77652 0.3697 0.8249 3 0.44160 0.10034 0.0736 0.8985 4 0.34126 0.15863 0.0569 0.9554 5 0.18263 0.09742 0.0304 0.9858 6 0.08521 . 0.0142 1.0000

Solo i primi due autovalori sono <di 1

La somma degli autovalori è 6 perchè rapperesentano varianze di variabili standardizzate

2.73119/6=0.4552 (proporzione di variabilità spiegata dal fattore 1

proporzione di variabilità spiegata dai primi due fattori

(26)

Factor Loadings

Variable | 1 2 Uniqueness ---+--- v1 | 0.92834 0.25323 0.07406 v2 | -0.30053 0.79525 0.27726 v3 | 0.93618 0.13089 0.10643 v4 | -0.34158 0.78897 0.26085 v5 | -0.86876 -0.35079 0.12221 v6 | -0.17664 0.87116 0.20988 .

. /*rotazione dei fattori: la variabilità totale spiegata resta inalterata, varia la ripartizione tra i fattori per rendere più agevole l'interpretazione (ci sono diversi metodi di rotazione e danno risultati diversi*/

. rotate

(varimax rotation)

Rotated Factor Loadings

Variable | 1 2 Uniqueness ---+--- v1 | 0.96204 -0.02054 0.07406 v2 | -0.06258 0.84784 0.27726 v3 | 0.93485 -0.14008 0.10643 v4 | -0.10372 0.85346 0.26085 v5 | -0.93258 -0.08992 0.12221 v6 | 0.07776 0.88548 0.20988 .

v

1

=0.96f

1

-0.02f

2

+0.07U

1

v

2

=-0.06f

1

+0.8f

2

+0.287U

2

…

v

6

=0.08f

1

+0.89f

2

+0.217U6

. /*score delle due componenti principali: sono due variabili standardizzate e

> nuove del dataset*/

. score pc1 pc2

(based on rotated factors) Scoring Coefficients Variable | 1 2 ---+--- v1 | 0.35833 0.01304 v2 | -0.00380 0.37501 v3 | 0.34543 -0.04066 v4 | -0.01902 0.37656 v5 | -0.34988 -0.06141 v6 | 0.04940 0.39496

Ogni fattore è correlato in modo importante con più variabili, quindi difficile

interpretarerotazione

Fattore 1 correlato (+) con V1, V3 (- ) con V5

Fattore 2 correlato (+) con V2, V4, V6

(27)

pc1=f

1

=0.3584v

1

-0.0038v

2

+…+0.049 v6 pc2=f

2

=0.013v

1

+0.3758v

2

+…+0.39v6

.

. /*per vedere come si dispongono le unita' statistiche rispetto ad i nuovi fattori*/

. twoway scatter pc2 pc1, mlabel(cod) . log close