Analisi Statitica per le Imprese
5.5 Analisi Fattoriale
Prof. L. Neri
Dip. di Economia Politica e Statistica
Premessa
Come evidenziato in precedenza l’approccio di segmentazione per omogeneità prevede la classificazione delle unità statistiche effettuata sulla base del grado di dissomiglianza rispetto ad un insieme di variabili (comportamenti, bisogni, benefici di caratteristiche di prodotti, attitudini dei consumatori, lo stile di vita, ecc.. ).
Per giungere a tale classificazione si può ricorrere all’uso congiunto di due tecniche di statistica multivariata: l’analisi fattoriale e l’analisi dei gruppi.
Con l’analisi fattoriale si determinano i ‘pilastri della segmentazione’ ovvero le macro- caratteristiche intorno alle quali costruire la segmentazione stessa
Con l’analisi dei gruppi vengono
effettivamente raggruppate le unità statistiche
Cosa è l’analisi fattoriale?
E’ una tecnica statistica multivariata utilizzata per ridurre e sintetizzare i dati.
Come opera?
Da un numero consistente di variabili tra loro correlate (a diversi livelli)
↓
ad un insieme più ridotto di variabili (fattori) che costituiscono le dimensioni fondamentali del fenomeno.
Ruolo delle variabili originali?
L’analisi fattoriale è una metodologia di analisi che
non distingue le variabili indipendenti dalla/e
variabile/i dipendente/i (interdipendenza): tutte le
variabili sono sullo stesso piano
Applicazioni dell’analisi fattoriale nelle ricerche di mercato
Segmentazione del mercato: viene utilizzata per identificare le variabili che servono per suddividere in gruppi i clienti
Segmentazione della domanda per il posizionamento dei prodotti: per determinare le caratteristiche del prodotto (brand attributes) che influenzano le scelte dei consumatori
Le ricerche sull’efficacia della pubblicità:
utilizzate per capire come cambiano le abitudini di consumo di un certo prodotto a seguito di una campagna pubblicitaria
Le ricerche per la definizione ed il controllo dei
prezzi: utilizzate per identificare le
caratteristiche dei consumatori price sensitive
Il modello di analisi fattoriale
A prima vista appare come un modello di regressione multipla perché è espresso da una combinazione lineare
Specificazione del modello
Se indichiamo con X
i(i=1…p) il vettore colonna relativo alla i-esima variabile originale standardizzata (cioè trasformata in modo che abbia media zero e varianza uno), tale variabile può essere espressa con il seguente modello:
X
i=A
i1F
1+ A
i2F
2+ ….+A
imF
m+V
iU
i [4.1]Dove
Fattori unici U: sono specifici di ogni singola variabile originale; sono tra loro incorrelati e sono incorrelati con i fattori comuni
Fattori comuni F: possono essere espressi
come combinazione lineare delle variabili
osservate
Più in dettaglio:
o A
ij(j=1…m, m<p) è il coefficiente che lega il fattore comune j alla variabile originale i, ovvero il coeff. di correlazione tra la variabile osservate ed il fattore comune, è detto peso fattoriale (factor loading
o F
j(vettore colonna di dimensione n) è il fattore comune a tutte le variabili, incorrelato con gli altri fattori e con il termine U
io V
iè il coefficiente che lega la variabile i al fattore unico i
o U
iè il fattore unico i (specifico della variabile X
i)
o m= numero di fattori comuni, m<p.
In forma matriciale, la [4.1] è:
X=FA’+VU
X(n,p) matrice delle variabili originali
standardizzate
F(n,m) le cui colonne sono gli m fattori comuni, ogni colonna ha media 0 e varianza 1
A (p,m) matrice dei factor loadings
V (n,p) matrice dei fattori specifici, uno per ogni variabile osservata
U(p,p) matrice diagonale contenente i coefficienti dei fattori specifici
L’analisi fattoriale ha lo scopo di determinare i fattori comuni, mentre i fattori specifici si determinano per differenza dalla
VU=X- FA’
La soluzione fattoriale è costituita
essenzialmente dalla matrice A’, tale matrice
indica quali variabili risultano principalmente
correlate con i diversi fattori comuni e
individua, inoltre, l’intensità e la direzione di
tali relazione
Dato che variabili originali ed i fattori sono standardizzati (quindi hanno varianza unitaria), e che per costruzione i fattori sono tra loro incorrelati, il quadrato dei factor loadings esprime la quota di varianza di ciascuna variabile spiegata da ciascun fattore.
Variabili osservate
(standardizzate )
Fattori comuni F
1… F
k…F
mComunalità
X
1A
11...A
1k…A
1m
k
Ak
h12 12
X
iA
i1…A
ik…A
im
k ik
i A
h2 2
X
pA
p1…A
pk...A
pm
k pk
p A
h2 2
Autovalori λ
kλ
1….. λ
k….λ
m
i i k
k h2
Se si sommano per riga i quadrati dei factor loadings si ottengono le comunalità, ossia la quota di varianza delle singole variabili spiegata nel complesso dai fattori comuni.
Se si sommano per colonna i quadrati dei factor loadings si ottengono gli autovalori, ossia l’ammontare di varianza complessiva della matrice X estratta da ciascun fattore.
A questo punto ci chiediamo: come si estraggono i fattori comuni iniziali?
Il metodo usato più frequentemente è il metodo delle componenti principali.
Le componenti principali
E’ un metodo di trasformazione di un insieme di p variabili osservate in un nuovo insieme di p variabili calcolate dette appunto componenti principali (c.p.).
La costruzione viene effettuata in modo che
la prima componente (o fattore) spieghi la più alta proporzione della varianza totale;
la seconda componente in modo che spieghi la più alta proporzione della varianza totale al netto di quella spiegata dal primo fattore, essendo incorrelato con il primo fattore;…. e così via.
I fattori estratti come componenti principali (c.p) hanno le seguenti caratteristiche:
o Sono tra loro incorrelati
o Il primo fattore tiene conto dell’ammontare maggiore di varianza
o Il secondo fattore tiene conto dell’ammontare maggiore di varianza al netto del primo etc…
o I fattori estratti, nel loro complesso
forniscono lo stesso contributo
informativo delle variabili originali.
Data la matrice X delle variabili originali standardizzate e data la corrispondente matrice di varianza- covarianza S, la prima c.p., y 1 , è una combinazione lineare delle variabili X i , espressa come
y 1 =W 11 X 1 + W 12 X 2 + ….+W 1p X p
in forma matriciale y 1 =X W 1
dove
o y 1 è il vettore colonna di dimensione n dei valori della prima c.p.
o X è la matrice (n,p) delle variabili originali
o W 1 è il vettore (p,1) dei
coefficienti da applicare alle
variabili osservate per ottenere la prima c.p.
Essendo X una matrice nota, si calcola W 1 in modo che
Var( y 1 )=max sotto il vincolo W’ 1 W 1 =1
Si tratta quindi di risolvere un problema di massimo vincolato, risolvibile con il metodo di Lagrange.
Il risultato cui si giunge è che la prima c.p. è il primo autovettore della matrice delle covarianze S. La varianza della prima c.p è uguale al primo autovalore λ 1 di S.
Essendo p le variabili originali
standardizzate, la somma delle loro
varianze (variabilità totale) sarà pari
a p, quindi il rapporto λ 1 /p fornisce la quota della varianza totale spiegata dalla prima c.p.
Successivamente si estrae la seconda c.p.
y 2 =X W 2
calcolando W 2 in modo che Var( y 2 )=max sotto i vincoli W’ 2 W 2 =1 e cov(y 1 , y 2 )
Si risolve con il metodo di Lagrange
ottenendo che la seconda c.p. è il
secondo autovettore della matrice
delle covarianze S, il corrispondente
autovalore λ 2 esprime la varianza
della seconda c.p.
Il procedimento prosegue fino all’estrazione di tante componenti quante sono le variabili originali (m=p).
Alla fine del processo di estrazione avremo la matrice Y (n,p) data da
Y=XW
Essendo per costruzione le c.p tra loro incorrelate, la matrice delle covarianze di Y sarà una matrice diagonale che chiameremo L (sulla diagonale ci sono λ 1 ….. λ k …. λ p ).
Ricordiamo che:
o le progressive componenti estratte presentano un contenuto informativo sempre decrescente
o l’insieme di tutte le componenti
estratte contiene
complessivamente il 100% della
variabilità delle variabili originali.
E’ chiaro quindi che le prime m componenti principali siano le più importanti. Come decidere m?
Ci sono diversi metodi per stabilire quante componenti principali selezionare
Determinazione basata sugli autovalori
Si tengono i fattori con autovalori maggiori di 1.
Gli autovalori esprimono l’ammontare di variabilità associata al fattore
Dato che ogni variabile originale ha varianza 1 per effetto della standardizzazione, se l’ammontare di varianza è <1 vuol dire che il fattore non è migliore della variabile originale
Determinazione basata sullo scree
plot
Grafico degli autovalori rispetto al numero del fattore (in ordine di estrazione) quindi il grafico rappresenta la percentuale di varianza spiegata da ciascun fattore. Quindi può essere opportuno fermarsi al fattore che sul grafico corrisponde ad una significativa diminuzione della pendenza della spezzata. Non sempre questo grafico è facile da interpretare.
Determinazione basata sulla quota di varianza spiegata
Si tengono le c.p. fino al
raggiungimento di una opportuna
quota di varianza spiegata.
Concludendo:
il metodo delle c.p. fornisce una soluzione Fattoriale per il modello X=FA’ secondo il quale il contenuto informativo originale viene descritto attraverso un numero inferiore di fattori comuni.
Se invece si ipotizza che la variabilità totale del nostro fenomeno non possa essere descritta solo da fattori comuni a tutte le variabili originali ma anche da fattori specifici, si procede così:
si devono sostituire i valori pari a 1
che si trovano sulla diagonale
principale della matrice S con le
quote di varianza della variabile Xi
spiegate dagli m fattori comuni
(comunalità).
Come si conduce un’analisi fattoriale
1. Si formula il problema
2. Si costruisce la matrice delle correlazioni
3. Si stabilisce il metodo di analisi fattoriale
4. Si determina il numero di fattori
5. Rotazione dei fattori
6. Interpretazione dei fattori
Esempio (a conclusione di questo capitolo il problema introdotto viene sviluppato con un programma scritto in Stata)
1. Si formula il problema
o Si vogliono determinare i benefici che i consumatori cercano nell’acquisto di un dentifricio
o Si hanno 30 rispondenti
o Devono indicare il livello di accordo con una serie di statements
o La scala di classificazione degli statement è in 7 punti: 1= totalmente in disaccordo, 7= totalmente d’accordo
Statements dell’esempio
V 1 : è importante acquistare un dentifricio che previene la carie;
V 2 : mi piace il dentifricio che dà denti splendenti
V 3 : il dentifricio dovrebbe essenzialmente rinforzare le gengive;
V 4 : preferisco il dentifricio che rinfresca l’alito
V 5 : la prevenzione della caduta dei denti non è un fattore di cui tenere conto nell’acquisto di un dentifricio
V 6 : la più importante considerazione da fare per la scelta di un dentifricio è la bellezza dei denti
2. Si costruisce la matrice delle correlazioni
N:B: base di questa operazione c’è un’ipotesi: la distanza tra un punteggi successivi della scala di valutazione è costante (esempio: tra il punteggio 2 e 3 c’è la stessa distanza che tra 6 e 7).
o L’analisi fattoriale è basata sull’idea che le variabili rilevate siano tra loro correlate attraverso una struttura sottostante (i fattori che vogliamo individuare)
o Esaminando la matrice di
correlazione si verifica se l’ipotesi di
correlazione è plausibile
o Se tutte le correlazioni sono piccole (in valore assoluto) l’analisi fattoriale non è adeguata
3. Si stabilisce il metodo di analisi fattoriale
Componenti principali : da utilizzare quando
l’obiettivo principale è determinare il numero
minimo di fattori che tengono conto della
massima variabilità dei dati (metodo da
utilizzare se per esempio le componenti
principali devono divenire variabili esplicative
di un modello di regressione lineare). Si
tenga conto però che nell’analisi delle
componenti principali tutte le componenti
vengono comunque considerate (per
spiegare comunque il 100% della variabilità
osservata), anche se solo alcune saranno
poi utilizzate a fini interpretativi. Il caso
estremo è quello in cui le variabili originali
del problema sono incorrelate e quindi il
numero di componenti uguaglia il numero
delle variabili originali.
Analisi fattoriale delle comunalità: utilizzata quando l’obiettivo principale è individuare la struttura sottostante le nostre variabili originali. In questo caso i fattori sono stimati solo tenendo conto della variabilità comune delle variabili originali.
4. Si determina il numero di fattori
Si possono costruire tante componenti principali/fattori quante sono le variabili originali.
Per sintetizzare l’informazione di base devono essere un numero inferiore alle variabili originali.
5. Rotazione dei fattori
Una rotazione dei fattori è un cambiamento di posizione delle dimensioni estratte nella prima fase di analisi, mantenendo fissa l’origine.
Obiettivo della rotazione è la semplificazione
della struttura dei fattori.
La rotazione determina una riduzione del valore dei pesi fattoriali che nella prima estrazione erano relativamente piccoli e nell’incremento (in valore assoluto) dei pesi già dominanti. La soluzione ideale è quella in cui tutti i pesi fattoriali sono prossimi a 0 o 1. Esistono diversi metodi di rotazione.
6. Interpretazione dei fattori
Interpretare un fattore significa dargli un “nome”
che abbia pertinenza con il fenomeno studiato e con le variabili dominanti per quel fattore.
Per approfondimenti teorici sull’analisi fattoriale:
Fabbris L.(1997) Statistica multivariata e analisi
esplorativa dei dati. McGraw-Hill
Esempio ACQUISTO DEL DENTIFRICIO
use "F:\written\didattica\statistica per le analisi di mercato\dati/dentifricio"
. /*analisi preliminare dei dati anche per avere un'idea della variabilità di
> ogni item*/
. summarize v1-v6
Variable | Obs Mean Std. Dev. Min Max ---+---
v1 | 30 3.933333 1.981524 1 7
v2 | 30 3.9 1.373392 2 7
v3 | 30 4.1 2.056948 1 7
v4 | 30 4.1 1.373392 2 7
v5 | 30 3.5 1.907336 1 7
---+--- v6 | 30 4.166667 1.391683 2 7
. . /*Analisi di correlazione e test di significatività: h0 e' che la matrice di > correlazione sia una matrice identità e che quindi le variabili siano incorrelate (test basat su chi quadro)*/ . pwcorr v1 v2 v3 v4 v5 v6, star(5) | v1 v2 v3 v4 v5 v6 ---+--- v1 | 1.0000
v2 | -0.0532 1.0000
v3 | 0.8731* -0.1550 1.0000
v4 | -0.0862 0.5722* -0.2478 1.0000
v5 | -0.8576* 0.0197 -0.7778* -0.0066 1.0000
v6 | 0.0042 0.6405* -0.0181 0.6405* -0.1364 1.0000 .
. /*per vedere se ci sono outlier e per avere un'idea delle relazioni tra gli item*/
. graph matrix v1-v6, mlabel(cod) msymbol(none) .
. /*componenti principali della matrice di correlazione da cui vedo quanta parte di variabilità è spiegata da ogni componente ad esempio la prima spiega il 45%, le prime 2 l'82%*/
. pca v1-v6
(obs=30)
(principal components; 6 components retained)
Component Eigenvalue Difference Proportion Cumulative --- 1 2.73119 0.51307 0.4552 0.4552 2 2.21812 1.77652 0.3697 0.8249 3 0.44160 0.10034 0.0736 0.8985 4 0.34126 0.15863 0.0569 0.9554 5 0.18263 0.09742 0.0304 0.9858 6 0.08521 . 0.0142 1.0000
Eigenvectors
Variable | 1 2 3 4 5 6 ---+--- v1 | 0.56174 0.17003 -0.01161 0.24440 0.17120 0.75257 v2 | -0.18185 0.53396 0.69061 0.43660 -0.06215 -0.10190 v3 | 0.56648 0.08788 0.15767 -0.15899 0.58984 -0.52281 v4 | -0.20669 0.52974 -0.68163 0.34707 0.26361 -0.14860 v5 | -0.52568 -0.23554 0.17877 -0.03986 0.74090 0.29275 v6 | -0.10688 0.58493 0.03855 -0.77609 -0.02205 0.20528 . /*scree plot: autovalori rispetto al loro rango*/
. greigen .
. /*i factor loading esprimono la correlazione tra le componenti principali estratte e le variabili originali non è detto che sia semplice interpretare i fattori */
. factor v1-v6, pcf (obs=30)
(principal component factors; 2 factors retained) Factor Eigenvalue Difference Proportion Cumulative --- 1 2.73119 0.51307 0.4552 0.4552 2 2.21812 1.77652 0.3697 0.8249 3 0.44160 0.10034 0.0736 0.8985 4 0.34126 0.15863 0.0569 0.9554 5 0.18263 0.09742 0.0304 0.9858 6 0.08521 . 0.0142 1.0000
Solo i primi due autovalori sono <di 1
La somma degli autovalori è 6 perchè rapperesentano varianze di variabili standardizzate
2.73119/6=0.4552 (proporzione di variabilità spiegata dal fattore 1
proporzione di variabilità spiegata dai primi due fattori
Factor Loadings
Variable | 1 2 Uniqueness ---+--- v1 | 0.92834 0.25323 0.07406 v2 | -0.30053 0.79525 0.27726 v3 | 0.93618 0.13089 0.10643 v4 | -0.34158 0.78897 0.26085 v5 | -0.86876 -0.35079 0.12221 v6 | -0.17664 0.87116 0.20988 .
. /*rotazione dei fattori: la variabilità totale spiegata resta inalterata, varia la ripartizione tra i fattori per rendere più agevole l'interpretazione (ci sono diversi metodi di rotazione e danno risultati diversi*/
. rotate
(varimax rotation)
Rotated Factor Loadings
Variable | 1 2 Uniqueness ---+--- v1 | 0.96204 -0.02054 0.07406 v2 | -0.06258 0.84784 0.27726 v3 | 0.93485 -0.14008 0.10643 v4 | -0.10372 0.85346 0.26085 v5 | -0.93258 -0.08992 0.12221 v6 | 0.07776 0.88548 0.20988 .
v
1=0.96f
1-0.02f
2+0.07U
1v
2=-0.06f
1+0.8f
2+0.287U
2…
v
6=0.08f
1+0.89f
2+0.217U6
. /*score delle due componenti principali: sono due variabili standardizzate e
> nuove del dataset*/
. score pc1 pc2
(based on rotated factors) Scoring Coefficients Variable | 1 2 ---+--- v1 | 0.35833 0.01304 v2 | -0.00380 0.37501 v3 | 0.34543 -0.04066 v4 | -0.01902 0.37656 v5 | -0.34988 -0.06141 v6 | 0.04940 0.39496
Ogni fattore è correlato in modo importante con più variabili, quindi difficile
interpretarerotazione
Fattore 1 correlato (+) con V1, V3 (- ) con V5
Fattore 2 correlato (+) con V2, V4, V6
pc1=f
1=0.3584v
1-0.0038v
2+…+0.049 v6 pc2=f
2=0.013v
1+0.3758v
2+…+0.39v6
.
. /*per vedere come si dispongono le unita' statistiche rispetto ad i nuovi fattori*/
. twoway scatter pc2 pc1, mlabel(cod) . log close