TECNICHE DI ANALISI STATISTICA
3.3 Analisi Multivariata
3.4.2 Le fasi dell’analisi fattoriale
E’ richiesta l’implicazione di una serie fasi per poter effettuare l’analisi fattoriale (vedi Figura 2).
Nella primo fase si deve definire il problema ed identificare le variabili che devono essere analizzate; successivamente si deve definire la matrice sulla quale eseguire l’analisi e selezionare un approccio di analisi fattoriale; in seguito, il ricercatore decide il numero di fattori che devono essere estratti e il metodo di rotazione di quest’ultimi; la fase successiva consiste nell’interpretazione fattori ruotati; in fine si possono calcolare i punteggi fattoriali. Descriveremo dettagliatamente queste fasi nei paragrafi successivi.
Fig.2 Fasi di svolgimento dell’analisi fattoriale
Formulazione del problema
Costruzione della matrice
Scelta del metodo di analisi fattoriale
Determinazione del numero dei fattori
Rotazione dei fattori
Interpretazione dei fattori
Calcolo e uso dei punteggi fattoriali
Formulazione del problema e identificazione delle variabili
La formulazione del problema include diversi compiti. Per prima cosa, gli obiettivi dell’analisi fattoriale dovrebbero essere identificati e le variabili incluse in tale analisi dovrebbero essere specificate, in base alle ricerche passate, alla teoria e al giudizio del ricercatore. Sarebbe opportuno che le variabili fossero misurate su scale ad intervallo o a rapporto (scale quantitative).
Costruzione della matrice di correlazione sulla quale eseguire l’analisi fattoriale
Infatti, affinché l’analisi fattoriale sia appropriata, le variabili devono essere correlate fortemente. Ci dovremmo aspettare che se le variabili fossero molto correlate fra loro, allora dovrebbero essere fortemente correlate anche con lo stesso fattore o fattori. Diverse tecniche statistiche vengono implementate per verificare se è possibile o meno applicare l’analisi fattoriale.
Il test di sfericità di Bartlett può essere usato per verificare l’ipotesi nulla d’incorrelazione delle variabili nella popolazione. Un ampio valore della statistica test comporta il rifiuto dell’ipotesi nulla e la possibilità di effettuare l’analisi fattoriale. Un’altra statistica utile è l’indice di Kaiser-Meyer-Olkin (KMO) che, se assume un valore piccolo, indica che le correlazioni tra coppie di variabili non possono essere spiegate da altre variabili e che, quindi, non è appropriato effettuare l’analisi fattoriale. in certi casi si analizza direttamente la matrice di varianza-covarianza.
Scelta del metodo di analisi fattoriale
Una volta che è stata verificata la fattibilità dell’analisi fattoriale, si deve stabilire un metodo idoneo.
Per identificare i fattori, la metodologia d’analisi fattoriale impiega principalmente due procedure alternative, a seconda delle finalità della ricerca:
l’analisi delle componenti principali, preferibile se non si ipotizza l’esistenza di un processo comune sottostante il set di misure (cioè se si vogliono analizzare variabili che sono empiricamente correlate, ma senza specifiche ipotesi di appartenenza delle variabili allo stesso dominio concettuale). In questo caso è considerata la varianza totale nei dati
l’analisi dei fattori comuni, utilizzata per scoprire eventuali dimensioni sottostanti alle variabili originarie, quando si ipotizza l’esistenza di un processo comune sottostante il set di misure. In questo caso i fattori sono stimati solo in base alla varianza comune.
Nel nostro caso, ricorreremo all’approccio delle componenti principali che è strumentale al metodo dell’analisi fattoriale, le cui finalità sono più specifiche, gli assunti più restrittivi, i problemi empirici più particolari dell’analisi delle componenti principali (Fabbris, 1990).
Data una matrice, o di varianza-covarianze, o di correlazione, si denominano componenti principali “le combinazioni lineari tra loro indipendenti (o incorrelate, o ortogonali) delle variabili, la cui varianza complessiva uguaglia quella osservata”. L’obiettivo dell’analisi delle componenti principali è di trovare r trasformazioni lineari fi delle variabili osservate
f
i= Σ
jw
jix
j(j = 1,…..,p; i = 1,…..,q)
dove r è il rango della matrice di varianza-covarianza S dei dati originari.
Le componenti principali godono di queste proprietà, che elencheremo qui di seguito tralasciandone la dimostrazione matematica:
due componenti qualsiasi fi e ft sono linearmente indipendenti
l’autovalore Ωi della matrice S rappresenta la varianza dell’i-esima componente principali
la somma degli autovalori è uguale alla traccia, ossia alla somma degli elementi diagonali, della matrice fattorizzata. Se la matrice fattorizzata è la matrice S di varianza-covarianza, la somma delle varianze delle componenti principali è
uguale alla somma delle varianze delle variabili osservate, ovvero sia:
Σi Ωi = tr(S) = Σj s2j (j = 1,…..,p; i = 1,…..,r)
se si tratta della matrice di correlazione R, gli autovalori sommano p, numero di variabili fattorizzate:
Σi Ωi = tr(R) = p (i = 1,…..,r)
il prodotto degli autovalori è uguale al determinante della matrice di partenza:
Π
i Ωi = |S| (i = 1,…..,p)Da cui segue che il prodotto degli autovalori è nullo se le variabili osservate sono collineari, oppure, equivalentemente, se il rango della matrice è inferiore al numero di variabili osservate
le componenti principali non sono indipendenti dalla scala di misura delle variabili e dalla diversità dell’ordine di grandezza delle misure. Se le variabili non sono dello stesso tipo, ossia non sono tutte dicotomiche, oppure percentuali o non sono espresse sulla stessa scala di misura, allora è necessario standardizzare le variabili. Misure con variabilità dello stesso ordine di grandezza si ottengono anche con trasformazioni logaritmiche delle osservazioni.
Criteri per determinare il numero di fattori
Al fine di riassumere l’informazione contenuta nelle variabili originarie, un numero più contenuto di fattori dovrebbe essere estratto. Il problema è, quante variabili latenti devono essere selezionate? Diverse procedure e criteri suggeriscono il numero di fattori da considerare:
approssimativamente, includendo tutti i fattori (prima della rotazione) che spieghino almeno tanta varianza quanto in media una variabile originaria
col criterio degli autovalori (eigenvalues), mantenendo solo i fattori con autovalori maggiori di 1,0 (dove l’autovalore, Ωi, rappresenta l'ammontare della varianza dell’i-esimo fattore e la somma degli autovalori è uguale alla somma delle varianze se l’analisi è condotta su una matrice di varianze- covarianze e a p, numero di variabili, se è condotta su una matrice di correlazione)
col criterio dello scree-plot (Figura 3), sulla base della rappresentazione grafica degli autovalori rispetto al numero dei fattori in ordine d'estrazione. Rappresentando i punti (i, Ωi) (i=1, ..., q) sul piano cartesiano e collegandoli con segmenti, si ottiene una spezzata: se questa mostra due tendenze, una forte inclinazione all'altezza dei primi fattori, e un successivo appiattimento che la porta ad essere quasi parallela all'asse delle ascisse, i fattori che appartengono a quest'ultima parte della spezzata possono essere ignorati. Si considerano rilevanti per l'analisi solo i fattori il cui autovalore, stando più in alto del "gomito" (o “flesso”) descritto dalle due tendenze, si stacca visibilmente dagli altri. Se non ci sono fattori che prevalgono nettamente sugli altri, e anche gli autovalori dei primi fattori sono di poco superiori a 1, l'analisi fattoriale non è un metodo adatto per l’analisi dei dati
col criterio della percentuale della varianza, estraendo fattori fino a che la percentuale cumulativa di varianza estratta dai fattori raggiunga un livello soddisfacente, in genere il 75%. La frazione di varianza estratta dal fattore i è Ωi /Σk Ωi = Ωi /Σk s2k (i = 1,….,q; k = 1,….,r)
se l’analisi è condotta sulla matrice di varianze-covarianze Ωi /Σk Ωi = Ωi /p (i = 1,….,q; k = 1,….,r)