• Non ci sono risultati.

L’implementazione delle relazioni nei modelli di equazioni strutturali (SEM)

ANALISI FATTORIALE E MODELLI DI EQUAZIONI STRUTTURALI (SEM)

5.5 L’implementazione delle relazioni nei modelli di equazioni strutturali (SEM)

I modelli SEM (structural equation modeling) sono modelli che permettono di realizzare l’analisi multivariata nel campo delle variabili metriche.

Per modello di equazioni strutturali si intende “un modello stocastico nel quale ogni equazione rappresenta un legame causale, piuttosto che una mera associazione empirica” (Goldberger, 1972)

L'unità costitutiva di un modello di equazioni strutturali è l'equazione di regressione alla quale, in questo contesto, viene data un’interpretazione di carattere causale.

Se nei dati si trova una covariazione fra numero dei nati (Y) e numero dei nidi di cicogna (X), nulla ci impedisce di scrivere una relazione del tipo

Y = a + bX

Questa equazione ha senso dal punto di vista statistico in quanto esprime un nesso realmente esistente, e ha anche senso agli effetti della predizione di Y, cioè del numero dei nati, in quanto, data l'esistenza della relazione e la conoscenza dei suoi parametri (cioè a e b) su un certo insieme di unità di analisi (per esempio, un gruppo di comuni), la conoscenza del numero di nidi di cicogna di un nuovo comune ci permetterebbe di predirne il numero dei nati meglio che se non avessimo questa informazione (tramite l'equazione di regressione, noti X, a e b possiamo stimare Y).

Tutto ciò non ha nulla a che fare con il processo di spiegazione causale del numero dei nati: se l'equazione di regressione tra il numero dei nati e il numero di nidi di cicogne è utile ai fini della “predizione” della variabile dipendente Y, è irrilevante ai fini della “spiegazione” della stessa variabile.

In questo contesto si è interessati all’equazione di regressione solo nella misura in cui si riesce ad attribuirle un significato di nesso causale. Tale attribuzione è solamente teorica, per cui, la decisione che la covariazione tra il numero dei nati e il numero di nidi di cicogna sia priva di nesso causale, viene presa sul piano delle conoscenze preempiriche che il ricercatore ha dei fenomeni studiati.

Dal punto di vista empirico si ha una covariazione.

Essa è compatibile sia con la spiegazione causale (X provoca Y) sia con altre spiegazioni (per esempio covariazione spuria). Se si riesce a formulare una teoria per la quale il numero di nidi di cicogna causa delle nascite, è possibile inserire l'equazione di regressione corrispondente nel proprio modello causale, senza contraddire il dato empirico.

129

In realtà, in questo caso si tratta del fatto che, come già detto, nelle zone rurali le famiglie fanno più figli e nelle medesime zone nidificano più cicogne.

In questo contesto, quello dei modelli strutturali, l'equazione di regressione è detta equazione

strutturale ed esprime, attraverso la formalizzazione matematica, la relazione esistente tra una variabile dipendente e un insieme di variabili indipendenti.

A questo punto può essere utile introdurre un esempio che chiarisca le nozioni sopra esposte. Si supponga che il successo scolastico (X

4) di un campione di studenti sia messo in relazione con le aspirazioni professionali degli studenti stessi (X

3), con le aspirazioni professionali, nei confronti dei figli, dei genitori degli studenti (X

2) e con lo status socio-economico della famiglia (X

1).

L'equazione strutturale corrispondente è la seguente:

X 4 = b 41X 1 + b 42X 2 + b 43X 3 + e 4

Manca l’intercetta a perché, in genere, nelle equazioni strutturali si considerano le variabili come scarti dalle rispettive medie.

Questo modello causale è molto semplice: una variabile dipendente è influenzata da un certo numero di variabili indipendenti, che fra loro non presentano relazioni di causalità, ma solo di associazione (rappresentate dalle frecce curve bidirezionali). È un'interpretazione parziale della realtà in quanto si prescinde dalle relazioni causali esistenti anche tra le variabili indipendenti, che nella realtà esistono.

E' facile immaginare, per esempio, che la variabile X

3 (aspirazioni professionali degli studenti) sia a sua volta influenzata da X

1 (status socio-economico della famiglia) e da X

2 (aspirazioni professionali dei genitori) e che a sua volta anche quest’ultima sia influenzata da X

1; per cui il modello nel suo complesso, con le equazioni che esprimono anche le dipendenze di X

2 e X 3, diventa il seguente: X 2 = b 21X 1 + e 2 X 3 = b 31X 1 + b 32X 2 + e 3 X 4 = b 41X 1 + b 42X 2 + b 43X 3 + e 4

Questo sistema di equazioni è chiamato modello di equazioni strutturali (Fig. 7.7) e non è altro che un insieme di nessi causali tra variabili, formalizzati nel loro insieme con un sistema di equazioni algebriche.

130 Figura 5.6 Esempio di modello di regressione

Figura 5.7: Esempio di modello di equazioni strutturali

I motivi per i quali i due modelli presentati (modello di regressione e modello di equazioni strutturali) differiscono sono i seguenti:

- Il modello di regressione è più povero. Ci dice solo che la variabile X

4 dipende dalle variabili

X

1, X 2 e X

3, ma non avanza alcuna ipotesi in merito ai possibili nessi causali tra queste tre variabili, mentre la dinamica della loro interazione è fondamentale per capire il fenomeno studiato. Chi riesce a dire che il successo scolastico dipende dallo status sociale, dalle aspirazioni dei genitori e dalle aspirazioni professionali degli studenti rimane molto indietro rispetto a chi avanza ipotesi più articolate sull'interazione causale delle tre ultime variabili. La povertà teorica può anche portare a errori interpretativi. In entrambi i modelli, il coefficiente b

42 rappresenta l'effetto diretto di X

2 (aspirazioni professionali dei genitori) su X 4

131

(successo scolastico) cioè la variazione di X

4 dovuta a una variazione unitaria di X

2 tenute costanti le altre due variabili. Tuttavia, se X

2 agisce anche su X

3 (aspirazioni professionali degli studenti stessi), la quale agisce a sua volta su X

4, una modifica di X

2 avrà due effetti: uno diretto, ma anche uno indiretto per mezzo dell'effetto che passa attraverso X

3. Il primo modello non ci dice nulla delle interazioni causali tra X2 e X3 e ci impedisce di cogliere l'effetto indiretto di X2 su X4. In altre parole, le aspirazioni professionali dei genitori influenzano il successo scolastico, nel senso che, per esempio, i genitori che vogliono un figlio avvocato lo spronano nello studio, ne controllano il rendimento più di quanto facciano i genitori che si accontentano che il figlio faccia l'operaio (effetto diretto). Le aspirazioni dei genitori influenzano anche quelle dei figli che possono sentirsi autonomamente motivati nello studio (effetto indiretto).

L'approccio a più equazioni è l'unico veramente adatto a fornire una rappresentazione, per quanto semplificata, dei processi reali. Esso tiene conto sia della molteplicità delle cause che agiscono su una variabile dipendente (analisi multivariata), ma anche delle connessioni esistenti fra le diverse cause.

In una formulazione più generale, il modello potrà essere rappresentato come segue:

X 1 = b 12X 2 + b 13X 3 + … + b 1kX k + e 1 X 2 = b 21X 1 + b 23X 3 + … + b 2kX k + e 2 . . X k = b k1X 1 + b k2X 2 + … + b k,k-1X k-1 + e k

Ognuna di queste equazioni esprime il legame causale tra una variabile dipendente, a sinistra dell'uguale, e un certo numero di altre variabili; queste variabili esprimono da quali variabili essa dipende e i coefficienti b ci dicono di quanto essa dipende da ognuna di tali variabili. Le equazioni saranno tante quante sono le variabili dipendenti. I processi reali vanno intesi come una rete complessa di interazioni e l'approccio a più equazioni permette di definire la struttura di tale rete, da cui la definizione di modelli di equazioni strutturali. La singola equazione del sistema è perciò “equazione strutturale” e i coefficienti b “parametri

strutturali”.

Un'altra ragione giustifica l'attributo “strutturale”: il modello di equazioni strutturali è un “modello” che rappresenta la struttura della realtà, cioè esprime le “reali” leggi che governano

132

il sistema di relazioni, ossia i “veri” dati di cui quelli osservati sono solo un'approssimazione per gli errori di campionamento e di misurazione. Gli errori si riproducono, sempre in maniera diversa da campione a campione, mentre i parametri del modello, se è esatto, non dovrebbero cambiare.

Il passaggio dal modello di regressione ai modelli a equazioni strutturali comporta una completa revisione del processo di stima dei parametri del modello.

Mentre nel caso del modello di regressione è possibile procedere con il metodo di stima dei minimi quadrati2 (Ols), nel caso di un modello costituito da più equazioni, dove le variabili indipendenti di un’equazione risultano le dipendenti di un’altra, si introducono enormi complicazioni nel processo di stima dei coefficienti b. Per esempio, una delle condizioni essenziali della stima dei minimi quadrati, quella dell’indipendenza fra gli errori e e le variabili indipendenti X, normalmente non si verifica più.

Da stimatori “di equazione” occorre passare a stimatori “di sistema”, per cui tutta la procedura di stima deve seguire vie diverse rispetto alla procedura standard dei minimi quadrati.

2 Il metodo dei minimi quadrati (in inglese OLS: Ordinary Least Squares) è una tecnica di ottimizzazione che permette di trovare una funzione che si avvicini il più possibile ad un'interpolazione di un insieme di dati (tipicamente punti del piano). In particolare la funzione trovata deve essere quella che minimizza la somma dei quadrati delle distanze dai punti dati.

133

CAPITOLO 6