• Non ci sono risultati.

CCaappiittoolloo IIVV

N/A
N/A
Protected

Academic year: 2021

Condividi "CCaappiittoolloo IIVV"

Copied!
26
0
0

Testo completo

(1)

C

C

a

a

p

p

i

i

t

t

o

o

l

l

o

o

I

I

V

V

Structural Equation Modeling

IV.1 Introduzione

Lo Structural Equation Modelling (SEM) è uno strumento di analisi multivariata usato per testare le ipotesi riguardanti le influenze tra variabili interagenti tra loro

[25].

Le sue origini risalgono agli anni ’20 quando fu sviluppata la cosiddetta Path Analysis, allo scopo di quantificare il flusso causale unidirezionale nei dati genetici. Successivamente, negli anni ’60, è stato ripreso ed approfondito per l’impiego nell’ambito della psicologia, delle scienze sociali e dell’economia. Nel corso degli anni ha ricevuto molte critiche per le limitazioni inerenti al metodo di stima dei parametri basato sui minimi quadrati; critiche che hanno motivato, a partire dagli anni ‘70, una strutturazione tipo GLM.

I ricercatori impegnati nello studio del neuroimaging hanno iniziato ad utilizzare questo metodo di analisi a partire dalla prima metà degli anni ’90 [26] (McIntosh e Gonzales-Lima 1991 e successivi). Le prime esperienze hanno riguardato l’analisi di

(2)

dati radiografici di animali e successivamente dati PET rilevati sull’uomo, in cui il SEM è stato impiegato per identificare i diversi modelli di attivazione dell’apparato visivo ventrale e dorsale (McIntosh 1994), riuscendo a distinguere le strutture di connessione dedicate alla visione spaziale da quelle dedicate invece alla visione di oggetti [27].

Da quel momento in poi il SEM ha avuto una largo utilizzo in molte altre ricerche e soprattutto nell’ambito degli studi di neuroimaging tramite fMRI [28], diventando uno degli strumenti più utilizzati per l’analisi della connettività effettiva.

Nell’ambito dell’imaging neurale, l’idea su cui si basa il SEM è sostanzialmente diversa rispetto agli approcci classici utilizzati per gli studi di connettività. Questi ultimi si basano sulla modellizzazione attraverso la ricostruzione delle singole osservazioni; per esempio nella regressione multipla o nell’ANOVA i coefficienti di regressione o l’errore della varianza derivano dalla minimizzazione della somma delle differenze tra i quadrati delle variabili osservate e di quelle stimate. Al contrario il SEM approccia i dati da un altro punto di vista: invece di considerare le variabili individualmente, pone l’attenzione sulla struttura complessiva delle correlazioni (varianze) che intercorrono tra i dati, incentrando la stima sullo studio della loro matrice di covarianza. In pratica è messa a confronto la matrice di covarianza derivante dalle osservazioni sperimentali con quella ricavata dal modello di connettività ipotizzato e, minimizzando la loro differenza, ottenuta la stima dei parametri liberi del modello.

L’impiego di questa tecnica nell’ambito degli studi neurali trova una giustificazione molto forte rispetto alla sua applicazione in altri campi; infatti in questo contesto la matrice di covarianza assume un significato particolare, ovvero rappresenta il grado con cui due o più regioni sono correlate tra loro cioè in altri termini come sono organizzate le loro connessioni. Inoltre i modelli indagati dal SEM non sono delle semplici supposizioni di connettività ma sono costruiti in base all’effettiva anatomia del sistema cerebrale.

Quindi il SEM persegue il suo obiettivo, che è quello di valutare l’entità delle connessioni neurali tra le varie regioni comprese nel modello, indagando un

(3)

modello di connettività che ha come fondamento l’effettivo collegamento anatomico delle varie regioni e basandosi su un set di variabili derivate da misure oggettive dell’attività neuronale (ottenute per esempio attraverso la fMRI).

D’altra parte invece, nell’ambito delle scienze comportamentali, l’applicazione classica dello structural equation modelling ha come obiettivo l’individuazione di entità recondite, non chiaramente identificabili (come per esempio l’intelligenza), da cui dipendono i comportamenti delle variabili osservate. Questi modelli sono altamente ipotetici e si basano sull’utilizzo delle così dette “variabili latenti” cioè variabili ipotetiche, non misurabili direttamente, che rappresentano le sorgenti nascoste da cui si generano le osservazioni.

Questa è la differenza fondamentale tra i modelli SEM ipotizzati negli studi di neuroimaging, dove non si hanno variabili latenti ma solamente variabili osservate, e quelli adottati negli altri campi di ricerca.

In particolare il nostro studio prende in esame l’applicazione del SEM nell’ambito del neuroimaging tramite fMRI traendo spunto dalle numerose ricerche che sono state avviate negli ultimi anni in questo campo. Di seguito verrà presentato in maniera dettagliata l’impianto matematico su cui è basato il modello e si cercherà di evidenziarne le potenzialità e le eventuali pecche nell’applicazione ai dati ricavati da fMRI.

IV.2 Modello Strutturale e Metodi di Stima dei suoi

Parametri

Il modello matematico ipotizzato dal SEM consiste in un set di equazioni lineari

“strutturali” contenenti le variabili osservate e i parametri che definiscono le

relazioni causali tra le dette variabili. In un certo senso può essere assimilato ad una struttura GLM in cui però le variabili dipendenti sono una combinazione lineare di

(4)

loro stesse e di altre variabili indipendenti, più un termine di rumore gaussiano a media nulla.

Nel sistema di equazioni sono definiti due tipi di dati: le variabili endogene, dipendenti da tutte le altre variabili del modello (o almeno da una parte di esse), e quelle esogene che sono indipendenti ed esterne al modello di connettività stesso. Consideriamo per esempio un set di variabili y, espresse come deviazioni dal loro valor medio (segnali a valor medio nullo), ciascuna descritta da

T

osservazioni, che

rappresentano l’attività rilevata nelle diverse regioni cerebrali. Per ogni istante di osservazione il modello generativo ipotizzato dal SEM assume la forma [19,24,28]:

y

= Β ⋅ + Γ ⋅ +

y

x

z

dove:

y

è il vettore (M x 1) delle variabili endogene;

x

è il vettore (N x 1) delle variabili esogene;

z

è il vettore (M x 1) del rumore;

Β

è una matrice (M x M) contenente i coefficienti delle variabili esogene di connettività del modello;

Γ

è una matrice (M x N) contenente i coefficienti delle variabili

endogene; 4.1)

(5)

Le M variabili endogene y sono “causate” da un set di N variabili indipendenti x, che rappresentano sorgenti di segnale esterne al modello, e/o dalla componente di rumore (M x 1), che costituisce anch’essa un fattore esterno al modello; inoltre le variabili y, essendo partecipi al modello di connettività, possono “causarsi” a vicenda nel senso che ognuna può essere combinazione lineare delle altre (non di se stessa).

La matrice Γ contiene i coefficienti con cui le variabili esogene si combinano per fornire il loro contributo informativo alle variabili endogene. Non è detto che il numero di variabili x sia pari al numero delle y o che ogni variabile endogena dipenda da tutte le esogene, anzi nella maggior parte dei casi queste ultime sono addirittura molto minori rispetto alle prime e quindi spesso la Γ ha la forma di una matrice sparsa.

La matrice Β contiene i coefficienti di connettività del modello: il generico elemento

bij indica la connessione causale che va dalla regione j-esima alla regione i-esima, nel

senso che la prima “causa” la seconda. Gli elementi della diagonale sono tutti fissati a zero (bii = 0) visto che non sono ammesse le autoconnessioni ovvero i legami di

autodipendenza di una regione da se stessa. Inoltre la matrice Β deve essere asimmetrica poiché il SEM non ammette legami reciproci tra due regioni; in effetti il significato di causalità che viene attribuito ai parametri di B rende contraddittoria la condizione di reciproco collegamento tra due regioni. Infine la matrice deve essere tale da rispettare la condizione di non singolarità per la matrice (I- Β), dove I è la matrice identità.

Oltre alla matrice delle connessioni B e alla matrice dei coefficienti “esogeni” Γ, sono di fondamentale importanza nella definizione del modello tutte le matrici di covarianza associate ai vari termini; sono queste infatti che definiscono l’informazione, in termini di varianza, portata dalle variabili osservate e dalla componente di rumore.

Dal punto di vista statistico la covarianza di una variabile discreta è definita in generale come:

(6)

1

1

[

]

1

T T T t i i i

S

Y Y

E y y

y y

N

=

⋅ ⋅

=

=



con

11 12 1 1 2 N p p pN

y

y

y

Y

y

y

y

=

"

#

#

#

#

#

#

#

#

#

"

dove Y è una matrice (p x N) di campioni delle p variabili osservate

y

i (con i che va

da 1 a p) ciascuna delle quali è composta da N campioni; quindi la matrice di covarianza S ha dimensioni (p x p).

Tenendo conto che nel nostro caso il numero di osservazioni è T, si definiscono allora le matrici di covarianza dei vari termini del sistema:

- matrice di covarianza delle variabili esogene (N x N):

E x x

[

T

]

1

1

X

X

t

T

Φ =

=

(fi)

- matrice di covarianza delle variabili endogene (M x M):

1

[

]

1

T t y

E y y

Y Y

T

Σ =

=

(sigma-y) Campioni temporali Variabili osservate

(7)

- matrice di covarianza dell’errore (M x M):

E z z

[

T

]

1

1

t

T

Ψ =

=

Ζ ⋅ Ζ

(psi)

dove le matrici

X

,

Y

e

Ζ

contengono tutte le osservazioni (T) delle variabili x, y e z

ed hanno dimensioni (M x T), (N x T) e (M x T) rispettivamente.

La matrice

Ψ

è solitamente una matrice diagonale data l’ipotesi frequente che le varie “innovazioni” di rumore z siano statisticamente indipendenti l’una dall’altra; la matrice

Σ

y è esprimibile in funzione dei parametri del modello andando ad

esplicitare la variabile y dall’equazione del modello:

1

(

)

(

)

y

=

I

− Β

⋅ Γ ⋅ +

x

z

da cui:

(

) (

) (

) (

(

)

)

(

) (

) (

(

)

)

1 1 1 1 T T y T

E

I

x z

x z

I

I

I

− − − −

Σ =

−Β ⋅ Γ⋅ + ⋅ Γ⋅ +

−Β

=

= −Β ⋅ ΓΦΓ + Ψ ⋅

−Β

Quindi ammettendo di raggruppare tutte le P=M+N variabili osservate, endogene ed esogene, in un unico vettore così composto:

(8)

1 1 N M

x

x

y

y

κ

= ⎢

#

#

1 1 1 2 1 1 2 1 1 1 2 1 1 2 T N N N T T M M M T

x

x

x

x

x

x

y

y

y

y

x

x

κ

= ⎢

"

#

#

#

"

"

#

#

#

"

possiamo esprimere la matrice di covarianza del modello SEM come:

(

)

(

)

(

)

(

) (

) (

(

)

)

1 mod 1 T 1 1 T

I

I

I

I

− − − −

Φ

−Β ⋅Φ

Σ =

−Β ⋅Φ

−Β ⋅ ΓΦΓ+Ψ ⋅ −Β

A primo impatto si nota come il modello SEM sia estremamente ricco di coefficienti che indicano le dipendenze tra i vari fattori, tuttavia c’è un limite strutturale al numero massimo di parametri liberi che è possibile stimare.

Nel caso più generale possibile i parametri da stimare, indicati genericamente con θ, sono: max

(

1)

2

M

M

N

θD

=

+

+

M N

⋅ +

M

+ ⋅

N N

, ovvero la somma degli elementi

“liberi” delle matrici Β, Γ, Ψ e Φ. D’altra parte il numero massimo di equazioni linearmente indipendenti che si può scrivere dal sistema è deducibile dalla matrice di covarianza del modello ed è pari a max

(

) (

1)

2

Eq

M

N

M

N

N

D

=

+

+ +

, dato che la mod

Σ

è una matrice quadrata e simmetrica di dimensioni (M+N) x (M+N). Il

(9)

problema è quindi indeterminato e si capisce che per trovare soluzione ha bisogno dell’introduzione dall’esterno di informazioni aggiuntive che diminuiscano il numero delle sue incognite.

E’ questo il motivo principale per cui il SEM necessita di formulare a priori un modello strutturale. Infatti questo modello, ipotizzato sulla base di informazioni anatomiche e fisiologiche, implica l’esistenza di relazioni causali solamente tra alcune delle variabili in gioco, settando a zero le altre, e in questo modo permette di abbassare il numero di parametri liberi della matrice Β.

In ogni caso il numero massimo di parametri liberi che il SEM può accettare deve essere inferiore al numero di equazioni linearmente indipendenti estraibili dal sistema e quindi occorre imporre la condizione:

max ( . .)

(

) (

1)

2

par lib

M

N

M

N

N

D

=

+

+ +

Prima di procedere con lo studio dei metodi di stima adottati nel SEM occorre sottolineare che non sempre il modello prevede la presenza contemporanea di tutte le variabili; talvolta le variabili esogene x non sono presenti nella struttura ma c’è solamente la componente di rumore z [19,24]; in questi casi il significato della componente z assume un’accezione particolare: essa non rappresenta semplicemente il rumore gaussiano che si somma alle variabili osservate ma contiene l’errore del modello comprensivo sia dei contributi di rumore veri e propri sia tutti degli scarti di varianza che non rientrano nel modello dovuti ad altre sorgenti che non sono esplicitate.

Questo aspetto verrà ripreso ed approfondito in fase di simulazione, andando a testare come la mancata individuazione delle variabili esogene nel modello teorizzato, influenzi la varianza del termine di rumore.

(10)

Solitamente per la rappresentazione del modello SEM ci si avvale di diagrammi di connettività costituiti da blocchi (rettangolari per convenzione) che rappresentano le variabili endogene osservate, connessi tra di loro con frecce unidirezionali corrispondenti ai coefficienti di legame; ad ogni blocco arrivano anche i contributi delle variabili esogene, rappresentate da altrettanti blocchi circolari, e delle componenti del termine z.

Per comprendere meglio la situazione riportiamo un esempio (figura 4.1) in cui si considerano tre variabili osservate, ognuna “generata” (oltre che dai legami di connettività) da altrettante variabili indipendenti esterne che chiameremo genericamente e ; tali variabili rappresentano il residuo di varianza che non rientra nel modello e possono essere interpretate sia come le variabili esogene x vere e proprie sia come la componente di rumore z , oppure come un’interazione di entrambi i termini.

Figura 4.1 : esempio di un semplice modello di connessione; y sono le variabili osservate, le frecce unidirezionali corrispondo ai parametri della matrice B; le variabili z rappresentano i residui di varianza che non sono spiegati dal modello.

(11)

La forma algebrica relativa al modello riportato nell’esempio grafico è:

I coefficienti b insieme alla matrice di covarianza del termine di rumore z rappresentano i termini incogniti (parametri liberi) del modello. Si osserva che la matrice B non presenta termini simmetrici ed ha gli elementi diagonali identicamente nulli. Gli altri coefficienti di connettività che non sono contemplati dal modello sono fissati a zero (

b

12

=

b

23

=

b

31

=

0

).

IV.2.1 Stima del Modello attraverso il Maximum

Likelihood Extimator

L’idea su cui si fonda la stima dei parametri liberi contenuti nel modello è il confronto della matrice di covarianza ricavata dal modello stesso con quella calcolata sui dati osservati; andando a minimizzare la loro differenza attraverso degli stimatori opportuni si riesce a determinare i valori da attribuire al set dei parametri tale da avere il miglior fitting del modello sui dati reali.

Lo stimatore più frequentemente impiegato è la funzione di Maximum Likelihood

[19,28] (vedi appendice A); esso si fonda sull’ipotesi di indipendenza statistica delle osservazioni e richiede la conoscenza a priori della pdf della variabile aleatoria osservata. 1 13 1 1 2 21 2 2 3 32 3 3

0

0

0

0

0

0

y

b

y

z

y

b

y

z

y

b

y

z

⎡ ⎤ ⎡

⎤ ⎡ ⎤ ⎡ ⎤

⎢ ⎥ ⎢

=

⎥ ⎢ ⎥ ⎢ ⎥

+

⎢ ⎥ ⎢

⎥ ⎢ ⎥ ⎢ ⎥

⎢ ⎥ ⎢

⎥ ⎢ ⎥ ⎢ ⎥

⎣ ⎦ ⎣

⎦ ⎣ ⎦ ⎣ ⎦

(12)

Nel caso del SEM la prima assunzione che viene fatta è considerare i segnali del modello indipendenti da campione a campione, cioè ogni osservazione del set di variabili è indipendente dalle altre. Questo ci permette di scrivere la funzione di verosimiglianza (likelihood) dei dati osservati come prodotto dei singoli likelihood relativi alle singole osservazioni del set di dati:

(

)

(

)

1 T t t

p

θ

p

κ θ

=

Κ |

=

|

dove il pedice t varia tra 1 e T e sta ad indicare la t-esima osservazione (istante temporale) del set completo dei dati κ.

La seconda ipotesi che viene assunta dal SEM è che i campioni delle variabili osservate siano distribuiti secondo una pdf gaussiana, a media nulla e con varianza

( )

mod

θ

Σ

dipendente dai parametri del modello (θ). In termini analitici:

(

t

)

(

t

; 0,

mod

( )

)

p

κ θ

|

=

N

κ

Σ

θ

Quindi andando a ricavare la funzione logaritmica del Likelihood, supponendo di utilizzare uno stimatore polarizzato della matrice di covarianza campionaria

1

1

T T t t t

C

y y

T

=

=

(13)

( )

( )

( )

(

( )

)

1 m od m od 1

1

ln

ln 2

2

2

2

T T t t t

T

P T

θ

θ

π

κ

θ

κ

=

Λ

= −

Σ

Σ

Dove ricordiamo che P è il numero totale di variabili del modello e T è il numero di osservazioni di ogni variabili.

Osservando che l’ultimo termine è uno scalare e che la traccia di uno scalare è il numero stesso, sfruttando poi la proprietà commutativa della traccia [tr(AB)=tr(BA)] e introducendo la matrice di covarianza campionaria dei dati κ

1

1

T T t t t

S

T

=

κ κ

=

, possiamo ottenere la forma:

( )

( )

( )

(

(

( )

)

1

)

m od m od

ln

ln 2

2

2

2

T

P T

T

T r S

θ

θ

π

θ

Λ

= −

Σ

⋅ Σ

Se avessimo supposto di utilizzare una stima non polarizzata della matrice di covarianza campionaria allora avremmo ottenuto la medesima espressione ma con il termine (T-1) al posto dei T.

Semplifichiamo l’espressione eliminando i termini indipendenti dai parametri del modello, otteniamo la forma definitiva della funzione di Maximum Likelihood:

( )

( )

(

(

( )

)

1

)

m od m o d

1

ln

2

T

T r S

θ

− ⎡

θ

θ

Λ

= −

Σ

+

⋅ Σ

(14)

Da cui è possibile ottenere la stima dei parametri andando a massimizzare la funzione rispetto a θ (vedi appendice A).

Per concludere questo paragrafo occorre precisare che l’identificabilità del modello stimato dipende dall’unicità del vettore dei parametri (

θ

ˆ) che massimizza la funzione di likelihood. Questo significa andare a testare se nei dintorni di

θ

ˆ ci siano altri set di parametri che hanno lo stesso likelihood. Un test utile per valutare l’identificabilità di un modello SEM è lo studio della matrice Hessiana della funzione Λ

( )

θ

, ovvero la matrice delle derivate parziali del secondo ordine fatte rispetto ai parametri θ.

Si può affermare con certezza che i modelli che non presentano loop, ovvero connessioni reciproche tra due regioni, sono identificabili, ma è difficile capire se i modelli che invece presentano loop siano identificabili oppure no. Questo è uno dei motivi per cui non vengono prese in considerazione le connessioni bidirezionali, oltre al fatto che tali modelli hanno anche scarso interesse biologico.

IV.2.2 Bontà del modello: il test

χ

2

Spesso per confrontare le caratteristiche di due modelli è utilizzato il così detto Likelihood Ratio (LR) [19,23,28,29].

Consideriamo le funzioni di verosimiglianza dei due modelli fittati indiciati con m=i e m=j : p

(

Ζ |

θ

,m=i

)

e p

(

Ζ |

θ

,m= j

)

; il rapporto LR è definito come (si è

indicato con L

( )

θ

i e

L

( )

θ

j i log-Likelihoods dei due modelli):

(

)

(

)

,

,

ij

p

m

i

R

p

m

j

θ

θ

Ζ |

=

=

Ζ |

=

ln

( )

R

ij

=

L

( )

θ

i

L

( )

θ

j

(15)

Il risultato importante è che, sotto l’ipotesi nulla che i due modelli siano identici, e per un numero di campioni sufficientemente elevato, il fattore

− ⋅

2 ln

( )

R

ij

si

comporta come una variabile con funzione di distribuzione chi-quadrato (

χ

2) (vedi appendice B) i cui gradi di libertà sono dati dalla differenza del numero di parametri dei due modelli. Questo costituisce un importante strumento di confronto tra i due modelli stimati attraverso il maximum likelihood.

Consideriamo adesso il caso particolare in cui si desideri valutare la bontà del fitting di un solo modello, che chiameremo “modello 0”. Per fare questa operazione occorre identificare un modello di riferimento, che chiameremo “modello 1”, con cui andare a confrontare le funzioni

L

0ed

L

1 dei due path di connettività. Come riferimento si

sceglie, tra tutti i possibili modelli adottabili, quello meno restrittivo di tutti (ovvero il più complesso) a cui è associato il numero di parametri liberi massimo possibile. Questo modello è ottenuto semplicemente uguagliando la sua matrice di covarianza,

Σ

mod, alla matrice campionaria dei dati reali, S.

Semplificando la notazione indicando la matrice di covarianza del modello semplicemente con

Σ

e ricordando inoltre che P è il numero totale di variabili osservate (esogene ed endogene) che corrisponde anche alla dimensione della matrice di covarianza, si ottiene l’espressione:

1

(

(

1

)

)

(

)

1

1

ln

ln

2

2

T

T

L

= −

S

+

Tr SS

= −

S

+

P

0

(

(

1

)

)

1

ln

2

T

L

= −

Σ +

Tr S

Σ

(16)

A questo punto è possibile scrivere il rapporto dei likelihood in forma logaritmica e il corrispondente valore

χ

2:

(

01

)

( )

(

( )

1

)

1

ln

ln

ln

2

T

R

= −

− ⎡

Σ

θ

+

T r S

Σ

θ

S

P

χ

2

= −

2 ln R

(

0 1

)

da cui la forma definitiva:

χ

2

=

(

T

1

)

F

( )

θ

F

( )

θ

=

ln

Σ

( )

θ

+

T r

(

S

Σ

( )

θ

−1

)

ln

S

P

I gradi di libertà (k) associati alla distribuzione asintotica di

χ

2 sono pari alla

differenza tra i gradi di libertà del modello 1 e quelli del modello 0 (q):

(

1

)

2

P

P

k

=

+

q

, dove P è il numero totale di variabili osservate. Andando ad

applicare a questa variabile il relativo test

χ

2, si ottiene una valutazione della bontà

del modello fittato (vedi appendice B).

Fissata una soglia limite sul p-value che indichiamo per esempio con

ˆp

, si decide di scartare il modello 0 se il p-value associato al modello è inferiore alla soglia

ˆp

; in altri

(17)

termini significa scartare il modello se la sua matrice di covarianza è significativamente differente dalla matrice di covarianza campionaria calcolata sui dati.

Per rendere più chiaro il criterio di scelta basta osservare che il modello stimato è tanto più buono quanto più il rapporto

R

01 tende all’unità ovvero il suo logaritmo

tende a zero. E’ quindi evidente che l’ipotesi nulla (modello 0 = modello 1) è tanto più vera quanto più piccolo è il valore

χ

2 e quanto più vicino all’unità è il p-value associatole.

Per concludere questo paragrafo riportiamo due osservazioni sull’utilità della funzione F

( )

θ

appena introdotta. Innanzi tutto F

( )

θ

rende possibile ottenere il

maximum likelihood andando a minimizzare lei stessa invece di lavorare su L

( )

θ

,

infatti ignorando i termini fissi delle due espressioni si ha: F

( )

θ

= −L

( )

θ

. Inoltre

permette di effettuare facilmente confronti tra due generici modelli andando a scrivere il likelihood-ratio come: 2

(

) ( )

(

( )

)

1 2

1

T F F

χ

= −

θ

θ

. E’ per questo motivo che il test LR è noto anche come test delle differenza chi-quadrato.

IV.2.3 Violazione delle Ipotesi

I presupposti fondamentali su cui si basa la stima dei parametri del modello SEM è che i campioni temporali delle variabili osservate siano statisticamente indipendenti tra loro e che la loro distribuzione di probabilità sia gaussiana.

E’ stato riscontrato [30] che la violazione dell’ipotesi di gaussianità multivariata non compromette la stima dei parametri ottenuti con il Maximum Likelihood, ma influenza solamente la stima dell’errore commesso, gonfiando il valore dei test statistici usati per valutare la bontà dei parametri e del fit del modello sui dati reali. Per quanto riguarda invece il caso in cui si abbiano osservazioni dipendenti l’una dall’altra, questo fa cadere l’assunzione su cui si basa la stima dei parametri del

(18)

modello, provocando possibili errori nella valutazione della matrice di covarianza e dei parametri del modello stesso.

Nel caso di dati acquisiti tramite fMRI queste due assunzioni vengono a mancare e quindi è possibile che, nonostante la stima dei parametri del modello sia corretta, la maggior parte dei tests di significatività applicati al modello non diano risultati corretti o realistici.

Questi problemi sono stati affrontati in studi abbastanza recenti che hanno avanzato alcune soluzioni possibili. Per quanto riguarda il problema della indipendenza dei campioni osservati, è stato proposto uno studio euristico [31] per il calcolo dell’effettivo numero di campioni indipendenti delle serie temporali, da utilizzare nel calcolo dei parametri statistici al posto del numero totale di campioni temporali Il calcolo si basa su un modello autoregressivo della correlazione e comunque è un aggiustamento “ad hoc” la cui correttezza non è ancora del tutto chiara.

Per risolvere invece il problema della non gaussianità della distribuzione vengono impiegati metodi di stima alternativi al maximum likelihood come per esempio la funzione di discrepanza Weighted Least Squares (WLS) [24] (vedi appendice C):

( )

t 1

( )

W L S

F

=

s

σ

Ω

W

s

σ

Ω

dove s rappresenta il singolo elemento della matrice di covarianza campionaria (S) e

( )

σ θ

contiene il corrispondente elemento della matrice di covarianza implicata dal modello di connettività. La matrice W invece è la matrice dei pesi con cui si vanno commisurare le varie serie temporali. Questo metodo è stato sviluppato specificatamente per i dati non normali, tuttavia può introdurre qualche problema infatti in fase di simulazione e di studio è stato mostrato che in alcuni casi si comporta in modo polarizzato ed inoltre raggiunge risultati poco buoni con un numero di campioni inferiore a 1000. Il che include anche il caso di dati fMRI.

(19)

Una via alternativa per trattare con dati non gaussiani è quella di usare un metodo non parametrico, per esempio il Bootstrapping [31]. Con questo metodo si riesce a stimare la variazione dei valori di una particolare statistica evitando di dover fare assunzioni troppo stringenti. I dati sono analizzati come al solito con la funzione di maximum likelihood, ma in essi sono inseriti un certo numero di dataset di bootstrap. Ogni dataset di bootstrap è costruito riscrivendo le osservazioni dei dati originali in modo casuale e rimpiazzandone una ogni tanto in modo da ottenere alla fine un dataset di osservazioni di lunghezza uguale all’originale. Tuttavia occorre sottolineare che questo metodo non porta a risultati accurati quando lavora con osservazioni dipendenti temporalmente come nel caso dei dati fMRI.

Concludendo si può affermare che ci sono varie tecniche che mirano a risolvere i problemi legati alla non veridicità delle ipotesi formulate nel SEM, tuttavia queste non sembrano essere fino ad oggi troppo efficaci.

In effetti in letteratura la maggior parte degli studi su dati ricavati da fMRI affrontano l’analisi dei modelli SEM implementando il metodo di stima classico attraverso il maximum likelihood senza soffermarsi troppo sui problemi legati alle ipotesi sui dati, che del resto non vanno a peggiorare troppo pesantemente la bontà dei parametri di connettività stimati.

Il motivo di questa “indifferenza” alla violazione delle ipotesi risiede nel fatto che il metodo SEM è utilizzato soprattutto in senso confermativo e quindi l’importanza dei risultati trovati risiede nei valori stessi attribuiti ai vari coefficienti di connettività piuttosto che nei parametri statistici di bontà del modello.

E’ perciò auspicabile che il SEM si fondi su una conoscenza dell’anatomia e della fisiologia delle regioni cerebrali più dettagliata possibile; in questo modo il suo impiego può essere di grande utilità nel confermare la forza delle connessioni cerebrali, là dove siano gia note, anche dal punto di vista quantitativo, oppure suggerire quali siano le relazioni causali più o meno forti la dove si conoscano solamente le regioni implicate ma non siano certe le relazioni di causalità.

(20)

IV.3 Il software: LISREL

Uno dei software più completi ed utilizzati per l’implementazione dello Structural Equation Modeling è LISREL (ultima versione: 8.50), che è l’abbreviazione di LInear Structural RELation.

Il programma è stato realizzato da Joreskog alla fine degli anni ’80 come strumento per l’analisi di modelli lineari attraverso lo studio e la modellizzazione della loro matrice di covarianza; nel corso degli ultimi venti anni si è evoluto e specializzato nell’implementazione del SEM offrendo, nella versione attuale, un’ampia possibilità di scelta per la modellizzazione dei diagrammi di connessione che possono comprendere o meno anche le così dette variabili latenti.

Oltre all’aspetto SEM, il LISREL offre anche una vasta gamma di applicazioni per l’analisi dei dati in senso generico, implementando metodi statistici come GLM, modelli ricorsivi inference-based e Hierarchical Linear Modelling. In sostanza questo software dà enormi possibilità per l’analisi statistica e si propone come un pacchetto completo di metodi di data-anlysis.

Il modello matematico su cui si basa il LISREL, nella sua forma più generale, consiste in un set di equazioni lineari strutturali in cui compaiono variabili osservate (i dati sperimentali) e variabili latenti (ipotetiche) che non sono direttamente misurabili ma sono relazionate alle prime. Si assume che nel modello ci sia una struttura causale tra le variabili latenti e che le variabili osservate siano indicatori di queste variabili nascoste.

Il modello generale di lisrel si divide in due parti: un modello strutturale generativo ed un modello di misura. Il primo costituisce il vero e proprio modello SEM (nella forma in cui è stato presentato nel paragrafo precedente; vedi eq. 4.1), comprensivo di variabili endogene ed esogene e della componente di rumore, che definisce le relazioni tra le variabili latenti del sistema. Il secondo invece definisce come le variabili latenti dipendono, o sono indicate, dalle variabili osservate.

(21)

η

= Β⋅ + Γ ⋅ +

η

ξ ζ

y

=

L

y

⋅ +

η ε

x

=

L

x

⋅ +

ξ δ

dove η e ξ sono le variabili latenti del modello, rispettivamente endogene ed esogene di dimensioni (m x 1) e (n x 1); y ed x sono le variabili osservate che indicano le rispettive variabili latenti η e ξ di dimensioni (p x 1) e (q x 1); i termini ε (p x 1) e δ (q x 1) rappresentano il rumore di misura delle variabili osservate; le matrici

L

y e

L

x, (p x m) e (q x n), contengono rispettivamente i coefficienti di

regressione di y su η e di x su ξ. Il vettore ξ (m x 1) rappresenta l’errore dell’equazione nella relazione strutturale tra η e ξ. Infine le matrici B e Γ hanno esattamente lo stesso significato assunto nell’equazione 4.1, con l’unica differenza che sono riferite a variabili latenti invece che osservate.

L’ipotesi minima posta dal LISREL è che le componenti di rumore siano incorrelate con le rispettive variabili e tra di loro.

Oltre ai termini delle equazioni, fanno parte del modello anche le matrici di covarianza:

Φ =

cov x

( )

(n x n) •

Ψ =

cov

( )

ζ

(m x m) •

θ

ε

=

cov

( )

ε

(p x p) •

θ

δ

=

cov

( )

δ

(q x q)

Modello Strutturale Generativo

(22)

Questa forma così generale del modello LISREL può essere adattata alle esigenze specifiche, dettate dal particolare modello o esperimento, andando a settare i parametri del modello e la forma delle matrici che li contengono:

, , , , , , ,

x y

L L

Β Γ Ψ Φ

θ θ

ε δ . Ognuna di esse può essere “fissata”, ovvero possono essere

impostati i sui parametri su valori precisi, oppure “costretta”, cioè i suoi parametri possono essere posti come funzioni di altri parametri liberi, o infine “liberata” cioè lasciati i suoi coefficienti completamente liberi.

Come per tutte le matrici implicate nel modello, anche per le matrici di covarianza del rumore (

Ψ

,

θ

ε

e

θ

δ ) è possibile scegliere quali elementi entrino a far parte del

set di parametri liberi del modello; tuttavia di solito la forma di queste matrici è diagonale poiché si fa l’ipotesi che le componenti di rumore siano indipendenti tra loro e quindi che la loro matrice di covarianza sia appunto diagonale.

Per quanto riguarda la matrice di covarianza delle variabili osservate implicata dal modello, essa è costruita nello stesso modo descritto nel paragrafo IV.2 (vedi equazione 4.3) ma assume una forma più generica vista la presenza dei termini latenti:

[

]

(

)

cov

y x

,

Σ =

((p+q ) x (p+q))

(

t

)

t t t y y e y x t t t t x y x x d

L A

A L

L A

L

L

A L

L

L

θ

θ

ΓΦΓ + Ψ

+

ΓΦ

Σ = ⎢

ΦΓ

Φ +

(23)

Questa è la matrice che contiene i parametri liberi del modello SEM e il principio con cui avviene la loro stima è quello di andare a confrontare, attraverso algoritmi iterativi, la matrice Σ con la matrice di covarianza campionaria (da notare:

(

)

1

A

=

I

− Β

− ).

Il LISREL lavora appoggiandosi sul sottoprogramma Simplis che permette di impostare, attraverso un listato di istruzioni, le caratteristiche del modello dichiarando la forma delle matrici ed il numero dei loro elementi. I set di campioni su cui lavora il programma vengono passati al LISREL in vari modi, uno dei quali è sottoforma di file testo, organizzati per colonne inserendo prima i campioni delle variabili osservate endogene e dopo quelle osservate esogene.

Recentemente è stata introdotta anche un interfaccia grafica (file .PTH) che permette di specificare le caratteristiche del modello costruendo uno schema a blocchi che raffiguri le variabili in gioco e le loro connessioni (fig 4.2).

Figura 4.2: Interfaccia grafica per l’impostazione del modello di connettività SEM

(24)

I blocchi rettangolari rappresentano le variabili osservate mentre quelli ellittici rappresentano le variabili latenti; le frecce che uniscono i blocchi rappresentano i coefficienti delle varie matrici di connessione Lx,Ly, ,Β Γ , mentre le frecce laterali

che puntano sul singoli blocchi rettangolari rappresentano le varianze delle singole variabili.

Il programma permette di impostare diversi metodi di stima dei parametri, tra cui il classico Maximum Likelihood Extimator (come default) o il WLS (dati non gaussiani).

Una volta lanciato il programma vengono creati due file in cui si leggono i risultati della stima. Il primo file ha estensione .PTH e dà la rappresentazione grafica del path-diagram in cui sono inseriti tutti i valori dei parametri stimati e gli indici di bontà del modello più significativi (fig 4.3).

Figura 4.3: Diagramma di connettività prodotto da Lisrel a seguito dell’elaborazione in cui vengono indicati i valori dei parametri stimati

(25)

Il secondo file prodotto ha estensione .OUT, è un file testo che fornisce in forma estesa tutte le informazioni dell’analisi effettuata: le matrici di connessione, le matrici di varianza-covarianza e tutti i parametri di bontà del modello.

Per quanto riguarda quest’ultimo punto, occorre sottolineare che Lisrel, oltre al classico

χ

2 (e p-value associato), calcola molti altri parametri di bontà che sono stati

introdotti nelle evoluzioni successive del programma. La necessità di introdurre altri parametri è sorta dal fatto che il test chi-quadrato ha una forte dipendenza dal numero di parametri del modello mentre sarebbe gradito avere a disposizione un parametro “assoluto” che indichi la bontà del modello tenendo conto sia della qualità del fitting sia del numero di parametri liberi del modello.

Gli indici prodotti sono:

GFI (Goodness of Fit) e AGFI (Adjusted GFI) introdotti per primi da Joreskog e Sorbom (1989)

TLI (Tucker-Lewis index), chiamato anche NNFI (Non-Normed Fit Index), e NFI (Normed Fit Index) (Bentler e Bonett)

RMSEA

Fra tutti quello più recente e significativo è il Root Mean Square Error of Approximation (RMSEA) che va a testare la bontà con cui un dato modello approssima quello vero. Se l’approssimazione è buona allora l’indice è piccolo al limite tendente a zero.

Il più grosso vantaggio che ci offre programma LISREL è la possibilità, grazie alla grande flessibilità del modello implementato, di applicare l’analisi SEM nei settori di ricerca più diversi andando a soddisfare esigenze talvolta anche molto distanti tra loro. Per esempio, nell’ambito delle scienze comportamentali gli studi strutturali tipo SEM richiedono l’utilizzo delle variabili latenti, mentre in altri campi, come per esempio il neuroimaging, non si ha questa necessità e anzi l’analisi si basa esclusivamente sui dati osservati. In questo senso si esprime la flessibilità del

(26)

software: settando opportunamente le varie matrici del sistema, è possibile affrontare uno studio di connettività effettiva (biologica) tra aree cerebrali escludendo completamente dal modello le variabili latenti.

Quest’ultimo è esattamente il problema che andiamo ad affrontare noi in questo lavoro di tesi e a tal proposito riportiamo di seguito, a titolo puramente esemplificativo visto che l’argomento verrà approfondito adeguatamente nel capitolo successivo, le condizioni da imporre nel programma affinché implementi il modello strutturale che ci interessa:

x

L

=

I

y

L

=

I

y

= Β⋅ +Γ⋅ +

y

x z

0

e

= =

d

Tale equazione rappresenta esattamente il modello di stima a cui si fa riferimento negli studi di connettività effettiva attraverso lo Structural Equation Modeling e ciò dimostra l’effettiva capacità del programma di affrontare questo tipo di problemi.

Figura

Figura 4.1 : esempio di un semplice modello di connessione; y sono le variabili osservate, le frecce unidirezionali corrispondo ai parametri della matrice B; le variabili z  rappresentano i residui di varianza che non sono spiegati dal modello
Figura 4.2: Interfaccia grafica per l’impostazione del modello di connettività SEM
Figura 4.3: Diagramma di connettività prodotto da Lisrel a seguito dell’elaborazione in cui vengono indicati i valori dei parametri stimati

Riferimenti

Documenti correlati

[r]

Hence, since the coefficients of P (x) are nonnegative, it suffices to show that the coefficients of the monomials of degree

una successione di variabili casuali scalari i.i.d... Sia (X n ) n≥1 una successione di variabili

1. Quattro rilevazioni di una certa variabile danno i seguenti risultati: 0, −3, 1, x, dove x ` e un valore incognito.. Si vuole capire quale di due farmaci sia pi` u efficace

Si supponga che il primo macchinario abbia una produzione doppia rispetto agli altri due, cio` e una scatola scelta a caso ha probabilit` a 1/2 di essere prodotta dal primo

Supponiamo che il professore, correggendo i com- piti, individui segni di copiatura con probabilità 0.6 quando ci sono, e con prob- abilità 0.05 quando non ci sono (cioè

• Ci dicono che un certo treno percorre una certa tratta in 45 minuti in media, con deviazione pari a 2 minuti (che non mettiamo in dubbio).. A priori `e chiaro che il vero tempo

Un massimo o minimo vincolato per una funzione di due variabili è un massimo o minimo da ricercarsi non su tutto il dominio ma all'interno del sottoinsieme del dominio che