• Non ci sono risultati.

CAPITOLO IV Metodi statistici

IV.3. Stima del Linkage Disequilibrium

Quando due o più loci si trovano fisicamente sullo stesso cromosoma e per questo sono ereditati insieme con una frequenza maggiore di quella attesa nell'ipotesi che la segregazione fosse casuale, si parla di Linkage Disequilibrium. Maggiore è la distanza fra

omologa o non reciproca (conversione genica), causi il riassortimento degli alleli provocando quindi la diminuzione del LD fra questi ultimi. Misurare il livello di LD permette quindi di inferire l’entità degli eventi di ricombinazione genica ed il ruolo di questi ultimi nel modellare la diversità genetica osservata in una specifica regione cromosomica. Sono stati sviluppati diversi metodi per la valutazione del livello di LD:

a) Il primo coefficiente proposto per la misura del Linkage Disequilibrium D si esprime

come: j i ij ij p p p D = −

dove pij è la frequenza dell’aplotipo che presenta l’allele i al primo locus e l’allele j al

secondo, mentre pi e pj sono le frequenze degli alleli i e j, rispettivamente. Se non c’è associazione, ci si aspetta che il valore di pij coincida con il prodotto di pi e pj. Fin dai primi

momenti della sua applicazione è emerso che il valore di Dij era influenzato dalle

frequenze alleliche, variando tra un minimo ed un massimo non definiti a priori. È stato quindi proposto di utilizzare il coefficiente Dij standardizzato per il massimo valore che

può assumere (Dij max), date le frequenze alleliche (Lewontin 1964). Questo indice,

definito D’, si esprime come:

max ' ij ij ij D D D =

dove Dij max ha uno dei seguenti valori:

min [pi pj, (1-pi) (1-pj)] se Dij<0 min [(1-pi) pj, pi (1-pj)] se Dij>0

A seguito della standardizzazione questo indice risulta indipendente dalle frequenze alleliche, essendo definito come la proporzione del massimo valore raggiungibile da D. L’indice varia quindi fra +1 e -1 in modo indipendente da pi. Il segno è irrilevante, in

quanto dipende dalla scelta (arbitraria) degli alleli i e j rispetto alla loro alternativa. D’=0 indica assenza di associazione (indipendenza) fra i loci considerati.

b) Un'altra misura successivamente proposta per valutare il livello di LD è il

) 1 ( ) 1 ( 2 2 j j i i ij p p p p D r − − =

Il parametro r2 riflette il potere statistico nel rilevare il LD tra loci e risulta

particolarmente informativo negli studi di associazione in quanto è inversamente proporzionale alla dimensione del campione (n) richiesta per identificare un'associazione con la patologia in esame, dato un rischio genetico fissato. Infatti, se si considera un qualsiasi marker adiacente ad uno SNP causale, il prodotto nr2 è corrisponde al chi

quadrato di Pearson per una tabella di contingenza 2x2 dove le frequenze aplotipiche attese sono calcolate assumendo indipendenza tra i due loci. Pertanto, un elevato valore di r2 permette di individuare la presenza di "un'associazione indiretta" tra il marcatore in studio ed il fenotipo patologico.

c) A partire dagli anni '70 molti altri parametri sono stati proposti per stimare

l'associazione allelica. Tuttavia alcune di queste metriche si sono rivelate particolarmente sensibili alle variazioni delle frequenze alleliche e, quindi, poco adatte allo studio del LD in differenti regioni cromosomiche e in diverse popolazioni (Morton 2006). Nel del presente studio viene utilizzata una misura di associazione allelica alternativa, caratterizzata da solide basi teoriche e meno influenzata dalle frequenze alleliche rispetto le altre metriche (Collins et al. 2001).

Collins e Morton sviluppano questa metrica nel 1998 descrivendo l'associazione allelica tra coppie di loci in termini di probabilità di associazione, espressa come ρ, alla generazione i-esima partendo da una 'popolazione fondatrice' (Collins & Morton 1998). Data una coppia di loci diallelici, un aplotipo scelto casualmente (random) alla generazione t è identico per discesa ad uno specifico aplotipo nella generazione precedente con una probabilità di 1/2Nt 1, dove Niè la dimensione effettiva dellapopolazione. La probabilità

complementare che un aplotipo selezionato in maniera random, non sia interessato da un evento di ricombinazione alla generazione t-1, è data da ρt 1 (Morton et al. 2001). In tal

modo, la probabilità di associazione viene espressa come:

[

1/2 1 (1 1/2 1) 1

]

) 1 )( 1 ( − − + − = t t t t

ν

θ

N N

ρ

ρ

e può essere suddivisa in due componenti:

ct rt

t

ρ

ρ

in cui: t N rt

ρ

0

e

(1/2 ν θ)

ρ

=

− + +

[

N t

]

ct

L

1

e

(1/2 ν θ)

ρ

=

− + +

dove ρrt è la componente dell'associazione che declina dalla 'generezione fondatrice' 0

ρ , ρ ct è la componente che aumenta a causa della deriva genetica dalla popolazione fondatrice, θ rappresenta la frazione di ricombinazione e ν è il tasso di mutazione. In tal

modo, all'aumentare del numero di generazioni, ρrt tende a zero e ρct tende ad L. L'asintoto L rappresenta l'associazione residua (bias) o spuria a larghe distanze e può essere minimizzato considerando campioni di grandi dimensioni. Da un punto di vista matematico, L è il valore che assume ρt quando e-θt tende a zero. Per N costante,ρt può essere quindi espressa come:

L

Me

L

t

t

=

θ

+

ρ

(1

)

Il parametro M, l'intercetta della funzione, è dato da: ( ) ( 1/2 ) /(1 )

0 Le L

M = ρ −ν+ Nt e rappresenta la massima associazione quando è pari a zero. Il parametro M fornisce l’interpretazione evolutiva dell’equazione: un valore di M non significativamente diverso da 1 è consistente con un'origine monofiletica degli aplotipi dalla linea fondatrice, mentre un valore di M inferiore a 1 implica un'origine polifiletica.

Anziché esprimere la probabilità di associazione in funzione del tempo, risulta più conveniente utilizzare una misura di distanza lungo i cromosomi (Morton et al. 2001). Ciò può essere ottenuto sostituendo il fattore θt con εd dove il parametro ε rappresenta il

declino esponenziale della probabilità di associazione all’aumentare della distanza d tra due loci SNPs espressa in chilobasi (Kb) (Maniatis et al. 2005). In tal modo, la probabilità di associazione può essere riformulata in funzione della distanza secondo l’equazione:

(

L)Me

d

L

d

=

−ε

+

Questa equazione è del tutto analoga al modello di Isolamento per Distanza formulato da G. Malecòt nel 1948.

La metrica è unica e peculiare nel descrivere il pattern di LD tra diverse popolazioni e differenti regioni cromosomiche (Morton et al. 2001) in quanto il suo calcolo è basato su solide teorie evolutive (Shete 2003) ed è applicabile sia a campioni costituiti da gruppi famigliari sia a campioni formati da individui non imparentati (Zhang et al. 2002, 2004b). Inoltre la funzione [1] è caratterizzata da parametri biologicamente interpretabili e rappresenta la base per la costruzione di mappe metriche espresse in Unità di Linkage Disequilibrium (LDUs) (Collins et al. 2004).

Documenti correlati