• Non ci sono risultati.

3. Selezione a posteriori di piante ibridogene di noce mediante l’analisi di parentela

3.2.4 Analisi dei dati (famiglie half-sib)

I dati ottenuti dall’amplificazione dei frammenti SSR sono stati raccolti mediante Gene Scan Analysis version 3.7 Software (Applied Biosystem), mentre i profili genotipici sono stati assegnati con Genotyper version 3.7 NT Software (Applied Biosystem). Anche in questo studio la tradizionale analisi statistica dei marcatori SSRs codominanti si è dimostrata assai complessa data la presenza di alcuni campioni con un corredo cromosomico atipico. Perciò la matrice dei marcatori SSR è stata costruita secondo il codice binario (presenza di un allele 1, assenza 0). Per ogni possibile coppia di campioni è stato calcolato il coefficiente di similarità genetica Simple Match (SM- Sokal & Sneath 1963), allo scopo di valutare le relazioni genetiche esistenti tra genotipi. Sulla corrispondente matrice SM è stata condotta l'Analisi delle Coordinate Principali (PcoorA) per visualizzare in un plot bi-dimensionale le distanze genetiche relative ai 600 campioni totali collezionati. (ROLF’s 2001, NTSYSpc version 2.1 software package).

Dopo aver rimosso dalla matrice dei dati grezzi SSRs i tre campioni risultati triploidi per almeno un locus (trisomia), è stata effettuata la definitiva identificazione degli ibridi diploidi J. x intermedia Carr. I 459 genotipi appartenenti alle otto famiglie half-sib, sono stati assegnati alle quattro classi già precedentemente definite (capitolo 2): i due subgruppi J. nigra N e J. nigra NC, il gruppo J. regia ed il cluster comprendente gli ibridi diploidi J. x intermedia. Per ottenere ciò sono stati effettuati due differenti test d’assegnazione mediante GENECLASS 2 ver. 2.0 software (http://montpellier.inra.fr/CBGA/softwares/): il metodo frequentistico di Paetkau et al., (1995) ed il metodo parzialmente Baysiano di Rannala & Mountain (1997). Entrambi i metodi

constano di quattro principali steps: 1- Rimozione dell’individuo da assegnare dalla popolazione in cui è stato inizialmente classificato (“leave one out procedure”), 2- Calcolo delle frequenze alleliche in ogni locus per ogni popolazione campionata, 3- Calcolo della probabilità che il genotipo multilocus ha di avere origine da ognuna delle popolazioni (Likelihood), 4- Assegnazione dell’individuo alla popolazione in cui la probabilità del genotipo multilocus è più alta. Più in dettaglio, supponiamo che J loci indipendenti siano stati caratterizzati in I popolazioni e che la frequenza dell’k-esimo allele nel locus j-esimo nella i-esima popolazione sia indicata con pijk. Assumendo valido l’equilibrio di Hardy – Weinberg, la probabilità di un genotipo Ak Ak’ nel locus j-esimo nella i-esima popolazione sarà (pijk)2 con k = k’ e 2 pijk pijk’ con k ≠ k’. Assumendo l’indipendenza dei loci, la probabilità di un genotipo multilocus nella i-esima popolazione sarà data dal prodotto delle probabilità calcolate in ogni locus. Tutti gli individui da assegnare vengono classificati usando la statistica Λ (Paetkau et al., 1995; Rannala & Mountain 1997):

Λ = Lhome / Lmax

dove Lhome è la probabilità di estrarre il genotipo multilocus in esame dalla popolazione in cui è stato inizialmente classificato (Likelihood-home) e Lmax è la probabilità massima del genotipo multilocus di avere origine da una popolazione, compresa la popolazione in cui è stato campionato (Likelihood-max). Un caso particolare è rappresentato dall’assenza di un allele in una popolazione-campione (missing allele). In tal caso la stima della corrispondente frequenza allelica nella popolazione-campione sarà zero per cui la probabilità di osservare un genotipo con tale allele nella popolazione sarà automaticamente nulla e la popolazione verrà così esclusa de- facto. Tuttavia l’allele in questione potrebbe essere un allele raro nella popolazione reale e perciò non rappresentato nella popolazione campione per un semplice errore di campionamento. Paetkau et al., (2004) suggerisce allora di attribuire all’allele mancante una frequenza arbitraria costante pari a 0.01. L’approccio di Rannala & Mountain (1997) è analogo al metodo frequentistico di Paetkau et al., (1995) e differisce solo nelle modalità di calcolo delle frequenze alleliche delle popolazioni. Mentre con il metodo frequentistico si assume che le frequenze alleliche osservate nelle popolazioni campioni siano simili ai “valori esatti”, con il metodo di Rannala & Mountain (1997) invece si stimano a posteriori le frequenze alleliche con un approccio bayesiano. Perciò la probabilità a posteriori di osservare un individuo con un genotipo Ak Ak’ nel locus j-esimo nella i-esima popolazione sarà:

[(nijk + 1/ Kj +1) (nijk + 1/ Kj )] / (nij + 2) (nij + 1) se k = k’ 2 [(nijk + 1/ Kj) (nijk + 1/ Kj )] / (nij + 2) (nij + 1) se k ≠ k’

dove nijk è il numero di alleli k osservati nel locus j-esimo nella i-esima popolazione, nij è il numero di alleli totali nel locus j-esimo nella i-esima popolazione e Kj è il numero di alleli totali osservate in tutte le popolazioni nel locus j-esimo.

In questo studio ai due test di assegnazione è stato incorporato anche il metodo di esclusione – simulazione di Cournet et al., (1999), per avere un’indicazione sulla significatività statistica dell’assegnazione. Tale test consente di escludere una popolazione quando la probabilità che l’individuo in esame derivi da essa è più bassa di un determinato valore soglia (p value = 0.01). Tale valore è stato determinato simulando 1000 genotipi per popolazione mediante il nuovo Monte Carlo resampling method di Paetkau et al., (2004) e calcolando la frequenza del genotipo in esame nella nuova popolazione. Ad esempio se il genotipo è presente una volta su 10.000 simulazioni, la probabilità che esso appartenga alla suddetta popolazione sarà p = 0.0001. La simulazione dei genotipi avviene per estrazione (con risostituzione) di gameti multilocus da individui scelti a caso in ogni popolazione.

Dopo aver condotto le analisi statistiche suddette, per tutti gli individui analizzati (138 + 459) sono stati calcolati i tradizionali indici di diversità genetica: numero di alleli per locus (Na), numero effettivo di alleli (Ne), eterozigosità osservata (Ho) ed attesa (HE) in ogni locus. Per individuare eventuali deviazioni dall’equilibrio di Hardy – Weinberg è stato applicato il test del χ2 (Hedrick 2000). In uno studio che richiede il DNA fingerprinting di un numero così elevato di genotipi, è importante quantificare la capacità dei marcatori molecolari di distinguere due individui differenti. Perciò è stata calcola mediante Paetkau et al., (1998) per ogni locus microsatellitare, la unbiased probability of identity (PIunb), cioè la probabilità che due alberi non imparentati, presi a caso da una popolazione, possano presentare genotipi multilocus identici. Inizialmente Peautkau & Strobeck (1994) calcolarono il valore PI per ogni locus con la seguente formula:

PI = Σpi4 + Σ(2pipj)2 con pi e pj le frequenze dell’i-esimo e j-esimo allele.

Successivamente modificarono l’equazione prendendo in considerazione l’errore nel campionare popolazione di piccole dimensioni (Paetkau et al., 1998):

PIunb = [n3 (2a22– a4)- 2 n2 (a3 + 2a2) + n(9 a2 + 2)-6]/(n-1)(n-2)(n-3)

Indicando con n le dimensioni della popolazione, e con ai la quantitàΣpji (pj le frequenze j-esimo allele).

In popolazioni altamente sub-strutturate e specialmente in popolazioni contenenti molte famiglie di dimensioni ampie, l’equazione teoretica di PIunb potrebbe sottostimare la reale probabilità di trovare genotipi identici. Perciò, per i campioni presi in esame in detto studio, è stata calcolata

anche la probabilità che due piante con genitori comuni presentino genotipi multilocus identici

(PIsib) secondo la formula fornita da Evett & Weir (1998):

PIsib = 0.25 + (0.5Σpi2) + [0.5(0.5Σpi2)2] - (0.25Σpi4)

Tutte le analisi sono state eseguite mediante GenAlEx version 6. Software (Peakall and Smouse, 2005).

Documenti correlati