2. MATERIALI E METODI 19
2.3 ANALISI DEI DATI 28
2.3.1 Analisi preliminari 28
Prima di procedere ad analizzare i dati presenti nel database e ad individuare le relazioni tra variabili biotiche e abiotiche da studiare è stato necessario procedere per i seguenti punti per assicurarsi di confrontare dati coerenti ed evitare l’inclusione di variabili ridondanti:
• sistemazione del database; • preselezione dei dati; • selezione di ridondanza;
• selezione delle relazioni da approfondire.
2.3.1.1 Sistemazione del database
Per poter utilizzare il database ottenuto bisogna:
-‐ controllare l’integrità delle informazioni inserite;
-‐ valutare la distribuzione statistica e la presenza di possibili outlayer all’interno di dei valori di ciascuna variabile;
-‐ controllare la presenza di errori.
Questo permette di evitare di imbattersi in valori anomali che falserebbero le successive analisi. Questo rappresenta il database finale utilizzato per le successive analisi statistiche.
2.3.1.2 Preselezione dei dati
Il database così ottenuto non è però omogeneo e durante questa fase si è eseguita una preselezione delle variabili biotiche presenti nel database tenendo conto della numerosità delle osservazioni.
Vengono individuati dei criteri usati per decidere se una variabile biotica può essere considerata nelle analisi successive o meno. La preselezione viene effettuata per mezzo di una valutazione che segue tre fattori:
1. il numero totale di osservazioni presenti per ciascuna variabile: tra tutti i criteri il numero di osservazioni presenti per una variabile è sicuramente il più importante e attraverso questo viene effettuata una prima scrematura delle variabili biotiche da prendere in considerazione. È stata stabilita la soglia minima di 150 osservazioni per ritenere una variabile biotica valida e quindi le variabili che possiedono un valore di osservazioni totali (a livello dell’intero bacino del Mediterraneo) minore della soglia scelta, non sono state prese in considerazione per le successive valutazioni;
2. le caratteristiche della distribuzione statistica dei valori di ciascuna variabile: la variabilità dei valori di ciascuna variabile è stata valutata attraverso il coefficiente di variazione. La sua funzione è quella di verificare che i valori di una determinata variabile biotica non siano tutti uguali tra loro e quindi con un coefficiente di variazione inferiori al 10%; 3. la dispersione geografica e temporale dei dati di ciascuna variabile,
valutata attraverso le seguenti caratteristiche:
-‐ la distribuzione per bacino in cui sono stati individuati differenti sottobacini minori, riprendendo l’approccio proposto da Giakoumi et al. (2013), per il mar Mediterraneo che sono il bacino occidentale, il bacino Tirrenico, il bacino centro-‐meridionale, il bacino Adriatico e il bacino orientale;
-‐ la distribuzione per fascia latitudinale in cui è stato suddiviso il mar Mediterraneo in tre fasce con differenti valori di latitudine che delimitano la fascia bassa (compresa fra 30° e 35°), la fascia intermedia (compresa fra 35° e 40°) e la fascia alta (compresa fra 40° e 45°);
-‐ la distribuzione per fascia longitudinale in cui è stato suddiviso il mar Mediterraneo in quattro fasce con differenti valori di longitudine che delimitano la fascia occidentale (compresa fra i
valori -‐5° e 5°), la fascia intermedia-‐occidentale (compresa fra 5° e 15°), la fascia intermedia-‐orientale (compresa fra 15° e 25°) e la fascia orientale (compresa fra 25° e 35°);
-‐ la distribuzione per fasce batimetriche in cui i valori di divisione tra le diverse fasce corrispondono rispettivamente al 25 esimo per centile, alla mediana e al 75 esimo percentile e ciò, a differenza degli altri fattori, genera una distribuzione omogenea dei dati relativi alla variabile abiotica della profondità. In particolare si sono individuate la fascia profonda (compresa fra 15 e 51 m); la fascia intermedia-‐profonda (compresa fra 9 e 15 m); la fascia intermedia superficiale (compresa fra 6 e 9 m) e la fascia superficiale (compresa fra 0 e 6 m);
-‐ la distribuzione temporale: sono stati suddivisi i dati inseriti dividendoli per anno (dal 2001 al 2012).
Per ciascun di questi fattori è stata creata una tabella con le osservazioni di ciascuna variabile distribuite per le differenti categorie dei vari fattori analizzati. La valutazione della distribuzione è stata effettuata seguendo i seguenti precisi criteri: per la distribuzione per bacino, per fasce longitudinali e latitudinali la distribuzione di una variabile è stata ritenuta sufficiente solo se per tutte le categorie in cui è stato suddiviso il fattore da analizzare ci sono osservazioni; per la distribuzione per fasce batimetriche la distribuzione è stata ritenuta sufficiente solo se tutte le categorie del fattore possiedono almeno 40 osservazioni mentre per la distribuzione temporale la distribuzione è stata ritenuta sufficiente per tutte quelle variabili che hanno almeno 10 osservazioni per sei anni differenti.
La valutazione ha quindi portato a un giudizio riguardante la distribuzione per ciascuna variabile biotica, riferito ai cinque criteri considerati. Per quanto riguarda il giudizio finale complessivo della distribuzione geografica e temporale se una variabile ha giudizi sufficienti su tutte e cinque le tabelle allora la distribuzione è OTTIMA; se
giudizi sufficienti ha una distribuzione SUFFICIENTE mentre nel resto dei casi è INSUFFICIENTE.
Quindi sono state considerate solamente le variabili biotiche che possiedono una distribuzione spaziale e temporale quantomeno sufficiente.
2.3.1.3 Selezione delle variabili (analisi di ridondanza)
Una volta pre-‐selezionate, queste variabili biotiche sono state analizzate tra loro per quanto riguarda la ridondanza delle informazioni che portano con sé. E' stata, quindi, effettuata un’ulteriore selezione basata sull’analisi di ridondanza in modo da verificare che le variabili biotiche prese in considerazione non abbiano tra loro delle correlazioni troppo forti.
È stato scelto come limite di correlazione (r di Pearson) accettabile il valore di ⎜0,70⎜. In altre parole se un indice di correlazione è maggiore o uguale di 0,70 oppure minore o uguale a -‐0,70, e possiede un livello di significatività minore o uguale di 0,05, allora quelle due variabili saranno giudicate come strettamente correlate. Sono state quindi scartate variabili biotiche in modo tale da evitare di includere nelle analisi successive fattori ridondanti.