• Non ci sono risultati.

Valori osservat

2.5 Test statistic

All’inizio del capitolo si diceva che per ogni specie si otterranno 16 serie di modelli, ognuna corrispondente ad una condizione sperimentale.

Per le 8 condizioni sperimentali che implicano una partizione secondo i dati di presenza/assenza delle specie, le serie sono composte dai 72 modelli generati (Fig. 20). Per le restanti 8 condizioni sperimentali, ogni specie è invece stata testata su

tutte le partizioni (72x33) generate per le varie specie63

Guardando nel loro complesso le 16 distribuzioni di risultati (statistica K) che si ottengono per ogni specie, si noterà che alcune di esse possono essere confrontate tramite test per dati appaiati, in quanto i modelli sono stati addestrati sulle medesime partizioni. Come si è detto, infatti, le performance relative alle condizioni legate alle ipotesi 1 e 3 vengono tratte da modelli addestrati sulle medesime 72 partizioni relative ad un cella della tabella che incrocia le condizioni delle ipotesi 4 e 5. Anche nei casi di partizione random rispetto ai casi di presenza assenza, i modelli sono stati addestrati tutti sulle medesime 72x33 partizioni

.

64

Una prima scelta di base è stata quella di orientarsi su statistiche di tipo non parametrico. Non vi è ragione, infatti, di ritenere che le distribuzioni dei risultati ottenuti nelle varie condizioni si conformino in generale alle assunzioni richieste dalla statistica parametrica (normalità, omoscedasticità, indipendenza, ecc).

; dunque in tutti i casi c’è la possibilità di confrontare a quattro a quattro le alternative di ipotesi, ad esempio, tramite un test di Wilcoxon. I confronti tra condizioni legate a celle diverse della tabella di Fig. 20 vanno invece condotti con test per dati indipendenti.

Per quanto riguarda invece la scelta specifica dei test da utilizzare, si è preferito semplificare le cose e scegliere un unico test in grado di effettuare tutti i confronti

63 Mentre, infatti, le 72x2 partizioni per valori di presenza/assenza di una singola tabella (Fig. 20) sono

legate specificamente ad una specie, le altre 72x2 possono essere usate con qualunque specie. In totale queste partizioni sono 72x33 e non 72x32 perché sono state usate anche le partizioni random relative alla tabella della ricchezza di specie, anche se poi, come già sottolineato, la ricchezza di specie in quanto tale non è stata presa in considerazione in questo lavoro.

64 In realtà, soprattutto nel caso di specie rare, quando non viene effettuata una partizione per i casi di

presenza/assenza, può capitare che nessun caso di presenza venga assegnato al test set, rendendo di fatto la partizione inutile per qualunque valutazione di performance. Ciò significa che per alcune specie le distribuzioni di performance ottenute non contengono 72x33 valori, ma qualcuno di meno.

tra le 16 distribuzioni di risultati ottenute per ogni specie. Il motivo principale è disporre di un unico strumento per valutare le differenze tra tutte le possibili coppie di distribuzioni da confrontare. Il test scelto è il Wilcoxon-Mann-Whitney, o test della somma dei ranghi, per una serie di ragioni: 1) è da ritenersi equivalente al test di Wilcoxon per campioni dipendenti, che si sarebbe scelto per confrontare le distribuzioni con dati appaiati; 2) rispetto al primo, al prezzo di una potenza leggermente minore, impone condizioni meno stringenti riguardo alle distribuzioni da confrontare (in particolare, forme analoghe contro forme simmetriche); 3) la minore potenza è da considerarsi, al limite, un vantaggio in termini di cautela nel rigetto dell’ipotesi nulla; 4) il Wilcoxon richiede l’eliminazione degli zeri dalla distribuzione delle differenze, mentre il WMW tiene conto di tutta l’informazione presente, con il vantaggio di non introdurre un potenziale elemento di eterogeneità

tra i confronti, rispetto alla quantità di informazione utilizzata65.

Per ogni specie si hanno dunque 16 modelli, da ognuno dei quali si ricava una distribuzione di risultati; i confronti possibili tra modelli diversi sono in tutto 120, ma solo alcuni di essi sono utili per il confronto diretto delle due alternative legate ad ogni ipotesi.

Ogni modello può essere identificato con un codice di quattro cifre binarie (ad esempio, 0010, 1011, 1100, ecc.): la prima cifra, relativa alle condizioni prese in causa dall’ipotesi 1, indica se la performance è stata misurata in base ad una soglia tradizionale a 0.5 (nel qual caso la cifra è ‘0’) o in base ad una soglia best (nel qual caso la cifra è ‘1’); la seconda cifra, relativa all’ipotesi 3, indica se il modello è monospecie (‘0’) o multispecie (‘1’); la terza cifra, relativa all’ipotesi 4, indica se la partizione ha tenuto conto dei valori presenza/assenza (‘1’) o se è random da questo punto di vista (‘0’); la quarta cifra, relativa all’ipotesi 5, indica se la partizione è stata condotta in base all’altitudine (‘1’) oppure no (‘0’). Dunque ‘0010’ indica un modello ottimizzato solo per presenza/assenza; ‘1011’ indica invece un modello con soglia ottimizzata, previsione monospecie e partizione sia per presenza/assenza che per altitudine; ‘1100’ si riferisce invece ad un modello con soglia ottimizzata e

65 Prove preliminari hanno mostrato una certa frequenza di valori identici di K tra dati appaiati, dovuta

essenzialmente ad una riduzione delle caratteristiche di continuità della statistica K quando la matrice di confusione contiene un numero non elevato di casi. In particolare, quando si confrontano distribuzioni di 72 misure di performance nel caso di specie rare, può accadere che i valori relativi a diversi modelli siano uguali e, in particolare, pari a 0. Poiché questo fenomeno può dar luogo ad un certo squilibrio tra le quantità di informazione usate in vari confronti, la scelta di un unico test che tenga sempre conto di tutti i valori presenti appare più adatta.

previsione multispecie, ma con partizione random rispetto alla presenza/assenza e all’altitudine.

Per ogni possibile combinazione delle altre tre ipotesi, ogni ipotesi propone due alternative; poiché le possibili combinazioni di tre ipotesi sono 8, ogni ipotesi va testata effettuando 8 diversi confronti. Ad esempio, per testare l’ipotesi 3 i confronti da effettuare sono: 0000 vs. 0100 (0#00) 0001 vs. 0101 (0#01) 0010 vs. 0110 (0#10) 0011 vs. 0111 (0#11) 1000 vs. 1100 (1#00) 1001 vs. 1101 (1#01) 1010 vs. 1110 (1#10) 1011 vs. 1111 (1#11).

Si può ragionare nello stesso modo per le altre ipotesi, ognuna delle quali implica dunque 8 confronti, nel caso venga presa in considerazione una sola specie, o 256 (8x32), se si tiene conto di tutte le specie insieme. Che si desideri trarre conclusioni a livello di specie oppure ad un livello più generale, quindi, la verifica di ipotesi va impostata comunque su confronti multipli, richiedendo di conseguenza una correzione delle soglie di significatività. Tale correzione è indispensabile per tenere conto del rischio di rilevare differenze significative per effetto del caso, rischio che aumenta quando aumenta il numero dei confronti.

Ad esempio, restando a livello di specie, se anche uno solo degli 8 confronti relativi ad un’ipotesi desse risultati significativi, si può sostenere che almeno in certe circostanze si riesce a falsificare l’ipotesi nulla con la particolare specie in esame; quindi si trae una conclusione generale (sull’ipotesi) sulla base di un risultato particolare (ottenuto solo in una delle condizioni in cui essa può essere testata). Quando il confronto è unico, la probabilità di rilevare correttamente l’assenza di effetti sistematici (cioè di non rifiutare l’ipotesi nulla quando questa è vera) è pari a 1-α; se si conducono n confronti, la probabilità di non ottenere risultati significativi

scende a (1-α)n, dunque aumenta la probabilità [1-(1-α)n

] di ottenere almeno un risultato significativo per effetto del caso. Per compensare l’aumento di tale rischio, il livello di significatività scelto come soglia, ad esempio α=0.01, può essere ridotto in funzione del numero di confronti effettuati, in modo da rendere più stringenti le condizioni di rigetto dell’ipotesi nulla.

Un tipo di correzione largamente in uso per questo scopo è la correzione di

Bonferroni, che richiede semplicemente che il livello di significatività corretto αB da

usare come soglia risulti dal rapporto tra il livello di significatività desiderato e il numero di confronti effettuati:

𝛼𝛼𝑂𝑂 =𝛼𝛼𝑛𝑛

Ad esempio, se si volessero trarre conclusioni in base agli 8 confronti relativi ad una singola ipotesi con una singola specie, dato un livello di significatività desiderato pari a 0.01, si avrebbe

𝛼𝛼𝑂𝑂=0.018 = 0.00125

per cui bisognerebbe raggiungere una significatività almeno pari a 0.00125 nel singolo test per poter sostenere di aver rilevato un effetto con una significatività pari a 0.01 nel contesto dei confronti multipli effettuati.

In questo lavoro, le condizioni adottate sono ancora più stringenti, perché l’interesse è quello di rilevare effetti della scelta di diverse alternative di ottimizzazione non tanto su una specie in particolare, ma nel contesto dell’intero popolamento. Dunque il numero di confronti da considerare è 8x32=256. I livelli di significatività corretti sono indicati in Tab. 3.

Livello di significatività desiderato Significatività con correzione di Bonferroni per 256 confronti 0.05 0.00019531 0.01 0.00003906 0.001 0.00000391 0.0001 0.00000039 Tab. 3

Poiché almeno nel caso di due delle ipotesi considerate (3 e 5) non ci si può attendere sistematicamente la prevalenza di una alternativa sull’altra, i test condotti

saranno bilaterali66.

Nel paragrafo precedente (2.4) si è accennato ad una misura della performance indipendente dalla soglia (AUK, che verrà descritta nel prossimo capitolo), in base alla quale saranno condotti, su una base diversa da quella fornita dalla statistica K basata sulla soglia, i confronti relativi alle sole ipotesi 3, 4 e 5. In tal caso, per ogni specie e ogni ipotesi, non si hanno più 8 confronti, ma solo 4. Il caso dell’ipotesi 3, usato poco sopra come esempio, va dunque così riadattato:

X000 vs. X100 (X#00) X001 vs. X101 (X#01) X010 vs. X110 (X#10) X011 vs. X111 (X#11)

Qui la ‘X’ non ha alcun significato, se non quello di ricordare che c’è un’altra ipotesi in gioco, di cui tuttavia in questi confronti non si tiene conto. Il numero di confronti da usare per il calcolo della correzione di Bonferroni è qui 4x32=128 (Tab. 4). Livello di significatività desiderato Significatività con correzione di Bonferroni per 128 confronti 0.05 0.00039063 0.01 0.00007813 0.001 0.00000781 0.0001 0.00000078 Tab. 4

66 L’estensione del test bilaterale anche alle ipotesi 1 e 4 è giustificata da un’esigenza di omogeneità

nella probabilità di rilevare differenze sistematiche, che con l’ipotesi bilaterale e più bassa di quanto sarebbe con quella unilaterale. Inoltre, le varianti legate alle ipotesi 1 e 4 sono costruite in modo tale da lasciare aperta la possibilità di effetti opposti rispetto alle attese.

3.R

ISULTATI

I risultati di questo lavoro si dividono essenzialmente in due gruppi: quello dei risultati veri e propri, legati ai valori di performance dei modelli e al confronto tra le condizioni sperimentali indagate, e quello dei metodi e degli algoritmi originali elaborati per condurre in modo appropriato l’indagine progettata.

Documenti correlati