Disegno sperimentale - Frequenza delle specie nel data set

Frequenza delle specie nel data set

2.2 Disegno sperimentale

L’insieme delle prove previsto dal disegno sperimentale è stato generato incrociando le alternative proposte dalle ipotesi. Per prime sono state prese in considerazione le ipotesi 4 (H4) e 5 (H5), che definiscono specifiche modalità di partizione dei dati e implicano dunque una serie di operazioni da compiere prima dell’addestramento vero e proprio. Una tabella a doppia entrata rappresenta l’incrocio delle alternative legate alle ipotesi 4 e 5 per la generica specie X (Fig. 20).

1H5 0H5 1H5 0H5 1H4 n n 2n 1H4 72 72 144 0H4 n n 2n 0H4 72 72 144 2n 2n 4n 144 144 288 a) b) SPECIE X Ip ot es i 4 Ipotesi 5 Ipotesi 5 Ip ot es i 4 Fig. 20 Sono quattro le possibili combinazioni:

- partizione per valori di presenza e di altitudine [1H4-1H5];

- partizione random per i valori di presenza, ma non per l’altitudine [0H4-1H5];

- partizione random sia per i valori di presenza che per l’altitudine [0H4-0H5].

Poiché per ognuna di queste quattro combinazioni esistono molte possibili partizioni dei dati, ognuna delle quali propone al modello in addestramento una “visione” dell’informazione disponibile leggermente diversa dalle altre, è utile generare una popolazione di n partizioni per ogni combinazione, a cui corrisponderà l’addestramento di altrettanti modelli (prove sperimentali). Il risultato ottenuto su una singola partizione, infatti, può dar luogo a un valore molto basso o molto elevato di performance solo per effetto del caso, in dipendenza di un particolare disporsi dei

dati nei tre subset che ne disturba o ne facilita la previsione49

Nel capitolo successivo si vedrà che per ogni condizione sono state ricavate, tramite due diversi algoritmi, 72 partizioni diverse (Fig. 20b), per un totale di 288 partizioni generate in base ad ogni singola specie. E’ necessario costruire una tabella di questo tipo per ogni specie, poiché l’ordinamento (partizione) per i valori di presenza/assenza ha senso solo quando si considera una specie singola. Un’ulteriore tabella di questo tipo è stata inoltre generata utilizzando, al posto dell’ordinamento per una specie, quello per la “ricchezza di specie” complessiva. Dunque si hanno

𝑛𝑛𝑠𝑠+ 1 = 33 tabelle, con 288 partizioni ciascuna, per un totale di 288× (𝑛𝑛𝑠𝑠+ 1) =

9504 partizioni su cui addestrare i modelli, per sottoporre a verifica le ipotesi 4 e 5. . Con una distribuzione di misure di performance per ogni condizione è invece possibile valutare i risultati su un istogramma (ricavandone eventualmente indici sintetici, come la media o la mediana) e confrontare poi tramite test statistici le distribuzioni relative alle diverse condizioni.

Le 72 partizioni contenute in ogni cella sono state costruite sulla base di algoritmi che ne garantiscono complessivamente l’omogeneità (tra di loro e con l’intero data set) e la capacità di esplorare lo spazio delle diverse varianti di partizione ottenibili sotto un certo criterio. Questo fa sì che la distribuzione delle misure di performance che si ottengono per ogni condizione sperimentale dia una visione realistica delle prestazioni che ci si può aspettare in quelle condizioni.

In realtà, da ogni gruppo di partizioni relative ad una condizione non si ottiene una distribuzione di valori, ma quattro; ciò perché si deve tenere conto anche delle ipotesi 3 e 1.

49_{Ad esempio, per effetto del caso il training set e il validation set potrebbero risultare leggermente}

più ricchi di informazione rispetto al test set, per cui la misura di performance verrebbe condotta su una sottocasistica di quella utilizzata durante il training, tendendo a dare valori relativamente alti.

Innanzitutto su ogni partizione va saggiato sia il modello monospecie (0H3) che

quello multispecie (1H3), da cui discende che per ogni condizione si avranno due

distribuzioni di 72 risultati; ma poiché dobbiamo confrontare anche le diverse

performance ottenute tramite una soglia tradizionale a 0.5 (0H1) e una ottimizzata

(1H1), per ogni modello addestrato avremo due diversi risultati, giungendo così, per

ognuna delle 9504 partizioni, ad avere quattro misure di performance. Questo insieme di misure, va poi ottenuto per ogni singola specie.

Il modello multispecie, come già si diceva, presenta un’architettura di tipo

𝑛𝑛𝑑𝑑− ℎ − 𝑛𝑛𝑠𝑠, che nel caso del nostro data set diventa 20 − ℎ − 32. Ciò implica un

modello che in base a 20 descrittori ambientali predice i valori di presenza/assenza

di 32 specie50

Addestrato su ogni partizione, il modello multispecie dà 32 valori di performance, uno per ogni specie. Per ottenere i medesimi 32 valori con i modelli monospecie, è invece necessario addestrare 32 diversi modelli sulla stessa partizione. Quindi, il modello multispecie richiede 9504 training in tutto, mentre con i modelli monospecie (incluso quello che predice la ricchezza di specie) è necessario condurre 9504 training per ognuno.

In realtà, questo insieme corposo di training è stato pensato anche in previsione di successivi approfondimenti, per cui non tutti i risultati ottenuti sono stati poi utilizzati in questo lavoro. La parte relativa alla ricchezza di specie, ad esempio, non è stata considerata. E non sono state considerate nemmeno le previsioni di una specie quando la partizione era stata compiuta in base ai valori di presenza/assenza di un’altra specie.

In sintesi, per ogni partizione utilizzata si sono ottenuti due modelli per specie: uno multispecie e uno monospecie. Da ognuno di questi modelli si sono poi ottenute due misure di performance: una con soglia tradizionale e una con soglia ottimizzata. Dunque, quattro valori di performance (corrispondenti alle alternative valutate dalle ipotesi 3 e 1) per ogni partizione. Poiché tutte le partizioni sono suddivise in 4 in base alle condizioni definite secondo le ipotesi 4 e 5, si chiude così il cerchio delle 16 combinazioni previste dal disegno sperimentale.

I risultati sperimentali effettivamente utilizzati, alla fine, sono stati 323136.

Nel documento Modelli di previsione dei popolamenti ittici nei fiumi: sviluppo e ottimizzazione mediante reti neurali artificiali (pagine 74-77)