Dataset che includono il modello dei costi

4.3 Risultati: tempo di completamento

4.3.2 Dataset che includono il modello dei costi

In questa sotto sezione, la TreeESN è testata sui dataset che fanno uso del modello analitico. Quindi le rappresentazioni prese in considerazione sono quelle con modello dei costi, e sinergica, e le loro versioni normalizzate, che chiamere- mo nel seguito rappresentazioni avanzate. I risultati ottenuti dal processo di validazione, per le stesse motivazioni della sezione precedente, sono analizzati tenendo conto del root state mapping. Inoltre, sono stati condotti degli espe- rimenti preliminari sulle diverse formule di addestramento introdotte (Equa- zione (2.6) e Equazione (4.3)), che hanno evidenziato che l'apprendimento che minimizza il MANE ore predizioni migliori. Quindi risultati riportati sono ottenuti con la regola di apprendimento della Equazione (4.3).

In Tabella 4.6 sono evidenziati gli errori in fase di addestramento, validazione e test. I risultati corrispondono al miglior modello risultante tra le rappresentazioni avanzate. L'errore in addestramento (TR e TRVAL) rimane pressochè

costante, mentre l'errore sul test set risulta inferiore a quello di validazione. Questo evidenza che analizzando più dati, il modello è in grado di eettuare una migliore generalizzazione della funzione target.

Metrica TR VAL TRVAL TS

MAE 4847.68 6318.26 4833.86 6511.07

MANE 0.056289 0.086183 0.059671 0.076114

Tabella 4.6: Tempo di completamento: errore nelle varie fasi di addestramento (TR), validazione (VAL), test (TS), ottenuto sul dataset sinergico, usando il root state mapping e l'apprendimento nalizzato a minimizzare il MANE. TRVAL rappresenta l'errore relativo all'addestramento nale, unendo le partizioni usate per TR e VAL.

In Tabella 4.7 sono riportati gli iper-parametri selezionati per tutte le rappresentaizoni a disposizione. Risulta interessante come la rappresentazione con modello dei costi abbia come modello migliore una TreeESN con sole 100 unità nel reservoir, evidenziando quindi una buona capacità di compressione dei dati, senza bisogno di regolarizzazione (λ = 0). In particolare, il dataset con modello dei costi senza normalizzazione presenta un fattore di contrattività inferiore ad 1, indice che la maggior parte dell'informazione è presente nella radice, senza bisogno di capacità di memoria elevata. Essendo l'informazione del modello analitico propagata dalle foglie alla radice, la Markovianità del task ne trae benecio, e così l'organizzazione dello spazio del reservoir.

Dataset Nr ρ W conn Winscaling λ

Replicato 2000 6 1 0.1 1e-09

Replicato norm. 2000 6 1 0.01 1e-09

Modello dei costi 100 0.7 1 0.001 0

Modello dei costi norm 100 6 1 0.01 0

Tabella 4.7: Tempo di completamento: valori degli iper-parametri selezionati dalla model selection per le rappresentazioni avanzate usando il root state mapping.

La Tabella 4.8 riporta gli errori ottenuti in fase di test per tutti i dataset, in modo da poter confrontare le diverse possibilità relative alla rappresentazione dei programmi. Si nota subito un miglioramento signicativo rispetto ai modelli allenati sui dataset che non fanno riferimento al modello dei costi. Il miglior

MAE MANE

Dataset avg std avg std

Modello dei costi 9645.04 641.80 0.105543 0.003183 Modello dei costi norm. 7449.31 427.78 0.089231 0.003248

Sinergico 7915.24 127.54 0.086507 0.001489

Sinergico norm. 6511.07 92.34 0.076114 0.001193 Tabella 4.8: Tempo di completamento: errore in test sulle rappresentazioni avanzate usando il root state mapping.

del 7.6%. I rispettivi errori ottenuti in validazione/test sono mostrati in Ta- bella 4.6. La normalizzazione in questo caso migliora sempre la performance, e si dimostra uno degli aspetti fondamentali dell'approccio, insieme con l'aggiun- ta del grado di replicazione, che nel dataset sinergico aiuta la TreeESN nella predizione, portando beneci nella deviazione standard delle metriche.

Reservoir ortogonale e ReLU

Sulla congurazione migliore di TreeESN applicata al dataset sinergico normalizzato, sono state condotte ulteriori indagini sulla topologia ed i pattern di connettivita del reservoir e sulla tipologia di funzione di non-linearita' utiliz- zata come attivazione delle unità. In particolare, è stata testata la TreeESN con reservoir ortogonale, e la TreeESN con ReLU (Sezione 2.1.4 per dettagli su entrambi gli aspetti).

In Tabella 4.9 sono mostrati i risultati relativi all'uso del reservoir con matri- ce ortogonale. I risultati sono in linea con quelli della TreeESN standard in Tabella 4.6, anche se leggermente peggiori. Questo suggerisce che i beneci ca- ratteristici delle reti ortogonali (Sezione 2.1.4) non diano un vantaggio diretto in termini di performance in questo caso. Leggermente diverso è il discorso le- gato all'uso di rectier (Tabella 4.10), in quanto c'è un miglioramento (MANE da 7,6% a 7.1% in test), seppur lieve, che mostra potenziali vantaggi nell'uso di reservoir con unità di tipo ReLU in questo ambito, ovvero fuori dal conte- sto del learning, al ne di una rappresentazione sparsa e trasmissione ecace dell'informazione di stato.

Metrica TR VAL TRVAL TS

MAE 4719.89 5918.27 5006.33 6758.28

MANE 0.056528 0.083763 0.061517 0.080328

Tabella 4.9: Tempo di completamento: errore nelle varie fasi di training (TR), validazione (VAL), test (TS), ottenuto sul dataset sinergico normalizzato, usando il root state mapping con reservoir ortogonale e l'apprendimento nalizzato a minimizzare il MANE. TRVAL rappresenta l'errore relativo all'addestramento nale, unendo le partizioni usate per TR e VAL.

Metrica TR VAL TRVAL TS

MAE 4006.34 5428.57 4145.71 6033.84

MANE 0.041662 0.077555 0.045125 0.071701

Tabella 4.10: Tempo di completamento: errore nelle varie fasi di addestramento (TR), validazione (VAL), test (TS) ottenuto sul dataset sinergico normalizza- to, usando il root state mapping con rectier e l'apprendimento nalizzato a minimizzare il MANE. TRVAL rappresenta l'errore relativo all'addestramento nale, unendo le partizioni usate per TR e VAL.

Analisi bipartita

Le migliori TreeESN ottenute nelle sezioni precedenti vengono in queste sede analizzate per capire come è distribuito l'errore all'interno di ciascun dataset.

A tale scopo, le istanze presenti nei dataset sono state divise in due sottoinsiemi: • Quelli caratterizzati da difetto di parallelismo.

• Quelli che presentano eccesso di parallelismo.

In Tabella 4.11 sono riportati gli errori per i due sottoinsiemi. Gli errori tra i due sottoinsiemi risultano bilanciati, quindi la TreeESN apprende la funzione che riproduce meglio entrambi i fenomeni. Per quanto riguarda le rappresentazioni base, la migliore performance è fornita dalla rappresentazione basata sui core. La migliore delle rappresentazioni avanzate, confermando i risultati in media dei paragra precedenti, è la rappresentazione sinergica normalizzata.

MAE MANE

Dataset Difetto Eccesso Difetto Eccesso

Rappresentazioni di base

Originale 13418.45 12713.06 0.110656 0.115332

Originale norm. 12659.52 13841.00 0.131645 0.158657

Replicato 16610.70 16003.37 0.138920 0.147982

Replicato norm. 12634.15 11900.14 0.120233 0.132257 Basato sui core 13951.92 13263.36 0.112052 0.114593 Basato sui core norm. 12225.86 12828.11 0.130482 0.148632

Rappresentazioni avanzate

Modello dei costi 10612.63 8598.65 0.108808 0.102011 Modello dei costi norm. 8207.66 6636.31 0.091753 0.086528

Sinergico 8344.18 7455.38 0.085588 0.087493

Sinergico norm. 6800.65 6200.62 0.075341 0.076942 Tabella 4.11: Tempo di completamento: errore in fase di test bipartito tra i due casi in esame, considerando tutti i dataset a disposizione (root state mapping), separando le rappresentazioni di base da quelle avanzate.

Nel documento Stima di proprieta non funzionali di applicazioni parallele con reti neurali (pagine 52-55)