Insieme di apprendimento, convalida e controllo

Nell’ambito delle reti neurali, i parametri (pesi w) vengono stimati sulla base dell’insieme di apprendimento. Poichè il modello ha fini soprattutto previsio- nali, si richiede che il modello abbia buone proprietà di generalizzazione, cioè che sia capace di effettuare buone stime in corrispondenza di valori d’ingresso x non compresi nell’insieme di apprendimento.

L’insieme dei dati disponibili viene suddiviso in tre parti:

. Insieme di apprendimento o Training `e un insieme di esempi utilizzati per stimare i parametri della rete.

. Insieme di convalida o Validation set `e un insieme di esempi utilizzato per regolare i parametri della rete.

. Insieme di controllo o Test set `e un insieme di esempi utilizzato uni- camente per valutare le prestazioni (generalizzazione) della rete.

Alla fine del training si otterrà il vettore di pesi che permette alla rete di approssimare al meglio la funzione o il problema che gli è stato sottoposto. Il Teorema di Approssimazione Universale, però, lascia aperto un problema, che è quello della scelta dei parametri: non esiste alcun metodo che ci permetta di sapere, a priori, qual è il numero di nodi da immettere nello strato intermedio, né quanti strati inserire, né qual è il numero d’iterazioni necessarie nella fase di training, né, tanto meno, qual’è il valore ottimale da dare al coefficiente d’apprendimento.

Dalla scelta di tutti questi parametri dipende la capacità d’approssimazione e di generalizzazione e l’efficienza della rete: meno nodi si hanno nello strato intermedio, più aumenta la capacità di generalizzazione della rete, ma, con- temporaneamente, diminuisce la precisione nell’approssimazione.

Maggiore è il numero degli strati, maggiore è la complessità della situazione che la rete può rappresentare, ma maggiori sono i tempi necessari per l’apprendimento e il costo computazionale.

Maggiore è il numero d’iterazioni, maggiore è il grado di precisione che la rete raggiunge, ma maggiore è il rischio di overfitting, cioè il pericolo che la rete rimanga troppo legata ai dati e non sia in grado poi di dare buone risposte di fronte a situazioni mai viste.

Per comprendere meglio questo concetto, `e come se uno studente imparasse a memoria una particolare lezione, ma non sapesse rispondere a domande pi`u

generali sull’argomento o non fosse in grado di trarre conclusioni autonome su di esso.

L’apprendimento rappresenta la fase pi`u importante ed affascinante dei mo- delli neurali. Le reti neurali vengono addestrate, nel senso che esse partono da una situazione iniziale in cui non hanno alcuna conoscenza del problema da risolvere per poi arrivare ad uno stato in cui esse sono in grado non solo di utilizzare la conoscenza acquisita dall’analisi di un set di esempi, ma anche di generalizzare tale conoscenza a situazioni nuove.

L’immagazzinamento della conoscenza all’interno della rete avviene grazie ad opportuni algoritmi di apprendimento che, partendo da un insieme di esempi significativi, provocano un aggiustamento successivo dei parametri della rete fino all’ottenimento di un livello accettabile di performance. I parametri soggetti a tale modifica durante il processo di apprendimento sono i pesi associati alle connessioni tra i vari neuroni, che vengono modificati in modo tale da conseguire il funzionamento desiderato della rete.

In termini matematici la fase di apprendimento permette di calcolare il valore δwij in grado di permettere l’aggiornamento del peso associato alla

connessione tra l’i -esima e la j -esima unit`a:

wij −→ wij(t + 1)wij(t + 1) = wij(t) + δwij ∀j, ∀t ∈ T

dove con T si `e indicato il numero di passi da effettuare nel processo di apprendimento per giungere ad uno stato stabile. Il processo di apprendimento consiste quindi nell’utilizzo di procedure in grado di produrre una configurazione stabile ed ottimale di tali parametri.

Sebbene non sia possibile riferirsi a procedure uniche di addestramento, `e possibile comunque raggruppare tutti gli algoritmi in due grandi categorie: . algoritmi di apprendimento supervisionati,

. algoritmi di apprendimento non supervisionati.

Tale distinzione riflette fondamentalmente la diversa struttura dell’insieme. Nel caso degli algoritmi supervisionati, per ogni insieme di input si presenta alla rete anche l’output desiderato, in modo tale che la rete sia in grado di correggere i propri parametri minimizzando la differenza tra output calcolato ed output desiderato.

L’algoritmo detto retropropagazione (backpropagation) `e quello pi`u utilizzato per l’apprendimento supervisionato. Questa tecnica si basa sulla valutazione

Figura 2.7: (a) Apprendimento supervisionato. (b) Apprendimento non supervisionato.

dell’errore commesso dalla rete neurale in funzione dei parametri della rete stessa e sulla sua diminuzione tramite una modifica dei parametri operata nella direzione del gradiente della funzione errore.

Per via della necessità di calcolare il gradiente della funzione calcolata dalla rete neurale, tale tecnica può essere utilizzata solo se la funzione di attiva- zione dei neuroni è derivabile rispetto ai parametri da configurare.

L’algoritmo modifica i parametri di configurazione in base al contributo che essi danno alla diminuzione dell’errore. A ogni passo di apprendimento, si presenta un esempio agli ingressi della rete neurale, si calcola la relativa uscita prodotta dalla rete, e la si confronta con il valore di uscita atteso. La differenza tra il valore di uscita dell’esempio e il valore di risposta della rete neurale costituisce l’errore commesso dalla rete stessa.

Procedendo a ritroso dall’uscita della rete verso i neuroni pi`u interni, si calcola il gradiente dell’errore rispetto ai parametri dei neuroni considerati e lo si utilizza per modificare i parametri stessi in modo da far diminuire l’errore.

Le procedure di addestramento non supervisionato non richiedono la pre- senza del valore dell’output desiderato: la rete analizza i segnali in input alla ricerca di regolarit`a e relazioni presenti nei dati.

In questo lavoro di tesi verranno utilizzati algoritmi di apprendimento supervisionati, grazie alla grande quantit`a di informazioni disponibili ricavate dalle diverse simulazioni numeriche.

Rilevazione dell’impatto

mediante Rete Neurale

3.1 Modellazione FEM del pannello sandwich

A partire da tutti i dati sperimentali raccolti, si è costruito un modello a elementi finiti dell’intero pannello di dimensioni 400x400 mm in grado di re- plicare i test d’impatto. L’informazione che si ottiene da tale modello è la curva affondamento massimo-energia, da confrontare con la Fig.1.17 ottenuta sperimentalmente. Si è voluto puntare sull’ottenimento di un modello numerico piuttosto “leggero”, cioè tale per cui le richieste hardware non fossero particolarmente stringenti. Un altro aspetto interessante del modello è che si presta facilmente a modifiche in modo da poter eventualmente descrivere materiali diversi coinvolti nel fenomeno.

Figura 3.1: (a) Modello del pannello sandwich, costituito da due pelli di alluminio e honeycomb. (b) L’honeycomb `e stato modellato mediante molle non lineari.

Il modello numerico sviluppato si basa su un approccio legato all’utilizzo di molle non lineari. Sostanzialmente il cuore in honeycomb viene modellato come un equivalente insieme di molle poste ai vertici delle celle esagonali. Il comportamento delle molle è poi stato scelto in maniera che rispecchiasse quello macroscopico osservato nelle prove di compressione flatwise. In altre parole viene previsto un tratto iniziale lineare, un successivo plateau e, ad un certo livello di spostamento, anche il rinforzamento finale (densificazione). Appare chiaro che tale approccio risulta essere una semplificazione della realtà fisica, in quanto si cerca di discretizzare un continuo cellulare (honeycomb) con delle molle discrete ed indipendenti tra loro. Le molle infatti interagiscono una con l’altra solo tramite delle pelli metalliche a cui sono col- legate. Inoltre il fenomeno d’impatto che si vuole simulare è molto localizzato mentre i dati sperimentali ottenuti dalle prove di compressione flatwise hanno carattere più distribuito.

Ne consegue che per caratterizzare il comportamento non lineare delle molle non si possa inserire direttamente i dati di forza-spostamento determina- ti sperimentalmente, ma occorre scalare questi ultimi in modo opportuno. Quindi per determinare le proprietà delle molle non lineari da inserire nel modello si è proceduto con un approccio “trial and error” in cui si è andati a scalare l’originaria curva forza-spostamento sperimentale delle prove di compressione flatwsise, moltiplicandola per un opportuno coefficiente, finché non si è trovata la curva che meglio permetteva di riprodurre numericamente i risultati sperimentali (Fig.1.18).

Il numero totale di molle utilizzate è 8214. Per quanto riguarda invece le pelli metalliche in lega di alluminio, esse sono state modellate utilizzando elementi shell ad integrazione ridotta S4R. Il numero di elementi di ciascuna lastra è 48400, e la dimensione degli elementi è di 1.82x1.82 mm.

L’impattatore è stato modellato come una sfera rigida. Il numero di elementi con cui si è meshata la sfera è 9616, di cui 320 elementi R3D3 a tre lati e 9296 elementi R3D4 a 4 lati. La dimensione media minima degli elementi della sfera è 0.408 mm.

Si è applicato un vincolo d’incastro lungo i quattro lati di entrambe le lastre, mentre si è imposta una velocità iniziale alla sfera. In sostanza si è imposta una certa energia d’impatto e si è andati a valutare infine l’affondamento massimo residuo previsto dal modello.

Le analisi sono state realizzate utilizzando il software commerciale ABAQUS 6.10 e sono state di tipo esplicito non lineare.

Figura 3.2: Distribuzione dello sforzo nel pannello dopo l’impatto con la sfera. Il pannello mostrato permette di apprezzare meglio la deformazione (somma delle componente elastica e plastica).

I risultati in termini di affondamento massimo previsto in funzione del- l’energia sono raccolti in Fig.1.20.

Figura 3.3: Confronto tra i risultati sperimentali e i risultati del FEM in funzione dell’energia d’impatto. Sono stati esaminati due configurazioni differenti dello spessore delle pelli, rispettivamente da 1 mm e da 1.5 mm.

Si può osservare come il modello FEM permetta di prevedere con un buon livello di accuratezza l’affondamento massimo subito dal pannello. Vale la pena notare come la calibrazione delle proprietà delle molle sia stata fatta solo in riferimento agli impatti sul modello con spessore delle pelli di 1 mm. Ne consegue che la procedura adottata presenta ottima generalità in quanto, applicando le stesse proprietà al caso con spessore delle pelli da 1.5 mm, i

risultati sono rimasti ancora molto buoni. Ciò è una significativa prova che la metodologia adottata per lo sviluppo del modello è rigorosa ed estendibile a casi più generali di quelli in esame.

Per quanto riguarda specificatamente la qualità dei risultati si può notare che, nel caso di spessore da 1 mm, i risultati sono meno precisi rispetto al caso da 1.5 mm. La ragione di tale comportamento è da imputarsi all’avvi- cinarsi all’energia che provoca lo squarcio delle pelli. In queste analisi infatti non è stato implementato un criterio di rottura, il cui effetto si è preferito studiare a parte.

Ne consegue che il comportamento per elevate plasticizzazioni delle pelli, e vicino alla rottura, diverga da quello sperimentale. Nel caso con pelli da 1 mm ciò è evidente perché la rottura è prevista per un’energia di 185J e di conseguenza le prove sperimentali si avvicinano molto a tale valore.

Una volta stabilita un’effetiva correlazione tra l’energia d’impatto con il danneggiamento, sia in termini numerici che sperimentali come descritto nella sezione 1.3, `e necessario definire una metodologia per la rilevazione e la ca- ratterizzazione dell’impatto in termini di energia e posizione mediante una rete di sensori.

L’idea è quella di utilizzare i dati ricavati dalle simulazioni FEM in modo da estrarre l’esperienza necessaria per poter poi interpretare in modo corretto i dati provenienti dai sensori. Però, prima di intraprendere questa strada, è necessario identificare i parametri da cui dipende l’impatto.

Conseguentemente, si effettua una analisi dei picchi dei segnali generati dal danneggiamento. Questi picchi vengono estratti dai dati provenienti dalle simulazioni FEM in corrispondenza degli elementi sui quali verranno applicati i sensori (Fig.2.3).

Figura 3.4: Griglia sensori (17x17).

Il primo passo da fare riguarda la quantificazione, ossia l’identificazione dell’energia d’impatto. Dalla Fig.1.20 si nota una buona correlazione tra FEM e parte sperimentale nel range di energie tra i 45J e i 145J nel caso di pannelli sandwich con skin di spessore 1.5 mm; quindi sono stati simulati mediante ABAQUS 6.10 per questo range di energie con passo 10J, mediante il modello FEM descritto nella Sez.1.3, undici casi d’impatto lasciando invariata la posizione d’impatto della sfera. La finestra di osservazione del fenomeno `e stata fissata a 20 ms.

L’effetto dell’energia d’impatto sul picco del segnale misurato in corrispondenza della linea di sensori evidenziata in Fig.2.4a pu`o essere apprezzato in Fig.2.4b.

Si `e poi proceduto con la localizzazione, ossia l’identificazione della posizione d’impatto della pallina. Quindi sono state simulate mediante ABAQUS 6.10 sedici diverse posizioni d’impatto della sfera per ogni energia analizzata per la quantificazione, per un totale di 176 simulazioni.

(a) (b)

Figura 3.5: Effetto dell’impatto a diverse energie rilevato dalla linea di sensori virtuali evidenziati in Fig.3.5a pu`o essere apprezzato in Fig.3.5b.

spondenza della linea di sensori evidenziata in Fig.2.5a pu`o essere apprezzato in Fig.2.5b.

(a) (b)

Figura 3.6: L’effetto dell’impatto per diverse posizioni rilevato dalla linea di sensori virtuali evidenziati in Fig.3.6a pu`o essere apprezzato in Fig.3.6b.

La simmetria del sistema sotto controllo `e evidente. Il trend pu`o essere sfruttato al fine di stimare anche la posizione d’impatto, una volta installata la rete di sensori nella struttura.

e posizione d’impatto. A questo punto `e necessario trovare una correlazione tra il sensore di lettura e l’impatto che si verifica sulla struttura.

Nel documento Approccio numerico per la diagnosi d'impatto a basse velocità su pannelli sandwich (pagine 39-49)