• Non ci sono risultati.

3.2 Applicazione pratica

3.2.3 Valutazione del modello

Per valutare l’accuratezza del modello proposto si è utilizzato il metodo 5-fold cross-validation. Come descritto in [4], questo metodo segmenta il dataset in cinque partizioni di uguale dimensione e, ad ogni esecuzione, ne seleziona una come insieme di test e le altre come insieme su cui costruire il modello. La divisione dei record nelle partizioni è stata scelta in modo stratificato, cioè mantenendo lo stesso rapporto esistente nel dataset completo fra la classe Good e la classe Bad.

36

La valutazione è stata effettuata considerando, per ogni ciclo presente nell’insieme di test, una rilevazione di 10 secondi estratta a partire da 30, 40, 50 e 60 minuti dopo l’inizio del ciclo. In questo modo è stato possibile valutare il comportamento del modello quando applicato in momenti diversi. Per il confronto di queste rilevazioni con i pattern, si è scelto un intervallo temporale di 30 secondi nei quali far scorrere la finestra.

L’algoritmo di valutazione ha quindi predetto, ad ogni esecuzione, l’esito per ogni variabile presente nei cicli dell’insieme di test usando i pattern creati dai restanti cicli. A queste predizioni e stata aggiunta la colonna class, contenente l’esito reale del ciclo. Questo procedimento è stato ripetuto per i vari istanti temporali presi in considerazione ed è stato quindi possibile effettuare un’analisi per individuare quali variabili siano utili ai fini dell’individuazione dell’esito del ciclo di sterilizzazione. L’analisi è stata condotta osservando la relazione esiste tra la previsione dell’esito di ogni singola variabile e l’esito reale del ciclo complessivo. Il risultato è visibile in Figura 3.9 in cui è mostrata la correlazione tra le variabili e l’esito del ciclo per i vari istanti temporali.

Figura 3.9 Correlazione fra esito del ciclo ed esito di ogni variabile per quattro diversi istanti temporali

L’analisi della correlazione ha evidenziato come la predizione di alcune variabili non sia utile ai fini dell’individuazione dell’esito del ciclo di sterilizzazione (la correlazione con l’attributo class è molto bassa), inoltre, osservando la correlazione fra coppie di variabili, alcune di esse risultano essere ridondanti in quanto fortemente correlate tra loro come è possibile vedere nell’esempio riportato in Figura 3.10.

v1 v2 v3 v4 v5 v6 v7 v8 v9 v10 v11 v12 v13 v14 v15 v16 v17 v18 v19 v20 v21 v22 v23 v24 v25 v26 v27 v28 v29 v30 v31 v32 v33 v34 v35 v36 v37 v38 3600 3000 2400 1800 media

37

Figura 3.10 Matrice di correlazione fra le variabili

Alla luce delle osservazioni precedenti si è quindi cercato un sottoinsieme delle variabili le cui caratteristiche fossero la maggiore correlazione con l’attributo class e la minore correlazione fra loro, per stabilire un criterio di scelta dell’esito del ciclo. Osservando la Figura 3.9, in particolare l’ultima riga, si può notare come le variabili v1, v11, v28 corrispondenti rispettivamente ai sensori ITP_AE-066-481-01- Hum.P10.PV, ITP_AE-066-492-03-Hum.P10.PV – relativi al controllo

dell’umidità – e ITP_TE-066-483-01.P10.PV – relativo al controllo della temperatura – siano quelle che evidenziano una maggiore correlazione con l’esito finale nei quattro casi considerati. A seguito di analisi euristiche, il criterio scelto consiste nel predire l’esito finale del ciclo guardando gli esiti delle tre variabili sopra indicate e prendendo quello maggioritario.

Per la valutazione delle prestazioni del modello, oltre all’accuratezza generale, si sono usate le metriche descritte in [9]. Queste sono particolarmente utili in presenza di una distribuzione delle classi sbilanciata, come nel caso in oggetto. Considerando infatti la sola accuratezza, un modello che predice sempre la classe Bad come esito del ciclo raggiungerebbe il 64,58%. Un classificatore di questo tipo sarebbe però completamente inutile, per questo nella valutazione vengono considerate anche le misure di:

38

 Recall: che esprime la frazione di esempi correttamente predetti su tutti quelli della stessa classe presenti nel dataset;  Precision: che esprime la frazione di esempi correttamente predetti su tutti quelli classificati come appartenenti alla stessa classe;

 F1-measure: che riassume le due misure precedenti in una

misura unica, calcolata come 𝐹1 = 2 ×𝑟𝑒𝑐𝑎𝑙𝑙 × 𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛𝑟𝑒𝑐𝑎𝑙𝑙 + 𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 In questo modo è possibile capire il comportamento del modello focalizzato per le due classi.

Con l’utilizzo del criterio precedentemente descritto si è valutata la prestazione del modello nei tre differenti periodi.

Nel primo caso, dopo 30 minuti dall’inizio del ciclo, l’accuratezza totale è del 66,67% classificando i cicli come visibile in Tabella 3.1.

Predizione Good Bad Classi reali

Good 7 10

Bad 6 25

Tabella 3.1 Matrice di confusione per il primo caso considerato

I risultati poco significativi ottenuti sono dovuti al comportamento delle variabili nell’intervallo temporale considerato. Come si può notare anche dagli esempi in Figura 3.4 e Figura 3.5, infatti, non si evidenziano valori significativi per le variabili, che rimangono per lo più costanti non permettendo di discriminare l’esito dei cicli. Ad ulteriore conferma si possono considerare i valori di recall e precisione per la classe Good contenuti in Tabella 3.2, da cui emerge chiaramente il problema nel riuscire a classificare questi cicli in presenza del comportamento delle variabili appena descritto.

39 Veri positivi Falsi positivi Veri negativi Falsi negativi

Recall Precisione F1-measure Accuratezza

Good 7 6 25 10 41,18% 53,85% 46,67%

Bad 25 10 7 6 80,65% 71,43% 75,76%

Totale 66,67%

Tabella 3.2 Statistiche accuratezza per il primo caso considerato

Nel secondo caso analizzato, eseguito dopo 40 minuti, si nota un miglioramento generale, arrivando ad una accuratezza del 72,92% classificando i cicli come visibile in Tabella 3.3.

Predizione Good Bad Classi reali

Good 9 8

Bad 5 26

Tabella 3.3 Matrice di confusione per il secondo caso considerato

Osservando la Tabella 3.4, ed in particolate il valore F1-measure, si

nota come sia migliorata in maniera significativa la valutazione soprattutto per la classe Good. Mentre dalla sola osservazione dai grafici sull’andamento delle variabili si può solo intuire come in questa fase le rilevazioni inizino ad assumere valori significativi, questi risultati dimostrano in più come i comportamenti fra i cicli con esito Good e quelli con esito Bad inizino a differenziarsi fra loro.

Veri positivi Falsi positivi Veri negativi Falsi negativi Recall Precisione F1- measure Accuratezza Good 9 5 26 8 52,94% 64,29% 58,06% Bad 26 8 9 5 83,87% 76,47% 80% Totale 72,92%

Tabella 3.4 Statistiche accuratezza per il secondo caso considerato

Per il terzo caso, effettuato dopo 50 minuti dall’inizio del ciclo, si conferma la tendenza al miglioramento dell’accuratezza raggiungendo il 79,17%.

40

Predizione Good Bad Classi reali Good 11 6

Bad 4 27

Tabella 3.5 Matrice di confusione per il terzo caso considerato

Il miglioramento più evidente si ha nella classificazione della classe Good. L’aumento dei valori di recall e precisione, visibile in Tabella 3.6, fa infatti capire come si riesca allo stesso tempo sia ad individuare un maggior di casi appartenenti a questa classe sia ad essere maggiormente accurati nel farlo. Anche in questo caso i risultati dicono che all’avanzare del ciclo aumentano le possibilità di differenziare i due esiti.

Veri positivi Falsi positivi Veri negativi Falsi negativi

Recall Precisione F-measure Accuratezza

Good 11 4 27 6 64,71% 73,33% 68,75%

Bad 27 6 11 4 87,10% 81,82% 81,82%

Totale 79,17%

Tabella 3.6 Statistiche accuratezza per il terzo caso considerato

L’ultimo caso analizzato riguarda il confronto fra i valori rilevati dopo un’ora dall’inizio del ciclo. Qui si è ottenuta un’accuratezza totale della previsione del 83,33%, raggiunta classificando correttamente 40 cicli sui 48 totali, come visibile in Tabella 3.7. Si tratta di un risultato significativo che conferma la bontà del metodo scelto anche per questo caso specifico. Predizione Good Bad Classi reali Good 12 5 Bad 3 28

Tabella 3.7 Matrice di confusione per il quarto caso considerato

Data la maggior criticità nell’individuare un ciclo prossimo al fallimento, un dato importante è il valore elevato della F1-measure per la

41

un gran numero di casi appartenenti a questa classe (il 90,32%), ma che inoltre riesce a farlo con una notevole accuratezza (superiore al 84%).

Veri positivi Falsi positivi Veri negativi Falsi negativi

Recall Precisione F-measure Accuratezza

Good 12 3 28 5 70,59% 80% 75%

Bad 28 5 12 3 90,32% 84,85% 87,49%

Totale 83,33%

Tabella 3.8 Statistiche accuratezza per il quarto caso considerato

Documenti correlati