In questo paragrafo sono mostrati i risultati dell’applicazione delle due metodologie di combinazione di classificatori implementate, la prima ottenuta ricorrendo alle tecniche di Grading e Weighted Voting, la seconda che prevede l’utilizzo delle tecniche di Arbitro e Weighted Voting.
7.2.1 Grading e Weighted Voting
Come illustrato nel Paragrafo 7.1.2, tale soluzione è suddivisa in due fasi: nella prima si producono per ciascun utente le stime dei classificatori di base e dei relativi grader, nella seconda si assegnano gli utenti alle classi utilizzando la tecnica del Voting. Mentre la prima fase è comune per i test basati sul sesso e sull’età, la seconda è stata implementata in due modi differenti a seconda del tipo di test effettuato.
Risultati relativi all’inferenza del sesso
Nei test effettuati per l’inferenza del sesso degli utenti, la votazione è stata implementata calcolando un punteggio per ciascun utente dell’insieme di test secondo le seguenti regole:
• se l’algoritmo assegna l’utente alla classe MASCHIO e il grader valuta positivamente la previsione effettuata, il punteggio associato all’utente in esame viene incrementato di 1;
• se l’algoritmo assegna l’utente alla classe FEMMINA e il grader valuta positivamente la previsione effettuata, il punteggio associato all’utente in esame viene decrementato di 1;
• se il grader valuta in modo negativo la previsione, indipendentemente dalla classe predetta, il punteggio associato all’utente in esame non viene modificato;
• se l’algoritmo di base non assegna l’utene ad alcuna classe, il punteggio associato all’utente in esame non viene modificato.
Un punteggio totale positivo, di conseguenza, indica che la maggioranza dei metodi di base per i quali il corrispondente grader ha valutato corretta- mente la previsione ha assegnato l’utente alla classe MASCHIO; l’ottenimento
7.2. Risultati | 148|
di un punteggio negativo, invece, indica che la maggioranza dei metodi ha assegnato l’utente alla classe FEMMINA.
A partire dai risultati ottenuti utilizzando la configurazione di base sono in seguito stati effettuati dei test modificando il valore di soglia utilizzato come discriminante nell’assegnazione degli utenti alle due classi. L’utilizzo di un valore di soglia inferiore allo zero indica che la maggioranza richiesta per l’assegnazione di un utente alla classe FEMMINE è superiore rispetto a quella necessaria nel caso base, con soglia uguale a zero. L’utilizzo di valori di soglia maggiori di zero, invece, indica l’uso di criteri più restrittivi per l’assegnazione degli utenti alla classe MASCHI.
Successivamente sono stati eseguiti test con l’obiettivo di verificare l’utilità dell’utilizzo della tecnica del Grading: sono state sperimentate varie possibilità, nelle quali tale tecnica è stata applicata soltanto ad alcuni sottoinsiemi dei classificatori di base. L’unica configurazione che ha consentito di ottenere risultati significativi è quella in cui non si applica il Grading ai classificatori di base che utilizzano SVM.
Per completare l’analisi si è quindi provveduto ad effettuare una serie di test nei quali si sono modificati di volta in volta i pesi associati ai singoli classificatori di base, con l’obiettivo di individuare una configurazione che consentisse di ottenere le migliori performance.
La Tabella 7.2 mostra la configurazione per cui si ottengono i migliori risultati in termini assoluti, ottenuta senza applicare la tecnica del Grading ai classificatori che utilizzano SVD. In questo caso sono stati raddoppiati i pesi associati alla classe MASCHI per quanto riguarda i metodi tradizionali, e FEMMINE per quanto riguarda i classificatori bilanciati. La soglia applicata è uguale a zero.
I risultati più equilibrati, invece, si ottengono applicando un grader a tutti i classificatori di base (Tabella 7.3). In questo caso sono stati raddoppiati i pesi associati alla classi FEMMINE per quanto riguarda i metodi tradizionali, e MASCHI per quanto riguarda i classificatori bilanciati; la soglia applicata è pari ad uno.
Risultati relativi all’inferenza dell’età
In questa tipologia di test sono stati calcolati per ciascun utente quattro punteggi, ognuno corrispondente ad una delle classi previste, assegnando
METRICA Soglia = 0 Recall Globale 0,7638 Recall MASCHI 0,9284 Recall FEMMINE 0,3624 Accuracy Globale 0,7638 Accuracy MASCHI 0,7803 Accuracy FEMMINE 0,6749 Lift 1,0770
Tabella 7.2: i migliori risultati ottenuti applicando le tecniche di Grading e Weighted Voting
per l’inferenza del sesso degli utenti del dataset MovieLens. La configurazione prevede di applicare un grader a tutti i classificatori di base ed assegnare ad ognuno di essi un peso
unitario. METRICA Soglia = 1 Recall Globale 0,7434 Recall MASCHI 0,8234 Recall FEMMINE 0,5484 Accuracy Globale 0,7434 Accuracy MASCHI 0,8164 Accuracy FEMMINE 0,5601 Lift 1,0482
Tabella 7.3: i risultati più equilibrati ottenuti applicando le tecniche di Grading e Weighted
Voting per l’inferenza del sesso degli utenti del dataset MovieLens, ottenuti applicando un grader a tutti i classificatori di base e raddoppiando il peso associato alla classe FEMMINE
7.2. Risultati | 150| METRICA VALORE Recall Globale 0,5982 Recall GIOVANISSIMI 0,0448 Recall GIOVANI 0,8784 Recall ADULTI 0,3338 Recall ANZIANI 0,0182 Accuracy Globale 0,5982 Accuracy GIOVANISSIMI 0,3000 Accuracy GIOVANI 0,6099 Accuracy ADULTI 0,5871 Accuracy ANZIANI 0,1053 Lift 1,1073
Tabella 7.4: i migliori risultati ottenuti applicando le tecniche di Grading e Weighted Voting
per l’inferenza del sesso degli utenti del dataset MovieLens, ottenuti applicando un grader a tutti i classificatori di base e raddoppiando il peso associato alle classi GIOVANI ed ADULTI
per i metodi tradizionali e GIOVANISSIMI ed ANZIANI per i metodi bilanciati
l’utente alla classe per la quale è stato ottenuto il punteggio maggiore. Rispetto ai test basati sull’inferenza del sesso, quindi, non sono previsti valori di soglia per l’assegnazione alle classi; anche per questa tipologia di test sono state sperimentate configurazioni di pesi differenti
La Tabella 7.4 mostra la configurazione che consente di ottenere il miglior Lift, pari a 1,10730. In questa configurazione si conferisce un peso doppio ai voti relativi alle classi GIOVANI ed ADULTI per quanto riguarda i metodi non bilanciati; relativamente ai metodi bilanciati, invece, si è scelto di privilegiare i voti assegnati alle classi estreme, in modo da ottenere una distribuzione equi- librata, ma che non andasse troppo ad impattare sulle performance relative alle classi più popolate
La Tabella 7.5 mostra i risultati ottenuti mantenendo immutati i pesi as- sociati alla classe GIOVANI per tutti i classificatori e raddoppiando i pesi associati alle altre classi. Questa combinazione è stata sperimentata per limita- re il peso dei voti alla classe GIOVANI; essendo tale classe la più popolata si registra una diminuzione dei valori complessivi, al quale corrisponde però l’ottenimento di buone performnce per le altre classi previste.
METRICA VALORI Recall Globale 0,4752 Recall GIOVANISSIMI 0,3731 Recall GIOVANI 0,5240 Recall ADULTI 0,4253 Recall ANZIANI 0,4000 Accuracy Globale 0,4752 Accuracy GIOVANISSIMI 0,1101 Accuracy GIOVANI 0,6895 Accuracy ADULTI 0,4745 Accuracy ANZIANI 0,1739 Lift 0,8795
Tabella 7.5: i risultati più equilibrati ottenuti applicando le tecniche di Grading e Weighted
Voting per l’inferenza dell’età degli utenti del dataset MovieLens, ottenuti applicando un grader a tutti i classificatori di base e raddoppiando il peso associato a tutte le classi ad
eccezione della classe GIOVANI.
7.2.2 Arbitro e Weighted Voting
Anche questa metodologia prevede la realizzazione di due fasi implemen- tative: inizialmente si effettua la stima del Lifestyle degli utenti applicando i classificatori di base; in seguito, per tutti gli utenti per i quali non si è rag- giunta l’unanimità delle predizioni fornite nella prima fase, si costruisce un ulteriore classificatore, in grado di risolvere i conflitti registrati in precedenza. In questo paragrafo vengono mostrati in primo luogo i risultati dei test per l’inferenza del sesso, successivamente quelli dell’età, entrambi eseguiti sul dataset MovieLens.
Risultati relativi all’inferenza del sesso
In questa tipologia si utilizzano quattro classificatori di base: due basati sulle Regole di Associazione e due su SVD, sia in versione bilanciata che non.
Per quanto riguarda la fase di Voting si calcola un punteggio per ciascun utente, che viene determinato secondo le seguenti regole:
1. se l’arbitro assegna l’utente alla classe MASCHI, il punteggio viene incrementato di due;
7.2. Risultati | 152|
2. se l’arbitro assegna l’utente alla classe FEMMINE, il punteggio viene decrementato di due;
3. se un classificatore di base assegna l’utente alla classe MASCHI, il punteggio viene incrementato di uno;
4. se un classificatore di base assegna l’utente alla classe FEMMINE, il punteggio viene decrementato di uno;
5. se un classificatore di base non assegna l’utente ad alcuna classe, il punteggio non viene modificato.
A differenza della soluzione basata sul Grading sono state utilizzate due soglie per l’assegnazione degli utenti alle classi: se il punteggio ottenuto da un utente è risultato inferiore alla prima soglia l’utente è stato assegnato alla classe FEMMINE mentre gli utenti con punteggi maggiori rispetto alla seconda soglia sono stati assegnati alla classe FEMMINE. Agli utenti il cui punteggio è compreso tra le due soglie è stata assegnata la classe predetta dall’arbitro, che si occupa quindi di giudicare le situazioni di maggiore incertezza.
Pur avendo sperimentato un numero significativo di combinazioni di pesi assegnate ai vari classificatori, le migliori performance sia in termini assoluti che in termini di equilibrio tra le varie classi si ottengono per quella di base, in cui tutti i classificatori hanno peso unitario; la Tabella 7.6 mostra i risultati ottenuti per tale configurazione.
Stabilendo un intervallo di incertezza maggiore, cioè dando maggiore importanza all’arbitro, si ottiene una diminuzione dei valori associati alle metriche globali, ma si può notare un miglioramento della Recall della classe FEMMINE.
Risultati relativi all’inferenza dell’età
Per i test relativi all’inferenza dell’età si utilizzano solamente due clas- sificatori nella prima fase: uno basato su SVD in versione bilanciata, l’altro sulle Regole di Associazione, anch’esso in versione bilanciata. Tale scelta è stata motivata dal fatto che i classificatori non bilanciati non assegnano utenti alle classi meno popolate; di conseguenza il loro utilizzo nella fase iniziale favorirebbe l’assegnazione degli utenti alle classi più popolate.
Nella fase di Voting si è seguito il medesimo schema previsto per la solu- zione basata sul Grading calcolando quattro punteggi per ciascun utente, ed
METRICA SogliaM =1 SogliaM = 3 SogliaF =-1 SogliaF = -3 Recall Globale 0,7483 0,7185 Recall MASCHI 0,8920 0,8210 Recall FEMMINE 0,3586 0,4451 Accuracy Globale 0,7483 0,7185 Accuracy MASCHI 0,7905 0,7993 Accuracy FEMMINE 0,5503 0,4759 Lift 1,0242 0,9777
Tabella 7.6: risultati relativi all’inferenza del sesso degli utenti del dataset MovieLens appli-
cando le tecniche di Arbitro e Weighted Voting. La prima colonna mostra i risultati migliori in termini di Lift, ottenuti assegnando peso unitario e ricorrendo a soglie pari ad 1 e −1. La seconda colonna mostra i risultati più equilibrati tra quelli ottenuti, in cui le soglie utilizzate
sono 3 e −3, mentre la distribuzione dei pesi rimane immutata.
assegnandolo alla classe per la quale è stato ottenuto il punteggio più alto; in questa fase sono stati utilizzati tutti i classificatori, sia in versione bilanciata che non bilanciata. Anche in questo caso la migliore configurazione in termini assoluti si ottiene applicando un peso unitario a tutti i classificatori; i risul- tati per tale configurazione sono mostrati nella Tabella 7.7. Assegnando un peso doppio ai voti associati ai classificatori non bilanciati,invece, si ottiene la configurazione mostrata in Tabella 7.8 che risulta essere quella maggiormente bilanciata per questa tipologia di test.
7.2. Risultati | 154| METRICA VALORE Recall Globale 0,4393 Recall GIOVANISSIMI 0,1765 Recall GIOVANI 0,5768 Recall ADULTI 0,2866 Recall ANZIANI 0,3273 Accuracy Globale 0,4393 Accuracy GIOVANISSIMI 0,0916 Accuracy GIOVANI 0,6057 Accuracy ADULTI 0,4444 Accuracy ANZIANI 0,1088 Lift 0,8257
Tabella 7.7: i migliori risultati relativi all’inferenza dell’età degli utenti del dataset MovieLens
applicando le tecniche di Arbitro e Weighted Voting, ottenuti assegnando peso unitario a tutti i classificatori di base ed un peso doppio all’Arbitro.
METRICA VALORE Recall Globale 0,4426 Recall GIOVANISSIMI 0,1765 Recall GIOVANI 0,5654 Recall ADULTI 0,3119 Recall ANZIANI 0,3273 Accuracy Globale 0,4426 Accuracy GIOVANISSIMI 0,0916 Accuracy GIOVANI 0,6165 Accuracy ADULTI 0,4485 Accuracy ANZIANI 0,1088 Lift 0,8320
Tabella 7.8: i risultati più equilibrati relativi all’inferenza dell’età degli utenti del dataset
MovieLens applicando le tecniche di Arbitro e Weighted Voting, ottenuti raddoppiando il peso associato ai classificatori bilanciati ed all’Arbitro.