• Non ci sono risultati.

sente di ottenere tali risultati è mostrata nella Tabella 6.24. Tale configurazione è anche la migliore in termini di Lift per la categoria Nu-classification.

METRICA GIOVANI ADULTI

[0,4610] [0,5390]

Accuracy 0,5073 0,6025

Best Lift e

Recall 0,3537 0,7404

Recall globale Recall globale = 0,5739 Lift = 1,0077 C = 0,125 ν= 0,80

UGM normalizzata Kernel: LINEARE Scaling: -

Tabella 6.24: dataset Yahoo! - Risultati per la caratterizzazione degli utenti in base all’età,

applicando il metodo basato su SVM in modalità Nu-classification. Con questa configurazione di parametri si ottengono sia il miglior Lift che la migliore Recall globale.

Test con minore numero di generi

Analogamente a quanto visto per il dataset MovieLens, i risultati dei test effettuati eliminando i rating associati ai generi di film ritenuti meno significativi dall’utente dalla matrice UGMnorm sono inferiori rispetto alle configurazioni che garantiscono le migliori performance descritte in questo capitolo. Utilizzando ad esempio la modalità C-classification, uno scaling compreso tra 0 e 1 ed un kernel di tipo radiale con un numero massimo di generi preferiti pari a 3, otteniamo una Recall globale uguale a 0,70954 ed un Lift pari a 0,9878, risultati quindi decisamente inferiori rispetto alla versione standard del test con gli stessi settaggi.

6.3

Confronto dei risultati ottenuti

In questo paragrafo si effettua un confronto tra i migliori risultati ottenuti per ciascuna tipologia di test, con l’obiettivo di individuare l’algoritmo di base che fornisca le migliori prestazioni per ciascuna tipologia in esame.

Nella prima sezione sono riportate le considerazioni effettuate analizzando i risultati relativi all’inferenza del sesso, facendo riferimento dapprima ai test eseguiti sul dataset MovieLens ed in seguito ai corrispettivi test effettuati sul

dataset Yahoo!; nel Paragrafo 6.3.2, invece, sono mostrati i migliori risultati ottenuti nei test sull’inferenza dell’età degli utenti, prima relativamente al dataset MovieLens, poi al dataset Yahoo!.

6.3.1 Inferenza del sesso

Per quanto riguarda i test sull’inferenza del sesso degli utenti del dataset MovieLens, i migliori risultati vengono ottenuti applicando la soluzione ba- sata su SVM, che determina un Lift pari a 1,0821 ed una Recall complessiva pari a 0,7925, entrambe superiori ai corrispettivi valori ricavati applicando le metodologie che utilizzano AR ed SVD.

Anche dal punto di vista delle singole classi, SVM fornisce risultati migliori rispetto a quelli ottenuti applicando gli altri due algoritmi di classificazione; l’unica metrica per cui l’applicazione di SVM non garantisce il miglior risultato è la Recall della classe FEMMINE, per cui SVD consente di ottenere un valore pari a 0,4765, superiore al valore 0,3897 registrato per i test basati su SVM. La Tabella 6.27 mostra i migliori risultati ottenuti per ciascuna delle tre soluzioni implementate. METRICA AR SVD SVM Lift 1,0440 1,0484 1,0821 Recall Globale 0,7488 0,7533 0,7925 Recall MASCHI 0,9341 0,8617 0,9397 Recall FEMMINE 0,2790 0,4765 0,3897 Accuracy Globale 0,7488 0,7533 0,7925 Accuracy MASCHI 0,7665 0,8078 0,8082 Accuracy FEMMINE 0,6265 0,5745 0,7026

Tabella 6.25: confronto tra i migliori risultati in termini di Recall globale, ottenuti nei test di

inferenza del sesso degli utenti appartenenti al dataset MovieLens applicando i tre algoritmi di base.

I risultati per l’inferenza del sesso degli utenti del dataset Yahoo! sono globalmente inferiori rispetto a quelli relativi al dataset MovieLens riportati in Tabella 6.25. In questo caso i risultati ottenuti per le tre metodologie di classificazione sono simili, contrariamente a quanto avveniva relativamente a MovieLens, in cui la soluzione basata su SVM garantiva risultati migliori per tutte le metriche di valutazione. Anche per questa tipologia di test SVM

6.3. Confronto dei risultati ottenuti | 136|

consente di ottenere i risultati migliori a livello globale, ma il divario con AR ed SVD è molto limitato.

Per quanto riguarda le Recall delle singole classi, le migliori performance per la classe MASCHI si ottengono applicando le Regole di Associazione, ottenendo un valore pari a 0,9516, mentre il migliore risultato per la classe FEMMINE (0,2697) è ricavato dall’applicazione di SVD. Utilizzando SVM, invece, si ottengono risultati leggermente inferiori ai due migliori, ma la combinazione risulta essere la più equilibrata, essendo i due valori di Recall così ottenuti pari a 0,9330 e 0,2610.

METRICA AR SVD SVM Lift 1,0271 1,0201 1,0387 Recall Globale 0,7328 0,7314 0,7393 Recall MASCHI 0,9516 0,9136 0,9330 Recall FEMMINE 0,1880 0,2697 0,2610 Accuracy Globale 0,7328 0,7314 0,7393 Accuracy MASCHI 0,7448 0,7612 0,7571 Accuracy FEMMINE 0,6093 0,5521 0,6121

Tabella 6.26: confronto tra i migliori risultati in termini di Recall globale, ottenuti nei test di

inferenza del sesso degli utenti appartenenti al dataset Yahoo! applicando i tre algoritmi di base.

6.3.2 Inferenza dell’età

Per quanto riguarda il dataset MovieLens l’applicazione di SVM consente di ricavare i migliori risultati per tutte le metriche di valutazione, ad eccezione della Recall associata alla classe ADULTI. In particolare dall’applicazione di tale metodologia si ottengono valori di Lift e Recall complessiva pari rispet- tivamente a 1,1305 e 0,6071. Inoltre quello basato su SVM è l’unico metodo che consente di assegnare degli utenti alla classe GIOVANISSIMI, anche se il valore di Recall ottenuto è pari a 0,0250; il valore di Accuracy corripondente è pari ad uno, segno che l’algoritmo ha correttamente classificato tutti gli utenti individuati per tale classe.

Per il dataset Yahoo! la migliore configurazione si ottiene suddividendo gli utenti in due classi di età: GIOVANI ed ADULTI; non è quindi possibile effettuare un confronto con il dataset MovieLens, visto che i migliori risultati

METRICA AR SVD SVM Lift 1,0710 1,0401 1,1305 Recall Globale 0,5672 0,5419 0,6071 Recall GIOVANISSIMI − − 0,0250 Recall GIOVANI 0,8371 0,6896 0,8468 Recall ADULTI 0,3342 0,5182 0,4164 Recall ANZIANI − − − Accuracy Globale 0,5672 0,5419 0,6071 Accuracy GIOVANISSIMI − − 1,0000 Accuracy GIOVANI 0,5873 0,6123 0,6257 Accuracy ADULTI 0,5054 0,4439 0,5558 Accuracy ANZIANI − − −

Tabella 6.27: confronto tra i migliori risultati in termini di Recall globale, ottenuti nei test di

inferenza dell’età degli utenti appartenenti al dataset MovieLens applicando i tre algoritmi di base.

per tale base di dati si ricavano suddividendo gli utenti in quattro classi. Il miglior Lift si registra applicando il metodo delle Regole di Associazione ed è pari a 1,0506, mentre la migliore Recall è pari a 0,5941 e si ottiene con il metodo basato su SVM. Come già osservato nel caso dei test sulla caratterizzazione del sesso degli utenti, nel dataset Yahoo! la superiorità di SVM è meno marcata rispetto a quanto verificato per MovieLens. Analizzando i dati relativi alle Recall delle due classi di età, tuttavia, si può notare come i valori riscontrati per SVM siano nettamente più equilibrati rispetto alle altre due metodologie, essendo pari 0,5623 a per la classe GIOVANI e a 0,5796 per la classe ADULTI. In conclusione è possibile affermare che la soluzione basata su SVM si mostra senza dubbio la più performante tra le tre implementate per quanto riguarda il dataset MovieLens, consentendo di ottenere i migliori risultati sia per le metriche globali, che relativamente alle singole classi.

I risultati ottenuti per il dataset Yahoo!, invece, si dimostrano essere più simili a livello globale, anche se l’applicazione di SVM fornisce valori più equilibrati tra le Recall delle varie classi, e risulta quindi essere preferibile rispetto all’utilizzo di AR ed SVD.

6.3. Confronto dei risultati ottenuti | 138| METRICA AR SVD SVM Lift 1,0506 1,0212 1,0074 Recall Globale 0,5654 0,5473 0,5941 Recall GIOVANI 0,3077 0,4934 0,5623 Recall ADULTI 0,7864 0,5940 0,5796 Accuracy Globale 0,5654 0,5473 0,5941 Accuracy GIOVANI 0,5538 0,5128 0,1921 Accuracy ADULTI 0,5711 0,5752 0,8817

Tabella 6.28: confronto tra i migliori risultati in termini di Recall globale, ottenuti nei test di

Combinazione di classificatori

Indice

6.1 Dataset MovieLens . . . 114

6.1.1 Risultati relativi all’inferenza del sesso . . . 115 6.1.2 Risultati relativi all’inferenza dell’età . . . 120

6.2 Dataset Yahoo! . . . 126

6.2.1 Risultati relativi all’inferenza del sesso . . . 126 6.2.2 Risultati relativi all’inferenza dell’età . . . 130

6.3 Confronto dei risultati ottenuti . . . 134

6.3.1 Inferenza del sesso . . . 135 6.3.2 Inferenza dell’età . . . 136

In questo capitolo vengono presentate le soluzioni implementate per la combinazione delle predizioni fornite dagli algoritmi di base relativamente al Lifestyle degli utenti. Dopo aver descritto nel Paragrafo 7.1 gli schemi implementativi seguiti, vengono mostrati i risultati per entrambe le soluzioni implementate (Paragrafo 7.2); il confronto con i risultati ottenuti applicando separatamente i singoli algoritmi è invece presentato nel Paragrafo 7.3.