6.2
Dataset Yahoo!
Le tipologie di test eseguite sul dataset Yahoo! e gli algoritmi utilizzati sono i medesimi già presentati per il dataset MovieLens; nel seguito sono presentati i risultati ottenuti.
6.2.1 Risultati relativi all’inferenza del sesso
La suddivisione tra utenti maschi e femmine all’interno del dataset Yahoo! è molto simile alla ripartizione mostrata in precedenza, relativa al dataset MovieLens: gli utenti della classe MASCHI, infatti, sono 5 436 e corrispondono al 71,3% del totale, mentre il restante 28, 7% è costituito da utenti femmine.
Regole Di Associazione
Per quanto riguarda la metodologia basata sulle Regole di Associazione, il migliore risultato ottenuto in termini di Lift viene raggiunto utilizzando valori di confidenza e supporto pari rispettivamente a 0,59 e 185. Come mostrato nella Tabella 6.13, applicando tale combinazione di parametri si ottiene anche la migliore performance in termini di Recall Globale, che è pari a 0,7328.
METRICA MASCHI FEMMINE TOTALE
[0,7130] [0,2870]
Recall 0,9516 0,1880 -
Accuracy 0,7448 0,6093 -
Best Lift e Utenti Assegnati 2313 224 2357
Recall globale Utenti Non Assegnati 0 0 0
Regole Generate 113 8 121
Recall Globale = 0,7328 Lift = 1,0271
confidenza = 0,59 supporto = 185
Tabella 6.13: dataset Yahoo! - Risultati per la caratterizzazione degli utenti in base al sesso,
applicando il metodo basato sulle AR. Con questa configurazione di parametri si ottengono sia il miglior Lift che la migliore Recall globale.
Analizzando i risultati è possibile notare come per entrambe le classi il valore di Accuracy ottenuto sia superiore alla percentuale di utenti presenti; in particolare per la classe FEMMINE si registra una Accuracy pari a 0,6093 rispetto ad una percentuale pari a 28,7%. Per quanto riguarda la Recall, invece,
si registra un ottimo risultato per la classe MASCHI, pari a 0,9516, mentre per la classe FEMMINE sono stati individuati meno di un quinto degli utenti presenti nell’insieme di test; ciò è probabilmente dovuto all’elevato numero di regole generate per la classe MASCHI, per la quale sono state prodotte ben 113regole, contro le 8 prodotte per la classe FEMMINE.
Singular Value Decomposition
La configurazione per cui si ottengono i migliori risultati in termini di Lift e di Recall globale è quella in cui si utilizza una sola colonna per la descri- zione del sesso degli utenti e in cui si scelgono valori di k e t pari a 2 e −0,48. Utilizzando tale configurazione il numero di utenti non assegnati ad alcuna classe è pari a zero e si registrano valori di Accuracy per le due classi pari a 0,7612per i MASCHI e 0,5521 per le FEMMINE, entrambe superiori alla per- centuale di utenti presenti; l’Accuracy globale ottenuta è invece pari a 0,7314. Analizzando i risultati ottenuti in termini di Recall, invece, è possibile notare come si ottengano risultati elevati per la classe MASCHI, per cui si ottiene una Recall pari a 0,9136, mentre per la classe FEMMINE si ottiene un valore pari a 0,2697, inferiore rispetto alla percentuale di utenti nella classe. I risultati relati- vi alle due classi si riflettono in una Recall globale pari a 0,7314, esattamente lo stesso valore ottenuto per l’Accuracy, non essendovi utenti per i quali non sia stata effettuata la categorizzazione. I risultati ottenuti per questo tipo di configurazione sono riportati nella Tabella 6.14.
METRICA MASCHI FEMMINE TOTALE
[0,7130] [0,2870]
Recall 0,9136 0,2697 -
Accuracy 0,7612 0,5521 -
Best Lift e Utenti Assegnati 1976 317 2284
Recall globale Utenti Non Assegnati 0 0 0
Recall Globale = 0,7314 Lift = 1,0201
kbest= 2 tbest= −0,48
Tabella 6.14: dataset Yahoo! - Risultati per la caratterizzazione degli utenti in base al sesso,
applicando il metodo basato su SVD. Con questa configurazione di parametri si ottengono sia il miglior Lift che la migliore Recall globale.
6.2. Dataset Yahoo! | 128|
degli utenti, la configurazione per la quale si ottengono i risultati migliori prevede l’uso di valori di t e k pari rispettivamente a −0,5 ed 1. É possibile notare come, applicando tale configurazione, tutti gli utenti siano assegnati alla classe MASCHI e, di conseguenza, si ottenga un valore pari ad 1 per la Recall relativa a tale classe. Il valore ottenuto per la Recall Globale, invece, è pari a 0,7130 e coincide con la percentuale di utenti che compongono la classe MASCHI. La mancata assegnazione di utenti alla classe FEMMINE fa si che il Lift sia pari ad 1.
Support Vector Machines
I risultati ottenuti per la modalità C-classification per il dataset di Yahoo! sono contenuti nella Tabella 6.15.
Matrice
Kernel Scaling C γ Lift Recall Accuracy
Utilizzata globale globale
UGMnorm Lineare - 32768 - 1,0006 0,7205 0,7205 Lineare V [0, 1] 32768 - 0,9988 0,7047 0,7047 Lineare A[0, 1] 32768 - 1,0257 0,7329 0,7323 Lineare V[−1, 1] 32768 - 1,0030 0,7205 0,7205 Lineare A[−1, 1] 32768 - 1,0024 0,7161 0,7161 Radiale - 32768 8 1,0018 0,7196 0,7196 Radiale V[0,1] 32768 8 1,0086 0,7161 0,7161 Radiale A[0,1] 32768 8 1,0387 0,7393 0,7393 Radiale V[−1,1] 32768 8 1,0018 0,7196 0,7196 Radiale A[−1,1] 32768 8 0,9382 0,6706 0,6706 UGMnoNorm Lineare A[0, 1] 512 - 0,9994 0,7152 0,7152 Lineare A[−1, 1] 32768 - 1,0154 0,7227 0,7227 Radiale A[0,1] 32768 8 1,0219 0,7340 0,7340 Radiale A[−1,1] 32768 8 1,0231 0,7349 0,7349
Tabella 6.15: Inferenza del sesso sul dataset Yahoo! attraverso l’utilizzo di una SVM in
modalità C-classification. Le lettere ’V’ e ’A’ indicano rispettivamente l’utilizzo dello scaling solo durante la procedura di Cross Validation e il caso in cui esso viene applicato anche nella
fase di apprendimento e test.
Il miglior risultato in termini di Recall globale (0,7393) si ottiene facendo riferimento ad un kernel di tipo radiale ed applicando uno scaling totale nell’intervallo (0, 1), con C che assume il valore 32768, mentre γ è pari a 8. Le Accuracy e le Recall delle singole classi assumono i valori espressi dalla Tabella 6.16. Tale configurazione permette anche di ottenere il miglior risultato in termini di Lift (1,0387) per la modalità C-classification.
METRICA MASCHI FEMMINE [0,7130] [0,2870]
Accuracy 0,7571 0,6121
Best Lift e
Recall 0,9330 0,2610
Recall globale Recall globale = 0,7393 Lift = 1,0387 C = 32768 γ= 8
UGM normalizzata
Kernel: RADIALE Scaling: [0, 1]
Tabella 6.16: dataset Yahoo! - Risultati per la caratterizzazione degli utenti in base al sesso,
applicando il metodo basato su SVM in modalità C-classification. Con questa configurazione di parametri si ottengono sia il miglior Lift che la migliore Recall globale.
Basandoci sulla modalità Nu-classification, invece sono stati ottenuti i risultati mostrati nella Tabella 6.17.
Matrice
Kernel Scaling C γ ν Lift Recall Accuracy
Utilizzata globale globale
UGMnorm Lineare A[0, 1] 0,125 - 0,30 0,4665 0,332 0,332 Lineare V[0, 1] 0,125 - 0,50 1,0081 0,7113 0,7113 Lineare A[−1, 1] 0,125 - 0,50 0,3906 0,2813 0,2813 Lineare V[−1, 1] 0,125 - 0,50 0,5621 0,4077 0,4077 Radiale A[0, 1] 0,125 0,125 0,50 1,0460 0,7222 0,7222 Radiale A[−1, 1] 0,125 2−11 0,16 0,3721 0,2673 0,2673 UGMnoNorm Lineare A[0, 1] 0,125 - 0,50 1,0302 0,7152 0,7152 Lineare A[−1, 1] 0,125 - 0,50 1,0152 0,7301 0,7301 Radiale A[0, 1] 0,125 8 0,49 1,0341 0,7297 0,7297 Radiale A[−1, 1] 0,125 8 0,50 1,0561 0,7332 0,7332 Tabella 6.17: Inferenza del sesso sul dataset Yahoo! attraverso l’utilizzo di una SVM in
modalità Nu-classification. Le lettere ’V’ e ’A’ indicano rispettivamente l’utilizzo dello scaling solo durante la procedura di Cross Validation e il caso in cui esso viene applicato anche nella
fase di apprendimento e test.
Il miglior risultato in termini di Recall globale (0,73316) si ottiene facen- do riferimento ad un kernel di tipo radiale ed applicando uno scaling totale nell’intervallo (−1, 1), utilizzando la matrice UGM. I parametri C, γ e ν as- sumono rispettivamente i valori 0,125, 8 e 0,50; le Accuracy e le Recall delle singole classi sono riportate nella Tabella 6.18. Tale configurazione permette anche di ottenere il miglior risultato in termini di Lift (1,0561) per la modalità Nu-classification.
6.2. Dataset Yahoo! | 130|
METRICA MASCHI FEMMINE
[0,7130] [0,2870]
Accuracy 0,7359 0,7070
Best Lift e
Recall 0,9603 0,2174
Recall globale Recall globale = 0,7332 Lift = 1,0561 C = 0,125 γ = 8 ν = 0,50
UGM non normalizzata Kernel: RADIALE Scaling: [−1, 1]
Tabella 6.18: dataset Yahoo! - Risultati per la caratterizzazione degli utenti in base al sesso,
applicando il metodo basato su SVM in modalità Nu-classification. Con questa configurazione di parametri si ottengono sia il miglior Lift che la migliore Recall globale.
6.2.2 Risultati relativi all’inferenza dell’età
Per effettuare l’inferenza dell’età degli utenti sono state effettuate cinque tipologie di test, realizzate modificando di volta in volta il numero di classi in cui suddividere gli utenti e gli anni di nascita utilizzati come estremi per tali classi. Nel seguito vengono mostrati i risultati per la tipologia di test per la quale sono stati ottenuti i migliori risultati in termini di Lift, nella quale gli utenti sono stati suddivisi nelle classi ADULTI e GIOVANI, considerando appartenenti alla classe ADULTI i nati prima dell’anno 1980.
Adottando questo tipo di suddivisione la classe ADULTI risulta formata da 3260 utenti, pari al 53,9% del totale; la classe GIOVANI, invece, comprende 4357utenti, che equivalgono al 46,1% del totale.
Regole di Associazione
Il valore più alto registrato per il Lift è pari a 1,0506, ottenuto con valori di confidenza e supporto pari a 0,51 e 35; utilizzando gli stessi parametri si ottiene anche la migliore Recall globale, che è pari a 0,5654.
Per la classe ADULTI viene generato un numero di regole doppio rispetto alla classe GIOVANI; ciò si riflette nei valori delle metriche associate alle due classi. Mentre nel caso della classe GIOVANI sia Accuracy che Recall sono superiori alla percentuale di utenti che compongono la classe, per quanto riguarda la classe ADULTI si ottiene una Recall pari a 0,3077, decisamente inferiore rispetto a tale percentuale (46%).
METRICA ADULTI GIOVANI TOTALE [0,5343] [0,4601]
Recall 0,7864 0,3077 -
Accuracy 0,5711 0,5538 -
Best Lift e Utenti Assegnati 1886 651 2537
Recall globale Utenti Non Assegnati 0 0 0
Regole Generate 183 85 268
Recall Globale = 0,5654 Lift = 1,0506
confidenza = 0,51 supporto = 35
Tabella 6.19: dataset Yahoo! - Risultati per la caratterizzazione degli utenti in base all’età,
applicando il metodo basato sulle AR. Con questa configurazione di parametri si ottengono sia il miglior Lift che la migliore Recall globale.
Singular Value Decomposition
In questa modalità, a differenza di quanto avvenuto per i test relativi all’inferenza del sesso, il Lifestyle degli utenti è stato rappresentato utilizzando una matrice formata da un numero di colonne pari al numero delle classi (vedi Paragrafo 5.2.1).
Scegliendo dei valori di k e t pari rispettivamente a 6 e −0,5 si ottengono sia il miglior Lift, pari a 1,0212, che la migliore Recall globale, il cui valore è pari a 0,5473. La configurazione che consente di ottenere tali risultati è riportata nella Tabella 6.20.
METRICA ADULTI GIOVANI TOTALE
[0,5643] [0,4601]
Recall 0,5940 0,4934 -
Accuracy 0,5752 0,5128 -
Best Lift e Utenti Assegnati 1264 1020 2284
Recall globale Utenti Non Assegnati 0 0 0
Recall Globale = 0,5473 Lift = 1,0212
kbest= 6 tbest= −0,5
Tabella 6.20: dataset Yahoo! - Risultati per la caratterizzazione degli utenti in base all’età,
applicando il metodo basato su SVD. Con questa configurazione di parametri si ottengono sia il miglior Lift che la migliore Recall globale.
In questa configurazione per tutti gli utenti viene proposta una predizione sulla classe di appartenenza, quindi i valori di Accuracy e Recall globali coin-
6.2. Dataset Yahoo! | 132|
cidono. Sia per quanto riguarda la classe ADULTI che per la classe GIOVANI, i valori di Accuracy e Recall sono superiori alla percentuale di utenti che compongono la classe.
Support Vector Machines
I risultati dei test effettuati con la modalità C-classification sono riportati nella Tabella 6.21.
Matrice
Kernel Scaling C γ Lift Recall Accuracy Classi
Utilizzata globale globale assegnate
UGMnorm Lineare - 8192 - 1,0084 0,5744 0,5744 2 su 2 Lineare V [0, 1] 32 - 1,0008 0,5639 0,5639 2 su 2 Lineare A[0, 1] 512 - 1,0000 0,5897 0,5897 2 su 2 Lineare V[−1, 1] 32768 - 1,0047 0,5661 0,5661 2 su 2 Lineare A[−1, 1] 32768 - 1,0000 0,5867 0,5867 2 su 2 Radiale - 32768 8 1,0000 0,5625 0,5625 2 su 2 Radiale A[0,1] 8192 2 1,0337 0,5770 0,5770 2 su 2 Radiale A[−1,1] 8192 8 1,0282 0,5739 0,5739 2 su 2 UGMnoNorm Lineare A[0, 1] 32768 - 1,0084 0,5805 0,5805 2 su 2 Lineare A[−1, 1] 32768 - 1,0198 0,5871 0,5871 2 su 2 Radiale A[0,1] 32768 8 1,0074 0,5941 0,5941 2 su 2 Radiale A[−1,1] 32768 8 1,0230 0,5844 0,5844 2 su 2
Tabella 6.21: Inferenza dell’età sul dataset Yahoo! attraverso l’utilizzo di una SVM in
modalità C-classification. Le lettere ’V’ e ’A’ indicano rispettivamente l’utilizzo dello scaling solo durante la procedura di Cross Validation e il caso in cui esso viene applicato anche nella
fase di apprendimento e test.
Il miglior risultato in termini di Recall globale (0,5941) si ottiene facendo riferimento ad un kernel di tipo radiale ed applicando uno scaling totale nel- l’intervallo (0, 1) alla matrice UGM non normalizzata, con C e γ che assumono rispettivamente i valori 32768 e 8. Il miglior risultato in termini di Lift (1,0337) si ottiene invece facendo riferimento ad un kernel di tipo radiale ed applicando uno scaling totale nell’intervallo (0, 1), con C e γ pari rispettivamente a 8192 e 2; I valori relativi alle Accuracy e alle Recall delle singole classi per le due configurazioni appena descritte sono mostrate nella Tabella 6.22.
Basandosi sulla modalità Nu-classification si ottengono i risultati espressi nella Tabella 6.23.
Il miglior risultato in termini di Recall globale (0,5739) si ottiene facendo ri- ferimento ad un kernel di tipo lineare, senza applicare lo scaling ed effettuando la normalizzazione della matrice UGM. La combinazione di parametri che con-
METRICA GIOVANI ADULTI [0,4610] [0,5390]
Accuracy 0,5137 0,6093
Recall 0,1994 0,8687
Best Lift Recall globale = 0,5770 Lift = 1,0337 C = 8192 γ = 2
UGM normalizzata
Kernel: RADIALE Scaling: [0, 1]
Accuracy 0,5623 0,5796
Recall 0,1929 0,8817
Best Recall Recall globale = 0,5941 Lift = 1,0074 C = 32768 γ = 8
UGM non normalizzata Kernel: RADIALE Scaling: [0, 1]
Tabella 6.22: dataset Yahoo! - Risultati per la caratterizzazione degli utenti in base all’età,
applicando il metodo basato sul SVM in modalità C-classification.
Matrice
Kernel Scaling C γ ν Lift Recall Accuracy Classi Utilizzata globale globale assegnate
UGMnorm Lineare - 0,125 - 0,80 1,0077 0,5739 0,5739 2su 2 Lineare A[0, 1] 0,125 - 0,60 0,7055 0,4160 0,4160 2su 2 Lineare V[0, 1] 0,125 - 0,60 0,6981 0,4116 0,4116 2su 2 Lineare A[−1, 1] 0,125 - 0,50 0,9681 0,5709 0,5709 2su 2 Lineare V[−1, 1] 0,125 - 0,50 0,7782 0,4589 0,4589 2su 2 Radiale - 0,125 0,0078 0,12 0,9565 0,5477 0,5477 2su 2 Radiale A[0, 1] 0,125 2−11 0,61 0,7003 0,4130 0,4130 2su 2 Radiale A[−1, 1] 0,125 2−13 0,61 0,6988 0,4121 0,4121 2su 2 UGMnoNorm Lineare A[0, 1] 0,125 - 0,50 0,8613 0,5079 0,5079 2su 2 Lineare A[−1, 1] 0,125 - 0,60 0,8353 0,4926 0,4926 2su 2 Radiale A[0, 1] 0,125 8 0,59 0,7611 0,4488 0,4488 2su 2 Radiale A[−1, 1] 0,125 8 0,74 0,9169 0,5407 0,5407 2su 2
Tabella 6.23: Inferenza dell’età sul dataset Yahoo! attraverso l’utilizzo di una SVM in
modalità Nu-classification. Le lettere ’V’ e ’A’ indicano rispettivamente l’utilizzo dello scaling solo durante la procedura di Cross Validation e il caso in cui esso viene applicato anche nella