4.1 Metodologia di valutazione
4.1.1 Metriche di valutazioni tradizionali
Come accennato in precedenza esiste un forte legame tra il Targeted Adver- tising ed i sistemi di raccomandazione; alcune delle metriche originariamente
4.1. Metodologia di valutazione | 76|
definite per questo ambito applicativo possono quindi essere opportunamen- te adattate, in modo da consentire di effettuare la valutazione di soluzioni finalizzate alla profilazione degli utenti.
I sistemi di raccomandazione rappresentano un settore in fase di forte crescita, grazie alla loro versatilità che consente di applicarli in un gran numero di contesti (libri, film, musica, ecc.); l’utilizzo di sistemi di raccomandazione, inoltre, introduce notevoli benefici sia per i clienti, sia per i fornitori di servizi, i quali sono in grado di proporre i prodotti che soddisfano maggiormente i gusti degli utenti, e che quindi hanno maggiori probabilità di essere acquistati. In particolare, un sistema di questo tipo si occupa di proporre all’utente una lista di item che dovrebbero soddisfare i propri gusti e preferenze basandosi, ad esempio, sull’analisi di feedback espressi o di comportamenti passati. La valutazione delle performance ottenute da un sistema di raccomandazione avviene individuando le seguenti informazioni:
• True positive (TP): numero di item di interesse raccomandati all’utente; • True negative (TN): numero di elementi non di interesse che non vengo-
no proposti all’utente;
• False negative (FN): numero di item di interesse per l’utente che non vengono raccomandati;
• False positive (FP): numero di elementi non di interesse per l’utente che vengono comunque suggeriti;.
A partire da queste informazioni è quindi possibile effettuare il calcolo di alcune metriche di valutazione, tra le quali le più significative sono la Precision, l’Accuracy e la Recall [3].
Precision e Accuracy
Nell’ambito dei sistemi di raccomandazione la Precision è definita co- me il numero di item rilevanti raccomandati, rispetto al totale delle racco- mandazioni effettuate; la formula per il calcolo di questa metrica è quindi la seguente:
Precision = T P T P + F P
L’Accuracy, invece, è calcolata tenendo conto anche dei cosiddetti True Nega- tive e False Negative, che rappresentano rispettivamente il numero di item che vengono correttamente riconosciuti come di non interesse per l’utente e quindi non rientrano nella lista delle raccomandazioni proposte, e il numero di item di interesse che non vengono suggeriti all’utente.
Accuracy = T P + T N
T P + T N + F N + F P
La differenza fondamentale tra le due metriche consiste nel fatto che, mentre la Precision si limita a considerare gli item suggeriti all’utente, valutando la percentuale di raccomandazioni corrette sul totale effettuato, il calcolo dell’Accuracy comprende anche la valutazione delle performance relative agli item che non fanno parte della lista di raccomandazioni proposta all’utente.
La Precision può essere adattata all’utilizzo nell’ambito del Targeted Ad- vertising per la valutazione delle prestazioni di problemi binari nei quali soltanto una delle due classi sia considerata rilevante e, di conseguenza, le uni- che performance da valutare siano quelle relative a tale classe. In particolare l’uso di questa metrica consente di calcolare la percentuale di utenti assegnati correttamente rispetto al totale delle assegnazioni effettuate relativamente alla classe rilevante.
Nel nostro lavoro ci troviamo invece di fronte a problemi binari in cui entrambe le classi sono considerate rilevanti, come ad esempio quelli relativi all’inferenza del sesso degli utenti, oppure a problemi che prevedono un numero di classi superiore a due, come nel caso della classificazione degli utenti in base all’età. Si è scelto di conseguenza di non utilizzare la Precision, ma di ricorrere all’uso dell’Accuracy, opportunamente adattata per le esigenze del nostro ambito applicativo.
Relativamente all’ambito del Targeted Advertising, infatti, l’Accuracy glo- bale può essere definita come il rapporto tra il numero di utenti che sono stati assegnati correttamente alla propria classe di appartenenza, ed il totale degli elementi per i quali è stata effettuata l’assegnazione ad una classe.
Accuracyglobale= # utenti correttamente classificati # utenti assegnati ad una classe
Un valore di Accuracy pari ad 1 indica che tutte le previsioni fornite dal- l’algoritmo relativamente alla classe di appartenenza degli utenti presenti nell’insieme di test sono esatte; il raggiungimento di un livello inferiore di
4.1. Metodologia di valutazione | 78|
Accuracy, invece, indica la presenza di errori nella fase di classificazione. Oltre che a livello globale, è possibile calcolare l’Accuracy anche per le singole classi, limitandosi a considerare il numero di utenti correttamente assegnati ed il totale degli utenti assegnati relativamente alla classe in esame.
Recall
Per quanto riguarda la Recall, invece, la formula utilizzata nell’ambito dei sistemi di raccomandazione è la seguente:
Recall = T P T P + F N
Anche questa metrica può essere adattata al nostro scenario applicativo, de- finendola come la percentuale degli utenti per i quali è stata fornita una classificazione corretta, rispetto al totale degli elementi presenti nell’insieme di test. Analizzando tale indicatore, quindi, è possibile stabilire se il metodo sia in grado o meno di individuare un numero soddisfacente di utenti. La formula per il calcolo della Recall globale relativamente agli algoritmi da noi proposti è la seguente:
Recallglobale=
# utenti correttamente classificati totale utenti
Un valore di Recall pari ad 1 indica che l’algoritmo è stato in grado di indi- viduare tutti gli utenti presenti nell’insieme di test, mentre valori più bassi indicano il fatto che per alcuni degli utenti non è stata effettuata una previsione sulla classe di appartenenza o tale previsione è risultata errata.
Alcuni algoritmi impongono che tutti gli utenti analizzati siano assegnati ad una classe, senza lasciare la possibilità che vi siano elementi per i qua- li non venga effettuato l’assegnamento: in questo caso i valori di Recall ed Accuracy globali coincidono, in quanto il numero di utenti per i quali vie- ne effettuata la previsione è uguale al numero totale di elementi presenti nell’insieme analizzato.
Nella maggioranza delle situazioni, ad un aumento di una delle due metri- che appena presentate corrisponde una diminuzione dell’altra. Per ottenere valori di Accuracy più elevati, infatti, è necessario utilizzare criteri maggior- mente restrittivi nella fase di caratterizzazione degli utenti, ottenendo di conseguenza una diminuzione della Recall complessiva, dovuta alla mancata
assegnazione di alcuni utenti alle classi. Viceversa, il tentativo di incremen- tare il livello di Recall porta all’utilizzo di criteri meno selettivi, che rischia- no di introdurre errori nella classificazione e una conseguente diminuzione dell’Accuracy complessiva.
Come per l’Accuracy, anche la Recall può essere calcolata per ciascuna delle singole classi previste, limitandosi a considerare il totale degli utenti che appartengono alla classe in questione ed il numero di successi per essa ottenuti.