6.2 Web Mining
6.2.1 Classificazione delle pagine Web
La costruzione di un profilo di interessi relativo a pagine web pas- sa per la soluzione di due problemi: decidere quale informazione `e interessante e determinare le sue modalit`a di estrazione dalle stes- se pagine web. Per quanto riguarda il primo problema si assume che la rilevanza di una pagina web dipenda essenzialmente dal suo contenuto testuale, quindi criteri di giudizio ”esterni”, come il ca- rattere di novit`a del documento o l’affidabilit`a dell’informazione, ed eventuali contenuti di tipo non testuale della pagina, non vengono
considerati. Inoltre, si assume che l’utente sia in grado di specificare un insieme di classi corrispondenti ai vari argomenti di interesse, e di fornire un insieme di esempi significativi per ciascuna delle classi (insieme di addestramento). Per il secondo problema `e importante definire sia il linguaggio di rappresentazione da utilizzare per de- scrivere le parti testuali delle pagine HTML e sia le tecniche di DM in grado di generare la conoscenza classificatoria, cio`e il profilo di interessi, da utilizzare in un processo di classificazione automatica di pagine web.
Metodi di apprendimento utilizzati
L’interazione dell’utente o del gruppo di utenti con il sistema infor- mativo avviene in due passi: inizialmente l’utente naviga sul web e colleziona i riferimenti a pagine significative delle classi di interesse (pagine di addestramento). Al secondo passo il sistema assiste l’u- tente nella navigazione classificando autonomamente le pagine web. La decisione di sospendere la raccolta delle pagine di addestramen- to e di invocare i servizi di assistenza `e responsabilit`a dell’utente o dell’amministratore del gruppo di utenti. La predizione della clas- se di appartenenza di una pagina web `e realizzata attraverso tre modalit`a alternative:
1. alberi di decisione, costruiti per induzione a partire dalle pagine
di addestramento;
2. distanza dei prototipi di classe costruiti a partire dalle pagine di
addestramento;
3. algoritmi di nearest-neighbor, basati sulla valutazione della si-
milarit`a rispetto alle pagine collezionate.
Le prime due modalit`a prevedono la costruzione dei classificato- ri (alberi di decisione o prototipi) in una fase di addestramento (training del sistema). Invece, la terza modalit`a non precostruisce classificatori espliciti per le classi, bens`ı usa le pagine seleziona- te direttamente durante la fase predittiva. Gli alberi di decisio- ne sono generati utilizzando metodi di apprendimento automatico, particolarmente adatti ai domini con forte prevalenza di attributi numerici. Infatti, il sistema `e anche in grado di indurre alberi deci- sionali multivariati, bench´e questa capacit`a non sia stata sfruttata
nel nostro caso. Il sistema di apprendimento genera un albero de- cisionale univariato per ogni classe di addestramento, considerando come esempi positivi tutte le pagine rappresentative della classe e come esempi negativi le rimanenti. In questo modo il risultato della classificazione di una nuova pagina potr`a essere:
1. nessuna classificazione, ovvero la pagina `e rigettata poich´e non riconosciuta come appartenente a qualcuna delle classi definite dall’utente;
2. classificazione singola, la pagina `e assegnata ad una sola classe
fra quelle predefinite; di classe costruiti a partire dalle pagine di addestramento;
3. classificazione multipla, la pagina `e attribuita a pi`u classi fra quelle predefinite.
Per quanto riguarda la seconda modalit`a di predizione, il sistema di apprendimento `e in grado di classificare una pagina web sulla base della similarit`a tra il vettore rappresentativo della pagina e un prototipo calcolato per ogni classe. Il prototipo di ciascuna classe `e definito come il vettore centroide fra tutti i vettori relativi alle pagine web di addestramento della classe. Una nuova pagina viene attribuita alla classe il cui prototipo risulta essere meno distante da essa. La distanza `e calcolata in funzione del coseno dell’angolo formato tra il vettore prototipo e il vettore rappresentativo della pagina. Relativamente alla terza modalit`a, `e stato implementato l’algoritmo di k-nearest neighbor (k-NN). Anche in questo caso la distanza `e calcolata in funzione del coseno dell’angolo formato tra i vettori all’interno dello spazio vettoriale. Il k-NN attribuisce la classe di appartenenza della pagina web da classificare analizzando la distribuzione delle classi di appartenenza dei k esempi di adde- stramento meno distanti. Come noto, uno dei limiti del k-NN `e l’intolleranza agli attributi irrilevanti. Tuttavia, nel nostro caso il problema `e meno evidente poich´e la selezione degli attributi `e gi`a stata effettuata in precedenza, in modo da ridurre la presenza di attributi poco significativi.
Conclusione
Nella tesi `e stato fatto un confronto tra le caratteristiche principali di information retrieval (IR) e data mining (DM). Questi due nello stesso dominio di applicazione, ciascuno gioca un ruolo ben preciso, ognuno ha i compiti diversi e specifici da svolgere. Per mettere in pratica l’IR e DM, abbiamo visto che a entrambi essi risultano immancabili i campi di studio che fanno da supporto come machine learning, data warehouse, basi di dati, statistica, matematica e molti altri ambiti inerenti al contesto di applicazione. Inoltre occorre tenere presente che tutto ci`o nasce dalla continua crescita dei dati. `E stato citato che i compiti principali di DM sono quelli di estrazione di conoscenza da bande di dati che sono in continua crescita, mentre i compiti di IR sono quelli di estrarre esigenze informative agli utenti. In altre parole, in DM si applicano varie tecniche matematiche- statistiche per l’estrazione delle informazioni dai dati, dove i dati possono essere di qualunque tipo. Tuttavia in questo elaborato so- no state descritte soltanto alcune tecniche tra quelle comunemente usate. L’idea di base di IR `e quella di reperire informazioni inte- ressanti dai dati. Sulla base dei dati, sono stati formulati diversi modelli di reperimento, e in base al contesto, per reperire informa- zioni interessanti si applicano le opportune tecniche di data mining. Le tecniche del DM possono essere applicate in qualunque ambito, da quello umanistico a quello economico, oppure da quello scien- tifico a quello ingegneristico. Information retrieval invece tende a dominare soprattutto il mondo informatico, in particolare nelle tecnologie web. Per la vastit`a dei dati web, e dati testuali a disposi- zione salvati nei grandi databases, nel giorno d’oggi, il data mining
insieme all’information retrieval hanno portano a formalizzare altri campi di studio di data science, come il text mining e web mining.
[1] Melucci M. (2013). Information Retrieval. Metodi e modelli per i motori di ricerca.
[2] Liu B. (2007). Web Data Mining. Exploring Hyperlinks, Contents,
and Usage Data. 1-264.
[3] Scarpa B. Azzalini A. (2004). Analisi dei dati e data mining.
[4] Manning Christopher D. Raghavan P. Sch¨utze H. (2008).
Introduction to Information Retrieval.
[5] Weiss Sholom M. Indurkhya N. Zhang T. (2010). Fundamentals of Predictive Text Mining. 75-90.