• Non ci sono risultati.

Con il termine text mining (TM) s’intende l’applicazione di tecniche di DM su documenti testuali, cio`e, l’analisi di dati di tipo testua- le. In altri termini, il TM `e l’estensione del DM tradizionale su dati testuali non strutturati. L’obiettivo principale del TM `e l’e- strazione di informazione implicitamente contenuta in un insieme di documenti e la successiva visualizzazione di grossi insiemi di te- sti. Il TM `e un campo pi`u complicato del DM, perch´e opera su testi che non sono strutturati. `E un campo multidisciplinare che impiega sia tecniche proprie dell’IR che tecniche proprie del DM. Le tecniche di TM sono applicabili a qualsiasi ambito di indagine. In generale, trovano applicazione tutte le volte che si `e di fronte a grandi quantit`a di dati e si ha l’esigenza di conoscerne il conte- nuto. Le applicazioni possono essere tecniche di segmentazione al fine di (i) individuare gruppi omogenei di documenti in termini di argomento trattato, (ii) accedere pi`u velocemente all’argomento di interesse e (iii) individuarne i legami con altri argomenti. Il TM ed il DM, dal punto di vista di apprendimento automatico, sono in contraddizione. I modelli sono costruiti da training set di campioni dei documenti non strutturati, e i risultati sono verificati in fase di test. L’obiettivo chiave di preparazione dei dati `e la trasforma- zione dei testi in un formato numerico, eventualmente viene fatta la rappresentazione comune con il DM numerico. Anche in text mining come nel DM, vi sono introdotti strutture di predizione, tra le quali classificazione dei documenti, segmentazione dei docu- menti, estrazione delle informazioni, e valutazione delle prestazioni.

Le fonti dei dati di TM possono essere:

ˆ Dati web: Internet sta diventando il principale ”media” attraverso

cui `e possibile ottenere dati. I siti web liberamente raggiungibili via Internet sono una delle fonti principali della documentazione da analizzare (filtraggio informazioni).

ˆ Banche dati online: Le banche dati online costituiscono collezioni

di informazioni specializzate, generalmente accessibili via Internet tramite abbonamento. Esempi tipici di queste banche dati sono quelle dedicate alle pubblicazioni, ai brevetti o agli articoli scien- tifici (di chimica, fisica o matematica) rese disponibili in modo diretto.

ˆ Sorgenti informative private: Una banca dati privata di docu-

menti elettronici (costruita negli anni) pu`o essere resa disponi- bile ed essere opportunamente usate insieme alle altre sorgenti informative. Il formato e contenuti dei documenti di una ban- ca dati sono generalmente completamente differenti da quelli dei documenti ottenuti attraverso le banche dati online.

ˆ E-mail: Le e-mail sono la forma pi`u ricca dal punto di vista in-

formativo e pi`u semplice da analizzare. E il mezzo attraverso` cui le persone comunicano all’interno ed all’esterno di aziende ed organizzazioni. Possono essere analizzate sia le e-mail inter- ne ad un’organizzazione sia quelle ricevute dall’esterno od inviate all’esterno dell’organizzazione.

ˆ Opinion surveys: Spesso le opinion surveys accurate nella parte

codificata, dove `e prevista la risposta: SI, NO, o numerica. Sono invece analizzate con un certo grado d’incertezza nella parte te- stuale, ove si raccolgono le risposte in testo libero alle domande aperte.

ˆ Newsgroups, Chatlines, Mailing Lists: Importanti e ricche fonti

di informazione dato che riguardano i temi pi`u disparati, dai con- sumi alla politica. Il problema con questo tipo di informazione `e che l’informazione pertinente `e all’interno di frasi e/o affermazio- ni di scarsa importanza, espresse con linguaggio spesso gergale. Grazie al text mining queste affermazioni o opinioni possono es- sere analizzate e filtrate al fine di conoscere quali sono le opinioni di chi scrive.

Documenti di testo. Un documento di testo consiste di una se- quenza di sequenze e, ciascuna sequenza in una sequenza di parole. Usualmente, in clusterizzazione, un documento `e considerato come un insieme di parole. Le informazioni sulla sequenza e sulla posi- zione delle parole, in linea generale vengono ignorate. Pertanto, un documento pu`o essere rappresentato come un vettore esattamente come un normale data point. Inoltre, vengono usate le misure di similarit`a per mettere in confronto due documenti piuttosto della funzione di distanza. La funzione di similarit`a pi`u comunemente usata `e la funzione similarit`a di coseno.

6.1.1 IR come una forma di TM

In un modo o nell’altro, l’IR pu`o essere descritto come in termini di previsione text mining. I metodi possono essere considerati varianti di misure di similarit`a basate sul metodo di nearest-neighbor. Come in IR, in risposta a un’interrogazione, si vanno a reperire docu- menti rilevanti, allo scopo di esaminare la collezione di documenti, apprendere criteri per la classificazione, ed applicare questi criteri ai nuovi documenti. I problemi della predizione non vengono risolti direttamente a seguito della ricerca dei pattern nella collezione di documenti, ma si vanno a reperire piuttosto i documenti simili. Dal fatto che siamo interessati nella classificazione, si tengono conto le etichette per vedere quale etichetta dovrebbe essere assegnato al documento nuovo e non etichettato.

6.1.2 Segmentazione e Predizione dei Testi

Frequentemente, le collezioni di documento vengono preparate sen- za etichette. Le etichette possono essere determinate dalla segmen- tazione dei documenti. Una ragione importante per la segmentazio- ne dei documenti `e il calcolo delle misure di similarit`a. I metodi di raggruppamento pi`u noti sono: clusterizzazione a k-medie, cluste- rizzazione gerarchica, algoritmo EM. Una volta che i testi sono stati trasformati in vettori numerici, si possono allora applicare metodi automatizzati di predizione. La predizione dei testi `e descritta in termini di analisi empirici che possono essere relazionate a patterns delle parole, in particolare per la classificazione dei documenti. Le

tecniche fondamentali di apprendimento dagli esempi di dati ven- gono delineati includendo i metodi basati sulla similarit`a, regole di decisione e alberi per la classificazione, metodi probabilistici e me- todi lineari. Le tecniche di valutazione sono esaminate per stimare la prestazione futura e massimizzare i risultati empirici.

Documenti correlati