Diagnosi Stilema tf-idf Diagnosi Stilema tf-idf
1401 reattive 4.18 1836 lesione 0.010 727 adenoma 4.00 1150 lesione 0.013 38 epiteliale 3.56 683 lesione 0.013 193 iperplasia 3.25 1796 lesione 0.014 662 iperplasia 3.25 778 lesione 0.014 1972 positivo 3.17 1836 nevo 0.015 2201 positivo 3.17 1836 melanoma 0.015 924 nodulo 2.78 801 lesione 0.015 158 focale 2.72 1464 lesione 0.016 2408 localizzato 2.66 1584 lesione 0.016
Tabella 4.3:Gli stilemi all'interno dei testi il cui tf-idf è molto alto o molto basso - la
parte aggiunta in corsivo dopo uno stilema è uno dei possibili termini che ne hanno dato origine
4.4
Aggiunta dei bigrammi alla document-term matrix
Una bag-of-words di stilemi non tiene conto dell'ordinamento delle parole al- l'interno dei testi. Questo può essere una limitazione: basti pensare alla dierenza fra il considerare i termini assenza e metastasi come scollegati (cosa che avvie- ne in una bag-of-words) o come collegati nell'espressione assenza [di] metastasi. I bigrammi permettono di cogliere quelle espressioni composte da coppie di parole. L'uso dei bigrammi è analogo a quello degli stilemi: si crea una matrice che ha per righe i testi e per colonne i bigrammi, gli elementi della matrice saranno pari a 0 nel caso in cui il bigramma sia assente dal testo e 1 nel caso in cui il bigramma sia presente nel testo (per semplicità si è scelto di non utilizzare i pesi tf-idf per i bigrammi). Una dierenza con gli stilemi è rappresentata dal fatto che i bigrammi vengono creati senza che le parole siano soggette alla procedura di stemming in modo tale sia considerata la coppia ordinata di parole intere e non ridotte alla radice. Sempre al ne di ridurre la sparsità della document-term matrix si è deciso
60 Il preprocessing Bigramma Frequenza fase crescita 463 limiti exeresi 462 compresa limiti 420 inltrato linfocitario 398 lesione compresa 363 crescita verticale 303 completamente escissa 301 estensione superciale 296 non ulcerato 241 invasione angiolinfatica 215
Tabella 4.4:I bigrammi più comuni e la loro frequenza
di tenere solo i bigrammi che compaiono almeno nell'1% dei testi: il loro numero ammonta a 379. Nella Tabella 4.4 sono elencati i bigrammi più frequenti all'interno dei testi delle diagnosi a disposizione.
La matrice originata dai bigrammi si giustappone a quella originata dagli stile- mi andando a formare una matrice composta da 2574 righe (i testi) e 695 colonne (le variabili estratte dal testo sotto forma di stilemi o bigrammi). Questa matrice sarà la matrice di regressione per i modelli statistici di classicazione stimati nel capitolo successivo.
Ovviamente il concetto di bigramma può essere esteso ai trigrammi, quadri- grammi ecc. in modo che venga sempre più considerato l'ordinamento delle parole nella frase. Come però fanno notare Iacus et al. (2014):
In generale, considerare stilemi con tre o più parole non fornisce par- ticolare aggiunta di informazione e non aumenta la qualità della clas- sicazione
4.5 Riepilogo del capitolo 61
4.5
Riepilogo del capitolo
Il preprocessing è l'insieme delle operazioni che portano a estrarre da un testo grezzo delle variabili che veicolano l'informazione contenuta in esso. Inizialmente tutti i testi sono sottoposti a una procedura di normalizzazione: vengono rimosse la punteggiatura, i simboli e le lettere maiuscole. Successivamente vengono rimosse le stopwords, ovvero quelle parole così comuni da non portare nessun tipo di informa- zione. Inne, viene eettuato lo stemming (riduzione alla radice, detta stilema) delle parole e viene costruita una matrice che ha come righe i testi, come colonne gli stilemi e come elementi i pesi tf-idf degli stilemi nei testi. Questa matrice, detta document-term matrix può essere utilizzata come matrice di regressione nei mo- delli di classicazione dei testi ma conta ben 2631 colonne (contro 2574 righe) ed è estremamente sparsa, condizioni non favorevoli per la buona riuscita della stima dei modelli. Di conseguenza si è ridotta la dimensionalità eliminando gli stilemi la cui frequenza totale è bassa, in questo modo si ottengono 316 colonne e una sparsità inferiore (anche se comunque alta).
Utilizzando i pesi tf-idf contenuti nella document-term matrix è possibile trarre alcune conclusioni esplorative sull'importanza che certi termini hanno nel classi- care i testi delle diagnosi (e quindi nel determinare le caratteristiche del tumore). In particolare, si nota che alcuni stilemi sono molto frequenti nei testi e quindi le caratteristiche a essi associate sono comuni a molti tumori (per esempio la presenza di lesioni o di nei). Probabilmente questi stilemi non aiuteranno molto a stabilire le caratteristiche del tumore proprio perché comuni a molti di essi. Altri stilemi, al contrario, sono presenti un cospicuo numero di volte ma in pochi testi, quindi ci sono buone possibilità che siano associati a caratteristiche peculiari del tumore in grado di stabilirne la gravità (ad esempio adenoma o iperplasia).
Si è scelto inne di aggiungere alla document-term matrix i bigrammi, ovvero le coppie di parole più frequenti nei testi. Anche sei in maniera ridotta, i bigrammi sono d'aiuto per considerare l'ordinamento delle parole nel testo. Sono stati sele- zionati i 379 bigrammi più frequenti e si è creata una matrice che ha come righe i testi, come colonne i bigrammi e come elementi la presenza o l'assenza (codi-
62 Il preprocessing
cata come 0 o 1) del bigramma nel testo. Questa matrice si giustappone a quella generata dagli stilemi andando a formare una matrice di 2574 righe (il numero dei testi) e 695 colonne (il numero degli stilemi e dei bigrammi) che sarà usata come matrice di regressione per i modelli di classicazione stimati nel capitolo seguente.
Capitolo 5
Stima dei modelli di classificazione
Con la creazione della document-term matrix e il suo allargamento ottenuto aggiungendo i bigrammi si ottiene una matrice di regressione adatta al problema di classicazione, che rappresenta il cuore della procedura di text mining. Tipi- camente i problemi di classicazione collegati al text mining si arontano con modelli statistici tipici del data mining. Questo è dovuto al fatto che le matrici di regressione hanno grandezze notevoli, dunque si necessita di modelli in grado di gestire alte dimensionalità anche a costo di sacricare, del tutto o in parte, la loro interpretabilità.
Questo capitolo è organizzato nel modo seguente: dopo un paragrafo con alcu- ne premesse, ne sarà dedicato uno per ogni modello stimato. Ogni modello verrà descritto e verranno mostrati i risultati prodotti per ognuna delle quattro classi- cazioni legate ai quattro outcome esposti nel Paragrafo 3.2.2. I modelli esposti sono largamente utilizzati nel campo del data mining, dunque si è scelto di descri- verli solo brevemente: una loro descrizione accurata sarebbe molto impegnativa e va ben oltre gli obiettivi di questa tesi. Per una loro trattazione più approfondita si rimanda a Hastie et al. (2013) e ad Azzalini e Scarpa (2012): da questi due testi sono state tratte gran parte delle informazioni esposte in questo capitolo. Inne, i modelli saranno comparati e verrà arontata una discussione sulla loro ecienza.
64 Stima dei modelli di classicazione
5.1
I modelli statistici più utilizzati nel text mining cli-
nico e la valutazione del loro errore
Come riportato da Dalianis (2018), i principali modelli utilizzati nel campo del text mining clinico sono i modelli a support vector machines. Nei lavori più simili a questa tesi, ossia quelli dove si estraggono dai testi delle diagnosi lo stadio di un certo tipo di tumore usando solamente dei modelli statistici (ad esempio: McCowan et al., 2007; Nguyen et al., 2007; Martinez et al., 2013), si fa uso proprio dei modelli a support vector machines ottenendo dei buoni risultati. Per questo motivo, il primo modello a cui si farà ricorso per la classicazione dei testi sarà quello a support vector machines, la cui ecienza e velocità di stima rappresentano un buon punto di partenza.
Verranno poi stimati altri modelli, in particolare alberi di classicazione, com- binazioni di alberi di classicazione e reti neurali. Non sono stati trovati in lette- ratura casi di utilizzo di classicatori ad albero (o combinazioni di questi), dunque questa tesi può considerarsi un primo approccio al text mining clinico tramite l'uso di questa classe di modelli.
5.1.1
Valutazione dell’errore dei modelli
Per determinare la performance dei modelli si è utilizzata la ben nota tabella di errata classicazione, anche detta matrice di confusione (Stehman, 1997): questa tabella è comunemente utilizzata nella valutazione dei modelli di classicazione e ha come righe la classicazione eettuata dal modello, come colonne la vera classicazione (basata sul gold standard) e nelle celle il numero di testi ripartiti secondo la corrispondente riga e colonna.
Sommando gli elementi al di fuori della diagonale di questa matrice e dividen- do per la numerosità totale si ottiene la proporzione di testi classicati incorret- tamente, o tasso di errata classicazione. Questa misura (detta anche errore di classicazione) è utile per comparare più modelli fra loro.