Machine Learning
N. medio di parole per
6.4.12. Kanungo e Orr
Uno degli approcci standard utilizzati dai motori di ricerca online per rendere migliore l’esperienza degli utenti, in termini di recupero di pagine pertinenti all’interrogazione e riduzione del tempo di ricerca, consiste nel visualizzare un abstract del contenuto di ciascuna pagina nella SERP, cioè nella pagina che riporta la lista dei risultati (Figura 25)153.
Figura 25. Pagina di riepilogo dei risultati della ricerca. Per ogni risultato viene visualizzato il titolo, l’URL e l’abstract.
Lo studio di Clarke et al. (2007) ha dimostrato che la leggibilità di questi abstract ha un impatto diretto sul comportamento degli utenti: una sintesi migliore ha maggiore possibilità di generare un clic da parte dell’utente154. La leggibilità di tali abstract è valutata periodicamente, ma poiché si tratta di un processo piuttosto dispendioso, viene effettuata almeno a cadenza trimestrale. La metodologia impiegata consiste prima nella raccolta di un corpus di query casuali e dei corrispondenti risultati recuperati e in seguito nella valutazione di questi da parte di giudici umani. È evidente che un processo di valutazione manuale non possa essere effettuato in tempo reale.
Kanungo e Orr (2009) propongono un approccio di apprendimento automatico per misurare la leggibilità degli abstract dei risultati delle ricerche sul web. Il modello può essere impiegato sia per il monitoraggio dei riassunti in tempo reale sia direttamente nel processo di generazione degli abstract.
Il metodo prevede la raccolta di un corpus di pagine recuperate dalla ricerca e i relativi giudizi da parte di valutatori umani, con punteggi che vanno da 1 (illeggibile) a 5 (facile da leggere). Vengono quindi estrapolate le caratteristiche da ciascun abstract e, in funzione di queste, viene creato un modello per la previsione dei giudizi. La modellazione è ottenuta
153 SERP è l’acronimo per Search Engine Results Page (‘pagina dei risultati del motore di ricerca’). 154 Altri studi sulla leggibilità degli abstract dei risultati delle ricerche sono condotti da Aula 2004,
170
tramite la regressione, utilizzando alberi decisionali a gradiente stocastico (Gradient Boosting Decision Tree, GBDT)155.
Le caratteristiche considerate nello studio sono:
• La leggibilità, misurata tramite l’indice Fog, la formula di Flesch e quella di Flesch- Kincaid;
• Numero medio di caratteri per parola (CPWRD); • Numero medio di sillabe per parola (SYLPWRD); • Percentuale di parole complesse (PCMPLXWRDS); • Numero di frammenti (NSNIP)156;
• Se il testo inizia con punti di sospensione (BELLIP); • Se il testo finisce con punti di sospensione (ELLIP); • Quantità di lettere maiuscole (OAPFRAO);
• Quantità dei segni interpuntivi (PUNCFRAC): se ci sono troppi caratteri di punteggiatura, molto probabilmente si tratta di spam o di un documento non testuale;
• Quantità di stop word (STOPFRAC)157;
• Quantità di Query Word Hit (HITFRAC): i lettori sono influenzati dalla presenza o dall'assenza di specifici termini nella query.
I dati di addestramento consistono in 5.382 valutazioni effettuate da 7 giudici nell’arco di un anno sugli abstract dei risultati delle ricerche effettuate con Yahoo! e Google. Le valutazioni sono suddivise casualmente in set di addestramento e set di prova.
La Tabella 51 mostra le correlazioni con le valutazioni ottenute dalle formule di leggibilità e dal modello costruito con gli alberi decisionali; viene effettuato un confronto anche con il modello di Collins-Thompson e Callan (2004).
Metodo Correlazione Fog 0,01572242 Kincaid - 0,02689905 Flesch-Kincaid 0,02323278 Lineare - 0,001198311 Collins-Thompson e Callan 0,0597 GBDT 0,6321157
Tabella 51. Correlazione tra i modelli e le valutazioni dei giudici.
Come possiamo notare, non sembrerebbe esserci una correlazione con i tradizionali indici di leggibilità; questo dipende probabilmente dal fatto che gli abstract sono molto brevi, contengono pochissimo testo e sono spesso costituiti da frammenti di frasi e non da frasi intere. Anche la correlazione con il modello di Collins-Thompson e Callan risulta trascurabile
155 Cfr. Friedman 2001a e 2001b.
156 I frammenti (snippets) possono essere frasi complete o parti di frasi. 157 Sono le parole prive di significato, come articoli o congiunzioni.
171
(0,05). Il sistema costruito con gli alberi decisionali a gradiente stocastico risulta maggiormente correlato (0,63).
Per quanto riguarda le caratteristiche, le più rilevanti sono la quantità di lettere maiuscole (OAPFRAO), la quantità dei segni interpuntivi (PUNCFRAC) e la quantità di stop word (STOPFRAC): si tratta di elementi che non sono generalmente presenti nelle formule di leggibilità. L’influenza relativa delle caratteristiche è mostrata nella Figura 26.
Figura 26. Influenza relativa delle caratteristiche.
6.4.13. Kate et al. 2010
Questo studio si inserisce nel Machine Reading Program (MRP) della DARPA158, programma di ricerca dedicato allo sviluppo di sistemi in grado di acquisire conoscenze dai corpora in linguaggio naturale e renderle disponibili per l’elaborazione formale. L’approccio di Kate et al. (2010) prevede lo sviluppo di un sistema di valutazione automatica delle leggibilità di documenti basato su giudizi umani; a differenza dei lavori precedenti, il modello è costruito per la previsione della leggibilità e non dei livelli di istruzione associati ai testi. Inoltre, i testi utilizzati per l’addestramento non appartengono a un singolo dominio ma provengono da varie fonti e coprono diversi generi; questo consente la formazione di modelli linguistici specifici per ogni genere testuale.
Il corpus di addestramento è formato da 390 testi, tratti da giornali e newswire, weblog, post di newsgroup, trascrizioni manuali, output di traduzioni automatiche, articoli di Wikipedia, trascrizioni di sottotitoli. I testi sono distribuito in modo uniforme su 7 generi. La leggibilità è valutata da due categorie di giudici: 8 giudici esperti di madrelingua inglese (linguisti e professionisti specializzati in analisi e annotazione linguistica) e 6 giudici non esperti di madrelingua inglese (insegnanti di inglese, redattori, scrittori e altre figure professionali che non possiedono competenze specifiche nell’analisi e nell’annotazione
158 La Defense Advanced Research Projects Agency (DARPA, ‘agenzia per i progetti di ricerca avanzata
di difesa’), è un'agenzia governativa del Dipartimento della Difesa degli Stati Uniti che si occupa dello sviluppo di nuove tecnologie per uso militare.
0 5 10 15 20 ELLIP BELLIP HITFRAC NSNIP SYLPWRD Flesch PCMPLXWRDS Kincaid Fog CPWRD STOPFRAC PUNCFRAC OAPFRAO Influenza relativa
172
linguistica). I punteggi assegnati vanno da 1 (livello basso) a 5 (livello alto): la leggibilità è definita come il “subjective judgment of how easily a reader can extract the information the writer or speaker intended to convey” (Kate et al. 2010, p. 548).
Il sistema è addestrato utilizzando una combinazione di varie caratteristiche: caratteristiche derivate dai modelli linguistici, dai parser sintattici e caratteristiche lessicali. Il suo compito è imparare, tramite un’analisi di regressione, a far corrispondere le valutazioni dei giudici con le caratteristiche linguistiche ritenute potenzialmente rilevanti per la leggibilità. Tra le variabili vengono inclusi anche i modelli linguistici specifici per ogni genere, così da vedere se questi hanno un qualche valore predittivo.
Trattandosi di dati di tipo numerico (e non testuale), gli autori scelgono di trattare il compito come un problema di regressione, arrotondando il punteggio previsto per ottenere il valore intero più vicino. Per ogni documento, il punteggio medio ottenuto dalle valutazioni dei giudici esperti, è preso come standard di riferimento (gold strandard). Gli algoritmi di regressione utilizzati sono forniti dal software open source Weka159.
L’analisi sintattica è effettuata tramite il parser Sundance (Riloff e Phillips 2004), che misura la violazione delle regole grammaticali della lingua inglese tramite alcune caratteristiche (lunghezza delle frasi, numero di frasi nominali, numero di frasi verbali, ecc.), e il parser English Slot Grammar (McCord 1989), che esegue un’analisi linguistica più approfondita. Le caratteristiche lessicali considerate sono: percentuale di parole OOV (out of vocabulary), numero di parole funzionali, numero di pronomi, numero di parole conosciute (che si possono trovare in un dizionario inglese o in un dizionario geografico che contiene nomi di persone e luoghi).
Inizialmente gli studiosi conducono esperimenti per testare gli algoritmi di regressione utilizzando tutte le funzioni; successivamente, sono escluse varie serie di caratteristiche per determinare quale combinazione abbia il maggior valore predittivo.
La tabella seguente mostra i valori di correlazione ottenuti dalle diverse caratteristiche.
Caratteristiche Correlazione
Lessicali 0,5760
Sintattiche 0,7010
Lessicali + sintattiche 0,7274 Modello del linguaggio 0,7864
Tutte 0,8173
Tabella 52. Confronto tra i diversi set di caratteristiche.
Come si osserva, il modello statistico del linguaggio presenta una correlazione più alta rispetto agli altri set. Le prestazioni migliorano quando si combinano tutte le caratteristiche. Sono poi confrontati i valori di correlazione ottenuti da modelli linguistici indipendenti dal genere e modelli specifici per ogni genere (Tabella 53).
173 Modello linguistico Correlazione
Modello indipendente dal genere 0,6978 Modello basato sul genere 0,7749 Combinazione dei due modelli 0,8173
Tabella 53. Confronto tra modello indipendente dal genere e modello basato sul genere.
I risultati mostrano che l’utilizzo di modelli specifici di genere per l’addestramento del sistema contribuisce a migliorare le previsioni delle leggibilità.
Il team SAIC conduce una valutazione ufficiale per conto di DARPA a cui partecipano, oltre a Kate e al. (A) altre due squadre (B e C). Il materiale da valutare consiste in 150 documenti tratti dai 390 testi di addestramento. Oltre alla correlazione, sono utilizzate due metriche aggiuntive: la prima calcola la differenza tra i punteggi ottenuti dalle valutazioni di giudici esperti e giudici inesperti e la differenza tra i punteggi ottenuti dalle valutazioni di giudici esperti e dalle valutazioni della macchina; la seconda (target hits) misura se il punteggio previsto per un documento rientra nell’intervallo (width) di valori per quel documento (che va dal punteggio più basso a quello più alto) e, nel caso in cui sia compreso, calcola un punteggio inversamente proporzionale a tale intervallo. Il punteggio finale dei target hits è calcolato facendo una media su tutti i documenti. La tabella 54 illustra i risultati della valutazione.
Sistema Correlazione Differenza
assoluta media Target hits
Sistema A 0,8127 0,4844 0,4619
Sistema B 0,6904 0,3916 0,4530
Sistema C 0,8501 0,5177 0,4641
Valori critici superiori 0,7423 0,0960 0,3713
Tabella 54. Confronto tra i punteggi ottenuti nella valutazione dei sistemi. I valori critici (CV) superiori sono i punteggi ottenuti dai giudici inesperti.
L’approccio di Kate et al. ottiene un buon punteggio di correlazione e in tutte le metriche supera i valori ottenuti dai giudici inesperti. Il sistema migliore risulta tuttavia essere il terzo (C).