SENZA CITAZIONI SEMPLIFICATO L. BASE 92,5% 95,9% 88,2% L. LESSICALE 95,7% 95,6% 99,3% L. SINTATTICO 100% 100% 98,7% L. GLOBALE 100% 100% 100%
Tabella n. 7: Livelli globali
Il livello base, quello che fa riferimento alle caratteristiche di base (lunghezza frase e lunghezza parola) risulta peggiorato nel testo senza citazioni (da 92,5% a 95,9% di complessità). Probabilmente questo risultato è dovuto al fatto che nel testo modificato la lunghezza delle frasi mediamente è cambiata di poco mentre, anche se solo di 0,1, è aumentata la lunghezza media delle parole. Evidentemente lo strumento, in riferimento ai corpora su cui è addestrato, ritiene altamente complessi i documenti con lunghezza elevata sia di frase che di parola. Il testo semplificato, invece, presenta un valore di complessità a livello base migliorato (88,2 %). Il livello sintattico, anche se poco sensibilmente (1,3%), ne risente in maniera positiva, passando da un valore di complessità massimo a un valore di 98,7%.
78 Il motivo per cui, nonostante un intervento sostanzioso sulla lunghezza della frase, i valori globali non sono cambiati in maniera evidente è probabilmente da attribuire al fatto che, sebbene i valori nuovi siano positivi rispetto agli originali (lunghezza media della frase = 30,8 parole contro le 56,1 del testo originale), questi sono comunque elevati rispetto a quanto lo strumento linguistico-computazionale ritiene leggibile. La tabella 8 e la tabella 9 riportano i risultati più dettagliati per quanto riguarda il livello sintattico. In particolare la tabella 8 riguarda i valori sintattici rispetto all’articolazione interna del periodo.
L.SINTATTICO (articolazione periodo) ORIGINALE SENZA CITAZIONI SEMPLIFICATO Numero medio di proposizioni per periodo 4,855 4,48 2,701 Principali 64,5% 65,6% 72,9% Subordinate 34,6% 34,4% 27,1%
Tabella n. 8: Livello sintattico – articolazione del periodo
Il numero medio di proposizioni scende nelle tre fasi, in particolare nel documento con lunghezza frasi ridotte (2,1 proposizioni in meno); le frasi subordinate diminuiscono con conseguente aumento delle principali. Si passa da un valore di 34,5% (in media) di frasi subordinate nei due testi originale e senza citazioni a un valore di 27,1% nel testo con frasi spezzate.
Grafico n. 3: rapporto principali/subordinate
64,50% 65,60% 72,90% 34,60% 34,40% 27,10% 0% 20% 40% 60% 80% 100%
ORIGINALE SENZA CITAZIONI SEMPLIFICATO
Subordinate e principali
79 Per quanto riguarda l’articolazione della proposizione non si verificano grandi cambiamenti per quanto riguarda il numero medio di parole per proposizione, così come il numero medio di dipendenti per testa verbale e la profondità media delle strutture nominali complesse sono valori che si equivalgono in tutti e tre i gruppi testuali.
La media delle altezze massime dell’albero sintattico cambia, abbassandosi nel testo con le frasi ridotte nella loro lunghezza: 8,986 > 8,896 > 7,243.
Le relazioni di dipendenza che si creano tra la testa e il dipendente subiscono delle modifiche nei risultati: migliora (nella leggibilità) sia la lunghezza media delle relazioni (diminuendo) sia la media delle lunghezze massime diminuendo cospicuamente da circa 20 parole a circa 12.
L. SINTATTICO (articolazione proposizione e albero sintattico) ORIGINALE SENZA CITAZIONI SEMPLIFICATO
N. medio parole per
proposizione 11,56 11,642 11,620
Num. medio dip.
per testa verbale 2,064 2,083 2,056
Media alt. max 8,986 8,896 7,243
Prof. media di SNC 1,328 1,333 1,322
Prof. media
"catene" subord. 1,198 1,223 1,188 Lung. media rel. di
dipendenza 3,149 2,884 2,495
Media lung. max
rel. di dipendenza 20,588 19,204 12,143
Tabella n. 9: Livello sintattico – articolazione della proposizione e albero
La tabella 10 mostra il risultato dell’analisi di READ-IT per quanto riguardo il livello lessicale. Non avendo effettuato molti interventi lessicali, lo strumento non mostra risultati sorprendenti. Sono aumentati, tra il modulo originale e quello semplificato, del 2 % i vocaboli appartenenti al VdB. La distribuzione dei termini nelle tre marche
80 d’uso (FO, AU, AD) resta praticamente la stessa. Lo stesso vale per la type/token ratio e la densità lessicale.
L. LESSICALE ORIGINALE SENZA
CITAZIONI SEMPLIFICATO Appartenenza al VdB 50,3% 51,8% 52,2% FO 65,2% 65,6% 66,0% AU 27,6% 27,3% 26,9% AD 7,2% 7,1% 7,1% TTR 0,75 0,75 0,79 DL 0,57 0,572 0,577
Tabella n. 10: Livello lessicale – Appartenenza al VdB e ripartizione nelle categorie d’uso
Il grafico n. 4 mostra la distribuzione di alcune categorie morfosintattiche, in particolare sostantivi, nomi propri, aggettivi, verbi e congiunzioni coordinanti e subordinanti. I valori, prima e dopo la semplificazione, rimangono abbastanza omogenei, tranne che per le congiunzioni. Le congiunzioni coordinanti e subordinanti fanno parte delle cosiddette “fine-grained” PoS, ossia parti del discorso granulari, più specifiche. Per quanto riguarda le parti del discorso primarie, quindi, i valori sono molto vicini. Invece il valore delle congiunzioni risulta interessante. Nel modulo semplificato le congiunzioni subordinanti diminuiscono inquadrando il testo in direzione positiva di leggibilità.
Grafico n. 4: Distribuzione delle categorie morfosintattiche sostantivi nomi
propri aggettivi verbi
cong. Coordina nti cong. Subordin anti M00095 originale 20,60% 4,70% 8,90% 9,70% 79,80% 20,20% M00095 semplificato 21,20% 4,60% 9,30% 9,80% 83% 17% 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
Distribuzione PoS
M00095 originale M00095 semplificato81 5.1.3 La semplificazione del modulo M00095 effettuata da un docente
A partire dal modulo M00095 semplificato è stata effettuata un’ulteriore operazione di semplificazione del modulo condotta da Mirko Tavosanis, docente di Linguistica Italiana presso il Dipartimento di Filologia, letterature e linguistica.
Questa operazione successiva è stata effettuata da un docente di linguistica per revisionare il processo e per garantire la correttezza delle procedure di semplificazione effettuate dall’autore di questa tesi.
Inoltre, alla luce dei risultati mostrati nelle prossime tabelle riassuntive, come sia possibile affinare la semplificazione intervenendo di volta in volta sul testo. Naturalmente senza sacrificare il contenuto dei documenti ma andando, semmai a sfoltire porzioni ridondanti.
Il modulo, nominato SEMPL_Tavosanis è stato valutato da READ-IT e messo a confronto con il modulo originale e con il modulo semplificato rinominato SEMPL_Giardiello.
Le figure n. 9-10-11 mostrano la stessa porzione di interfaccia di READ-IT, quella relativa ai risultati globali su tutto il testo, più la valutazione della leggibilità in base all’indice Gulpease, per ognuno dei tre moduli.
È stato riscontrato, come precedentemente descritto, un miglioramento della leggibilità nel livello di base e nel livello sintattico tra l’originale e SEMPL_Giardiello; SEMPL_Tavosanis mostra una ulteriore diminuzione dei punteggi di complessità. Anche l’indice Gulpease aumenta, raggiungendo il valore di 48,5.
A proposito di questo valore nella tabella 11 è possibile confrontare i valori della lunghezza media delle frasi, leggermente migliorata in SEMPL_Tavosanis. Infatti le frasi, originariamente lunghe in media 56,1 parole, nell’ultima versione semplificata sono costituite da 29,2 parole.
Tabella n. 11: Livello base
LIVELLO