• Non ci sono risultati.

SENZA CITAZIONI SEMPLIFICATO L. BASE 92,5% 95,9% 88,2% L. LESSICALE 95,7% 95,6% 99,3% L. SINTATTICO 100% 100% 98,7% L. GLOBALE 100% 100% 100%

Tabella n. 7: Livelli globali

Il livello base, quello che fa riferimento alle caratteristiche di base (lunghezza frase e lunghezza parola) risulta peggiorato nel testo senza citazioni (da 92,5% a 95,9% di complessità). Probabilmente questo risultato è dovuto al fatto che nel testo modificato la lunghezza delle frasi mediamente è cambiata di poco mentre, anche se solo di 0,1, è aumentata la lunghezza media delle parole. Evidentemente lo strumento, in riferimento ai corpora su cui è addestrato, ritiene altamente complessi i documenti con lunghezza elevata sia di frase che di parola. Il testo semplificato, invece, presenta un valore di complessità a livello base migliorato (88,2 %). Il livello sintattico, anche se poco sensibilmente (1,3%), ne risente in maniera positiva, passando da un valore di complessità massimo a un valore di 98,7%.

78 Il motivo per cui, nonostante un intervento sostanzioso sulla lunghezza della frase, i valori globali non sono cambiati in maniera evidente è probabilmente da attribuire al fatto che, sebbene i valori nuovi siano positivi rispetto agli originali (lunghezza media della frase = 30,8 parole contro le 56,1 del testo originale), questi sono comunque elevati rispetto a quanto lo strumento linguistico-computazionale ritiene leggibile. La tabella 8 e la tabella 9 riportano i risultati più dettagliati per quanto riguarda il livello sintattico. In particolare la tabella 8 riguarda i valori sintattici rispetto all’articolazione interna del periodo.

L.SINTATTICO (articolazione periodo) ORIGINALE SENZA CITAZIONI SEMPLIFICATO Numero medio di proposizioni per periodo 4,855 4,48 2,701 Principali 64,5% 65,6% 72,9% Subordinate 34,6% 34,4% 27,1%

Tabella n. 8: Livello sintattico – articolazione del periodo

Il numero medio di proposizioni scende nelle tre fasi, in particolare nel documento con lunghezza frasi ridotte (2,1 proposizioni in meno); le frasi subordinate diminuiscono con conseguente aumento delle principali. Si passa da un valore di 34,5% (in media) di frasi subordinate nei due testi originale e senza citazioni a un valore di 27,1% nel testo con frasi spezzate.

Grafico n. 3: rapporto principali/subordinate

64,50% 65,60% 72,90% 34,60% 34,40% 27,10% 0% 20% 40% 60% 80% 100%

ORIGINALE SENZA CITAZIONI SEMPLIFICATO

Subordinate e principali

79 Per quanto riguarda l’articolazione della proposizione non si verificano grandi cambiamenti per quanto riguarda il numero medio di parole per proposizione, così come il numero medio di dipendenti per testa verbale e la profondità media delle strutture nominali complesse sono valori che si equivalgono in tutti e tre i gruppi testuali.

La media delle altezze massime dell’albero sintattico cambia, abbassandosi nel testo con le frasi ridotte nella loro lunghezza: 8,986 > 8,896 > 7,243.

Le relazioni di dipendenza che si creano tra la testa e il dipendente subiscono delle modifiche nei risultati: migliora (nella leggibilità) sia la lunghezza media delle relazioni (diminuendo) sia la media delle lunghezze massime diminuendo cospicuamente da circa 20 parole a circa 12.

L. SINTATTICO (articolazione proposizione e albero sintattico) ORIGINALE SENZA CITAZIONI SEMPLIFICATO

N. medio parole per

proposizione 11,56 11,642 11,620

Num. medio dip.

per testa verbale 2,064 2,083 2,056

Media alt. max 8,986 8,896 7,243

Prof. media di SNC 1,328 1,333 1,322

Prof. media

"catene" subord. 1,198 1,223 1,188 Lung. media rel. di

dipendenza 3,149 2,884 2,495

Media lung. max

rel. di dipendenza 20,588 19,204 12,143

Tabella n. 9: Livello sintattico – articolazione della proposizione e albero

La tabella 10 mostra il risultato dell’analisi di READ-IT per quanto riguardo il livello lessicale. Non avendo effettuato molti interventi lessicali, lo strumento non mostra risultati sorprendenti. Sono aumentati, tra il modulo originale e quello semplificato, del 2 % i vocaboli appartenenti al VdB. La distribuzione dei termini nelle tre marche

80 d’uso (FO, AU, AD) resta praticamente la stessa. Lo stesso vale per la type/token ratio e la densità lessicale.

L. LESSICALE ORIGINALE SENZA

CITAZIONI SEMPLIFICATO Appartenenza al VdB 50,3% 51,8% 52,2% FO 65,2% 65,6% 66,0% AU 27,6% 27,3% 26,9% AD 7,2% 7,1% 7,1% TTR 0,75 0,75 0,79 DL 0,57 0,572 0,577

Tabella n. 10: Livello lessicale – Appartenenza al VdB e ripartizione nelle categorie d’uso

Il grafico n. 4 mostra la distribuzione di alcune categorie morfosintattiche, in particolare sostantivi, nomi propri, aggettivi, verbi e congiunzioni coordinanti e subordinanti. I valori, prima e dopo la semplificazione, rimangono abbastanza omogenei, tranne che per le congiunzioni. Le congiunzioni coordinanti e subordinanti fanno parte delle cosiddette “fine-grained” PoS, ossia parti del discorso granulari, più specifiche. Per quanto riguarda le parti del discorso primarie, quindi, i valori sono molto vicini. Invece il valore delle congiunzioni risulta interessante. Nel modulo semplificato le congiunzioni subordinanti diminuiscono inquadrando il testo in direzione positiva di leggibilità.

Grafico n. 4: Distribuzione delle categorie morfosintattiche sostantivi nomi

propri aggettivi verbi

cong. Coordina nti cong. Subordin anti M00095 originale 20,60% 4,70% 8,90% 9,70% 79,80% 20,20% M00095 semplificato 21,20% 4,60% 9,30% 9,80% 83% 17% 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%

Distribuzione PoS

M00095 originale M00095 semplificato

81 5.1.3 La semplificazione del modulo M00095 effettuata da un docente

A partire dal modulo M00095 semplificato è stata effettuata un’ulteriore operazione di semplificazione del modulo condotta da Mirko Tavosanis, docente di Linguistica Italiana presso il Dipartimento di Filologia, letterature e linguistica.

Questa operazione successiva è stata effettuata da un docente di linguistica per revisionare il processo e per garantire la correttezza delle procedure di semplificazione effettuate dall’autore di questa tesi.

Inoltre, alla luce dei risultati mostrati nelle prossime tabelle riassuntive, come sia possibile affinare la semplificazione intervenendo di volta in volta sul testo. Naturalmente senza sacrificare il contenuto dei documenti ma andando, semmai a sfoltire porzioni ridondanti.

Il modulo, nominato SEMPL_Tavosanis è stato valutato da READ-IT e messo a confronto con il modulo originale e con il modulo semplificato rinominato SEMPL_Giardiello.

Le figure n. 9-10-11 mostrano la stessa porzione di interfaccia di READ-IT, quella relativa ai risultati globali su tutto il testo, più la valutazione della leggibilità in base all’indice Gulpease, per ognuno dei tre moduli.

È stato riscontrato, come precedentemente descritto, un miglioramento della leggibilità nel livello di base e nel livello sintattico tra l’originale e SEMPL_Giardiello; SEMPL_Tavosanis mostra una ulteriore diminuzione dei punteggi di complessità. Anche l’indice Gulpease aumenta, raggiungendo il valore di 48,5.

A proposito di questo valore nella tabella 11 è possibile confrontare i valori della lunghezza media delle frasi, leggermente migliorata in SEMPL_Tavosanis. Infatti le frasi, originariamente lunghe in media 56,1 parole, nell’ultima versione semplificata sono costituite da 29,2 parole.

Tabella n. 11: Livello base

LIVELLO