• Non ci sono risultati.

Prendere le distanze. Misure e approfondimenti sul corpus easiest.

N/A
N/A
Protected

Academic year: 2021

Condividi "Prendere le distanze. Misure e approfondimenti sul corpus easiest."

Copied!
98
0
0

Testo completo

(1)Universit` a degli Studi di Padova ` DI SCIENZE STATISTICHE FACOLTA Corso di Laurea in Scienze Statistiche Demografiche e Sociali. Tesi di Laurea Specialistica. Prendere le distanze Misure e approfondimenti sul corpus EASIEST. Relatore: Ch.mo Prof. Lorenzo Bernardi. Anno Accademico 2009-2010. Laureando: Matteo Passoni.

(2)

(3) Indice. Introduzione. 1. Autismo e Comunicazione Facilitata: scoprire un nuovo universo. 3. 1.1. La Sindrome Autistica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 3. 1.1.1. Fisiologia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 4. 1.1.2. Sintomatologia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 5. La Comunicazione Facilitata . . . . . . . . . . . . . . . . . . . . . . . . . . .. 7. 1.2.1. Il metodo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 8. 1.2.2. I facilitatori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 9. Dove e come procedere? . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 10. 1.3.1. Il progetto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 10. 1.3.2. Il protocollo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 11. 1.2. 1.3. 2. 1. Analisi Esplorative. 15. 2.1. 15. Il Gruppo 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. I.

(4) II. INDICE 2.2. 3. 4. Analisi della produzione scritta . . . . . . . . . . . . . . . . . . . . . . . . . .. 18. 2.2.1. Il Corpus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 18. 2.2.2. La Term Document Matrix . . . . . . . . . . . . . . . . . . . . . . . .. 19. 2.2.3. La distanza inter-testuale di Labb´e . . . . . . . . . . . . . . . . . . . .. 20. 2.2.4. I periodi di facilitazione . . . . . . . . . . . . . . . . . . . . . . . . .. 28. 2.2.5. Indici di confronto tra testi . . . . . . . . . . . . . . . . . . . . . . . .. 32. Le distribuzioni di distanze. 39. 3.1. Il procedimento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 39. 3.2. Il caso AF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 46. Analisi di raggruppamento. 51. 4.1. Metodologia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 52. 4.2. Le strategie agglomerative utilizzate . . . . . . . . . . . . . . . . . . . . . . .. 54. 4.2.1. Il metodo di Ward . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 54. 4.2.2. Il metodo del legame completo . . . . . . . . . . . . . . . . . . . . . .. 57. 4.3. Cluster e periodi di facilitazione . . . . . . . . . . . . . . . . . . . . . . . . .. 60. 4.4. Cluster e distribuzioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 61. Conclusioni. 67. A. 71 A.1 Tabelle e figure del capitolo 2 . . . . . . . . . . . . . . . . . . . . . . . . . . .. 72. A.2 Tabelle e figure del capitolo 3 . . . . . . . . . . . . . . . . . . . . . . . . . . .. 75.

(5) III Bibliografia. 91.

(6) IV.

(7) Introduzione Il lavoro che segue e` un approfondimento relativo al progetto EASIEST 1 (Espressione Autistica: Studio Interdisciplinare con Elaborazione Statistica e Testuale) in cui sono gi`a stati affrontati studi statistici sui testi prodotti con la Comunicazione Facilitata dai ragazzi autistici, volti prinicipalmente alla verifica dell’originalit`a dello stile e alla valutazione delle differenze nel costrutto grammaticale, nel lessico, nella semantica con i testi prodotti dai facilitatori o da ragazzi “normali”. L’obiettivo di questo lavoro, basato sui testi prodotti dai tredici ragazzi autistici, costituenti il Gruppo 1 del progetto, e` di confrontare gli autori tra di loro, per trovare somiglianze (o verificare le differenze) nel modo di scrivere, seguendo la metodologia proposta negli articoli di Labb´e & Labb´e (2001, 2007); il cui scopo e` proporre una metrica di distanze tra testi scritti basata sul “conteggio” dei vocaboli.. Nel capitolo 2, dopo aver presentato brevemente le caratteristiche principali degli autori e dei testi prodotti, abbiamo calcolato la distanza di Labb´e tra autori (paragrafo 2.2.3) e tra perio1. Per conoscere le diverse componenti del progetto: L. Bernardi (a cura di); Il delta dei significati. Uno studio. interdisciplinare sull’espressione autistica, Ed: Carocci, 2008. 1.

(8) 2 di di facilitazione (paragrafo 2.2.4). L’ultimo paragrafo del capitolo (paragrafo 2.2.5) presenta il calcolo di altri due indici di confronto tra testi: l’indice di connessione lessicale e l’indice di indipendenza lessicale. Nel capitolo 3, a partire dal vocabolario utilizzato da tutti gli autistici, abbiamo costruito 1000 campioni di 1000 parole per analizzare le distribuzioni campionarie delle distanze di Labb´e tra coppie di autori, sintetizzate nelle matrici di medie e varianze. L’ultima parte di questo capitolo (paragrafo 3.2) riguarda la “scoperta” di un caso particolare tra gli autori, sulla base delle analisi fin qui fatte. Il capitolo 4 utilizza lo strumento statistico dell’analisi di raggruppamento per verificare l’eventuale presenza di gruppi (costituiti per somiglianza) e fornisce uno spunto per analisi future pi`u approfondite sui periodi di facilitazione.. I risultati ottenuti, i commenti e tutto questo lavoro esulano da considerazioni nosologiche e terapeutiche, ma vogliono dare un piccolo contributo alla conoscenza di eventuali specificit`a dell’“universo autistico” per cui non esistono ancora modelli di comprensione o di spiegazione causale, n´e tantomeno metodi terapeutici o educativi capaci di garantire una “guarigione” da tale disturbo..

(9) Capitolo 1 Autismo e Comunicazione Facilitata: scoprire un nuovo universo “I beni pi`u grandi ci vengono dalla follia, purch´e la follia ci sia data per dono divino.” Socrate. 1.1. La Sindrome Autistica Il termine autismo deriva dal greco aut`os (io stesso) e fu inizialmente introdotto dallo psichiatra svizzero Eugen Bleuler nel 1911 per indicare un sintomo comportamentale della schizofrenia indicante la perdita di contatto con la realt`a circostante e la conseguente concentrazione di tutta l’attivit`a mentale sul mondo interiore. (Paola Venuti, 2003). 3.

(10) 4. 1.1.1 Fisiologia La comunit`a scientifica internazionale considera l’autismo come la conseguenza di un disturbo cerebrale. In particolare, grazie a numerose ricerche e studi multidisciplinari, e` stata messa in evidenza una disfunzionalit`a nella formazione del reticolo neuronale situato nel tronco encefalico che riceve gli input sensoriali; e` l’apparato che condiziona la regolazione e l’equilibrio delle attivit`a del Sistema Nervoso Centrale (SNC) e dei cambiamenti di stato fisiopsicologici. Il disturbo si costituisce molto prima della nascita del bambino, in una fase in cui il cervello umano e` ad uno stadio molto primitivo della sua formazione. Una volta nato, un “bambino normale” ri-conosce subito la madre attraverso un procedimento innato; successivamente, mediante l’esperienza e il contatto fisico, si proietta nella realt`a circostante fatta di persone (altre rispetto alla madre) e oggetti. Nel corso di vita il bambino “diventa grande” imparando a conoscere il mondo esterno attraverso i sensi e provando diverse emozioni nei confronti degli altri. Per una persona che soffre di autismo, interagire con il mondo non e` piacevole e pu`o diventare fonte di angoscia e dolore; per questo motivo e` possibile riscontrarne i sintomi gi`a nei primi anni di vita. In particolare, i segnali di tale disfunzione si manifestano con gravi alterazioni in 3 aree: • della comunicazione verbale e non; • dell’interazione sociale • dell’immaginazione o repertorio d’interessi..

(11) 5 L’autismo si trova associato anche ad altri disturbi del SNC come epilessia, sclerosi tuberosa, sindrome di Lett, sindrome di Down, sindrome dell’X fragile, rosolia congenita. L’incidenza e` di 6 bambini su 1000, ma in caso di comorbilit`a1 si pu`o arrivare ad 1 su 250; cifre che variano ulteriormente a seconda dei criteri diagnostici utilizzati. Questo sottolinea quanto poco si conosce di tale sindrome, oltre al fatto che non sono ancora state trovate spiegazioni scientifiche che motivino la diversa incidenza tra i sessi: 4 a 1 in favore degli uomini.. 1.1.2 Sintomatologia. Come detto nel paragrafo precedente, i sintomi di una possibile sindrome autistica si possono vedere subito nei primi anni di vita:. Area della comunicazione. Il bambino utilizza il linguaggio in modo non convenzionale, bizzarro oppure appare muto, ripete frasi o parole sentite da altri (acolalia). Nonostante le capacit`a imitative siano integre, queste persone non riescono a gestire le “imitazioni” in situazioni diverse; spesso vi e` una componente di “ritardo mentale”.. 1. Per comorbilit`a s’intende la presenza congiunta di due (o pi`u) disfunzioni, nello stesso individuo..

(12) 6 Interazione sociale Il soggetto sembra non avere interesse agli altri. Pare proiettato nel suo mondo: evita il contatto visivo, sembra insensibile o iper-eccitabile agli stimoli che vengono da fuori, fatica ad incominciare una conversazione o a rispettare i turni di parola.. Area degli interessi Di solito vengono ripetuti, al limite dell’ossessione, pochi limitati movimenti; gli autistici possono manifestare un interesse eccessivo per oggetti o parti di essi, in particolare se hanno forme tondeggianti o possono rotolare. Viene sovente riscontrata una resistenza al cambiamento che per alcuni diventa vero e proprio terrore fobico: in questi casi, il soggetto pu`o scoppiare in crisi di pianto o riso; pu`o diventare autolesionista, iperattivo ed aggressivo verso le persone e gli oggetti. Alcuni mostrano invece una totale passivit`a nei confronti degli eventi, tanto che risultano impermeabili a qualsiasi stimolo.. In sintesi, l’autismo e` un disturbo del quale non e` ancora chiara l’eziologia e la diagnosi viene effettuata sulla base di indicatori comportamentali secondo la modalit`a classificatoria utilizzata dai manuali diagnostci DSM IV e ICD 10 in cui il sintomo e il comportamento coincidono. (Paola Venuti 2003).

(13) 7 Questa citazione permette di giustificare il titolo del capitolo. Si pensi all’universo: quanto conosciamo sulla storia di ogni stella? Poco pi`u di nulla. Lo stesso vale per la sindrome autistica: la letteratura specializzata si occupa principalmente di fisiologia e sintomatologia. Nel primo caso indaga sulle conseguenze che il disturbo ha sul corpo e sulla mente dell’uomo, nel secondo studia i sintomi, ovvero i segnali che possono far pensare alla presenza (o meno) della sindrome. L’eziologia, la causa primordiale del disturbo, e` sconosciuta e difficilmente pu`o essere studiata in modo rigoroso. Questo progetto si inserisce in un ambito della fisiologia poco esplorato dagli studi sull’autismo; quello comunicativo.. 1.2 La Comunicazione Facilitata La comunicazione facilitata, d’ora in poi C.F., e` un metodo complesso che, attraverso strumenti (per lo pi`u ausili tecnici) e persone formate e competenti (i facilitatori) consente un giusto ed equo rapporto tra facilitato e facilitatore. Il suo utilizzo, mediante un intervento educativo graduale, permette a persone con problemi di comunicazione di esprimere il proprio pensiero, altrimenti bloccato a causa di una comunicazione verbale atipica. L’obiettivo della C.F. e` quindi quello di rendere via via pi`u autonomo il soggetto autistico nell’esprimere i propri pensieri, proponendo un rapporto tra facilitatore e facilitato volto ad un progressivo distacco. La forte interazione all’inizio del “trattamento” e` comunque indispensabile per aiutare l’autistico a prendere confidenza con questo mondo, per lui ancora sconosciuto..

(14) 8. 1.2.1 Il metodo. Noi, esseri umani tipici, siamo portati a dare per scontato che la realt`a esterna sia uguale per tutti, in particolare per coloro che non presentano alcun tipo di disturbo psico–fisico. Per chi lavora con la C.F. questo non e` un dato di fatto, non e` la normalit`a: di ogni “allievo” che inizia a rapportarsi con la C.F. e` fondamentale capire chi e` e come “funziona”, ma anche tentare di ipotizzare la mappa del suo mondo e dei suoi pensieri. Solo conoscendolo in profondit`a si pu`o costruire un progetto ad hoc evitando stimoli fuori misura, tenendo sotto controllo i progressi e le informazioni acquisite nel tempo; solo cos`ı si pu`o entrare in confidenza e condividere con lui tempi e modi di assimilazione delle informazioni. L’utilizzo del computer sembra essere d’aiuto per imparare il processo comunicativo; e` il punto di arrivo di un cammino che parte dal riconoscimento delle lettere su una tastiera di carta e il punto di partenza per il dialogo con il facilitatore. Le informazioni scritte, in particolare le domande, se sono visualizzate sullo schermo del computer vengono capite e interpretate in modo migliore rispetto a quelle poste verbalmente (probabilmente per una decifrazione errata del tono e della cadenza). Vedere ci`o che si scrive permette un ulteriore controllo e una verifica nei confronti del pensiero che si vuole esprimere. L’utilizzo di questi strumenti impone lentezza, pazienza, ritmo e cadenza concedendo il tempo necessario per l’attuazione corretta del processo pensiero-movimento. Le persone autistiche subiscono forti impulsi emotivi che sfociano in ansia e irrequietezza; l’utilizzo di intermediari oggettivi – il computer – permette di ridurre l’emotivit`a individuale degli interlocutori, uno dei principali freni per l’interazione con soggetti autistici..

(15) 9. 1.2.2 I facilitatori Il Facilitatore, partendo con un contatto fisico, ponendo la mano su quella dell’allievo, passando poi al gomito, alla spalla, alla testa e, infine, solamete con la sua presenza, consente al facilitato di superare le difficolt`a del processo comunicativo. Attraverso la scrittura e tramite il riconoscimento di immagini, l’allievo comunica ci`o che pensa e le scelte che compie. Il facilitatore ha diverse funzioni:. • offre un supporto fisico; aiuta il soggetto ad isolare ed estendere il dito indice, a controllare il movimento del puntare il dito e a ritirare la mano dopo ogni selezione. Consente al facilitato di superare difficolt`a fisiche specifiche come la coordinazione (occhio-pensieromano) o l’irregolare tono muscolare che, in alcuni casi, risulta essre o troppo alto o troppo basso.. • garantisce la perseveranza nel portare a termine un compito dato fornendo un controllo sull’impulsivit`a (Crossley 1990). • offre un supporto emotivo: questo e` fondamentale per instaurare una relazione di fiducia, nella quale e` pi`u facile che si sviluppi la comunicazione; ne e` una prova il fatto che le produzioni diminuiscano in termini di qualit`a quando cambia il facilitatore.. Basilare rimane comunque la capacit`a di lasciarsi andare serenamente alla scoperta della storia, dei vissuti, delle emozioni e della realt`a di precedenti apprendimenti sconosciuti ed insondabili della persona atipica..

(16) 10. 1.3. Dove e come procedere?. A partire dalla diversit`a di opinioni e dalle controversie che riguardano la comunicazione di soggetti autistici attraverso l’uso della C.F. (Green 1994 - Skeptic, v.2, n.3: pag. 68-76; Jakobson et al. 1995 - American Psycologist, v.50, n.9: pag. 750-765); questo progetto si propone di studiare la produzione dei testi dal punto di vista statistico-linguistico; un approccio che non entra nel merito del dibattito sulla correttezza (o meno) del metodo della C.F., perch´e ne utilizza il “prodotto finale”: le parole in s´e.. 1.3.1 Il progetto EASIEST e` un acronimo: Espressione Autistica Studio Interdisciplinare con Elaborazione Statistico-Testuale. Nel capitolo precedente si e` parlato del funzionamento della comunicazione facilitata e del modo corretto di utilizzo; con questa metodologia sono stati raccolti testi di diverso tipo a seconda degli obiettivi raggiungibili,del grado di facilitazione necessario e del tempo trascorso dall’inizio dell’uso della C.F.: • Copiare, Nominare (Es: “Scrivi Albero”; “Che cos’`e questo?” di fronte ad un’immagine); • Scelta multipla, Domande chiuse, Completamento (Es: “Vuoi giocare a carte o con la palla?”; “Sai in che anno e` iniziata la Seconda Guerra Mondiale?”; “Per mangiare si usano le....”);.

(17) 11 • Domande su contesti noti conosciuti dal facilitatore e quindi con una gamma di risposte limitata (Es: “Cosa hai mangiato a pranzo?”);. • Conversazione aperta (Es: “Di cosa vuoi parlare oggi?”).. Per ottenere degli elaborati studiabili dal punto di vista statistico, il progetto ha preliminarmente provveduto alla formazione dei facilitatori e alla preparazione dei facilitati. Questo punto e` sottoposto a maggior critica da chi e` in disaccordo con l’utilizzo della C.F. nella restituzione di testi propriamente comunicativi; infatti, perch`e questa fase sia metodologicamente corretta e l’effetto facilitatore sia nullo, il dialogo sarebbe dovuto avvenire tra i ragazzi autistici e “sconosciuti” adeguatamente formati. Data la complessit`a e l’eterogeneit`a di comportamenti, reazioni e atteggiamenti dei soggetti interessati si e` preferito mantenere un protocollo di lavoro il pi`u possibile rigido, mantenendo i facilitatori abituali.. 1.3.2 Il protocollo Si elencano di seguito i punti fermi su cui si basa tutto il progetto:. • Soggetti: ragazzi con Disturbo Generalizzato dello Sviluppo (anche in presenza di comorbilit`a). • Modalit`a di selezione: tutti i soggetti dovevano avere esperienze di facilitazone con almeno tre facilitatori differenti. Coloro che avevano comunicato con meno di tre, o di cui non e` stato possibile recuperare i testi prodotti, non sono stati considerati..

(18) 12 • Il campione: Gruppo 1 (nella totalit`a del progetto sono stati formati 3 gruppi), formato dai soggetti che hanno prodotto testi di alta qualit`a dal punto di vista dei contenuti, delle abilit`a linguistiche, della lunghezza e complessit`a. Di questi si conosce tutta la storia dalle prime esperienze di comunicazione facilitata in poi (apprendimento e miglioramento fino all’autonomia).. • Criterio temporale di selezione dei testi: l’esperienza espressa in anni di pratica e` stata suddivisa in 5 fasce; primo semstre, secondo semestre, secondo anno, terzo anno, oltre il terzo anno.. • Numerosit`a dei testi per soggetto: per ogni fascia temporale dovevano essere fornite un numero di sedute tale da ricoprire 15 pagine standard di testo, per arrivare ad un totale di 70-80 pagine per soggetto2 .. • Scelta degli intermediari: la produzione e` stata sviluppata totalmente grazie a supporti informatici quali il PC o la macchina da scrivere elettronica.. • Preferenza dei testi: per poter valutare oggettivamente la non influenza del facilitatore, sono stati scelti i testi scritti dai soggetti che avevano raggiunto il massimo livello di autonomia all’interno del processo comunicativo. 2. Questo criterio poteva non essere rispettato per le prime due fasce, dove la produzione e` stata necessariamente. pi`u limitata, ma si e` cercato comunque di avvicinarsi alle dimensioni richieste per poter apprezzare nel tempo l’evoluzione del linguaggio..

(19) 13 • Scelta delle coppie facilitato/facilitatore: riguarda la fluidit`a della comunicazione, al fine di sviluppare dialoghi ”ritmati” e continuativi nella coppia; per questo si e` tenuto conto di quelli avvenuti con un parente stretto, come la madre e/o il padre. • Qualit`a delle sedute: sono state scelte le sedute in base al contenuto e non al numero di parole scritte. Il materiale testuale prodotto dal soggetto ha contribuito alla produzione del vocabolario del linguaggio autistico; pertanto sedute troppo brevi non sono state prese in considerazione. Gli scritti del facilitatore sono importanti e servono per confutare o affievolire l’idea che, in questo tipo di comunicazione, il testo sia influenzato e non prodotto autonomamente dal soggetto autistico. Tenendo conto di queste scelte metodologiche-progettuali volte a rendere la raccolta e la quantit`a dei dati omogenea, si e` proceduto alla formazione dei facilitatori attraverso un protocollo di lavoro..

(20) 14.

(21) Capitolo 2 Analisi Esplorative. 2.1. Il Gruppo 1. Come detto nel paragrafo 1.3.2 in questo lavoro si tiene conto solamente della produzione scritta dei ragazzi apparteneti al Gruppo 1 del progetto. In questo campione sono rientrati 13 giovani autistici, 12 ragazzi e 1 ragazza, provenienti da tre centri diversi che hanno partecipato al progetto EASIEST. La tabella 2.1 mostra l’anno di nascita, la provenienza e il genere dei soggetti: come si pu`o notare, in alcuni casi gli anni di nascita sono molto differenti tra loro; situazione da tenere sempre presente nella lettura dei risultati che seguiranno, ricordando anche che si tratta di uno studio di fattibilit`a per l’analisi della produzione scritta.. 15.

(22) 16. Soggetto. Provenienza. Genere. Anno. Soggetto. Provenienza. Genere. Anno. AF. Genova. Maschio. 1978. LB. Genova. Maschio. 1987. AN. Genova. Maschio. 1989. LP. Roma. Maschio. 1990. CM. Roma. Maschio. 1974. MO. Genova. Maschio. 1989. DDL. Genova. Maschio. 1996. MV. Genova. Maschio. 1992. DR. Genova. Femmina. 1996. OP. Genova. Maschio. 1985. DV. Genova. Maschio. 1987. PCM. Padova. Maschio. 1981. FP. Genova. Maschio. 1993. Tabella 2.1: Gruppo 1. Per capire meglio come avviene il processo di facilitazione spiegato nel par 1.2.2, si riporta l’andamento nel tempo del livello di facilitazione per i diversi soggetti (Tabella 2.2). Dalla tabella si pu`o notare come da un livello massimo di facilitazione (contatto mano su mano) si passa ad uno inferiore (mano-spalla, mano-schiena) fino ad arrivare alla quasi totale autonomia del soggetto: sembra, allora, esserci un miglioramento nelle capacit`a relazionali. I ragazzi imparano l’arte della comunicazione? A questo non si pu`o ancora rispondere. Solamente 2 su 13 raggiungono l’autonomia completa; tuttavia in tutti si nota un progressivo miglioramento e quindi una riduzione del contatto fisico indice del livello di facilitazione. Sembra che i ragazzi imparino a riconoscere e a reagire agli stimoli propri dell’interazione sociale e comunicativa..

(23) 17. Soggetto. I semestre. II semestre. II anno. III anno oltre III anno. AF. Massimo. Massimo. Massimo. Medio. Medio. AN. Massimo. Medio. Medio. Medio. Basso. CM. Medio. Medio. Medio. Medio. Medio. DDL. Massimo. Massimo. Medio. Medio. Basso. DR. Massimo. Medio. Basso. Basso. Autonomo. DV. NNN 1. NNN. Basso. Basso. Basso. FP. Massimo. Medio. Basso. Basso. Basso. LB. Massimo. Medio. Medio. Basso. Basso. LP. Medio. Medio. Medio. Medio. Basso. MO. Medio. Basso. Basso. Medio. Basso. MV. Medio. Basso. Medio. Basso. Basso. OP. Massimo. Massimo. Medio. Basso. Autonomo. PCM. Massimo. Massimo. Medio. Basso. Basso. Tabella 2.2: Livello di facilitazione per periodo.

(24) 18. 2.2. Analisi della produzione scritta. 2.2.1 Il Corpus Come detto in precedenza, la popolazione oggetto di analisi e` formata dagli scritti dei ragazzi autistici, considerati sia nella totalit`a (tutta la produzione di ogni individuo), sia divisi per periodo di facilitazione, a seconda del tipo di analisi effettuata. Prima di essere analizzato, il corpus e` stato pulito da tutti i simboli di interpunzione, sono stati rimossi gli spazi in eccesso e sostuiti gli accenti, non riconosciuti dal programma utilizzato (R), con un raddoppiamento della vocale (es: perch´e diventa perchee, pap`a—papaa).. Soggetto. Parole. Soggetto. Parole. AF. 4285. LB. 2287. AN. 2977. LP. 5446. CM. 6258. MO. 3174. DDL. 4629. MV. 2664. DR. 3077. OP. 4144. DV. 2350. PCM. 5527. FP. 1760. Tabella 2.3: Numero di parole scritte. Nella tabella 2.3 sono riportate le dimensioni dei corpus di ogni singolo autistico; si nota subito che hanno lunghezze molto differenti tra loro, dal minimo di 1760 parole al massimo di 6258. Va precisato che per il soggetto che ha usato il numero pi`u basso di parole, FP, sono.

(25) 19 state riportate solamente le conversazioni fino al terzo anno di facilitazione: non compaiono le conversazioni relative all’ultimo periodo (oltre il terzo anno). L’ampiezza del range delle produzioni pu`o essere imputata alla natura del campione utilizzato: et`a, provenienza e tipologia di disturbo autistico sono diversi per ogni soggetto. Vent’anni di differenza (come nel caso di CM con FP) si riflettono sia nella lunghezza, sia nei contenuti dei dialoghi con i rispettivi facilitatori: il vocabolario e` pi`u ampio per il soggetto pi`u vecchio e, di conseguenza, gli stessi contenuti sono diversi.. 2.2.2. La Term Document Matrix. A partire dai corpus di ogni singolo autistico si e` costruito il vocabolario, formato da tutte le 9756 parole scritte almeno una volta. Da questo e` stata costruita una matrice, chiamata Term Document Matrix (TdM), che ha sulle i–righe le parole del vocabolario in ordine lessicografico e sulle j–colonne i 13 ragazzi autistici (gli autori). In ogni cella e` contenuto il numero di volte che quella parola e` stata usata da ogni autistico (vedi Tabella 2.4). La TdM e` uno strumento molto duttile ed efficace per l’analisi testuale perch´e contiene tutte le informazioni presenti nei testi; e` l’oggetto principale da cui partire per qualsiasi studio sul corpus. Ogni elemento della matrice rappresenta la frequenza assoluta di ogni parola in ogni autore (da cui possiamo ricavare hapax, dislegomena, ecc.); sulle righe possiamo individuare gli eventuali errori di scrittura e chi li ha commessi; confrontando le colonne (i corpus individuali) ricaviamo i profili lessicali di ogni autore. Il profilo lessicale altro non e` che l’insieme delle parole utilizzate da un autore; il confronto tra.

(26) 20. Parole. AF. AN. CM. DDL. DR. DV. FP. LB. LP. MO. MV. OP. PCM. ordino. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 1. ore. 1. 0. 0. 0. 1. 1. 0. 0. 2. 0. 0. 0. 0. orecchi. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. orecchie. 0. 0. 1. 6. 4. 0. 0. 0. 0. 1. 1. 0. 0. orecchio. 1. 0. 4. 0. 0. 0. 1. 0. 2. 0. 0. 0. 0. organi. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. Tabella 2.4: Term Document Matrix. due profili si basa sulla frequenza assoluta di ogni parola presente in entrambi i testi: l’obiettivo di questa procedura e` calcolare una misura di distanza che dia un’idea della somiglianza tra i testi considerati.. 2.2.3. La distanza inter-testuale di Labb´e. L’obiettivo appena descritto di fornire una misura della somiglianza, si risolve ricorrendo ad una metrica con determinate propriet`a:. • invarianza rispetto alla lunghezza dei testi comparati. • adattabilit`a a molti testi. • i valori devono essere compresi tra 0 (i due testi hanno lo stesso vocabolario e la stessa frequenza nei type) e 1 (non ci sono type in comune). • Dati due testi A e B, la distanza δ e` simmetrica: δ(A,B) = δ(B,A).

(27) 21 • “robustezza”(per quanto possibile): ad un piccolo cambiamento in uno dei due testi corrisponde un piccolo cambiamento nella distanza. Dati due testi A e B, chiamiamo VA e VB il numero di types nei testi A e B (il vocabolario) FiA la frequenza dell’ i-esimo type in A FiB la frequenza dell’i-esimo type in B NA e NB il numero di tokens nei due testi (la lunghezza totale di A e B), con NA =. P. VA. FiA e NB =. P. VB. FiB .. La distanza relativa viene calcolata come:. δ(A,B) =. P. i∈VA. P |FiA − FiB | + i∈VB |FiB − FiA | . NA + NB. (2.1). Nel caso in cui i testi siano completamente diversi per i type usati il risultato e` 1 (anche in caso di lunghezze molto diverse), tuttavia il minimo teorico 0 viene raggiunto solo nel caso di uguale lunghezza dei due testi. A questo si aggiunge il fatto che in 2.1 l’intersezione viene contata due volte, dando molta importanza ai type in comune piuttosto che a quelli specifici. Labb´e e Labb´e, nel loro articolo del 2001 2 , propongono una modifica all’impianto metodologico alla base di 2.1 proprio per dare una soluzione al problema della lunghezza dei due testi e al raggiungimento del minimo teorico. Dati A e B, supponiamo NA ≤ NB , la frequenza di ogni i–esimo type presente nel testo pi`u lungo (FiB ) viene ridotta sulla base della grandezza del testo pi`u corto. 2. Per ulteriori approfondimenti sulla distanza intertestuale: Brunet(1988), Labb´e e Labb´e (2001), Merriam. (2002), Labb´e (2007)..

(28) 22 ∗ La stima FiB si ottiene sulla base della proporzizone per cui. ∗ ∗ FiB : FiB = NA : NB ⇒ FiB = FiB. quindi, NA = NB∗ =. P. VB. NA NB. (2.2). ∗ FiB .. ∗ Ora si pu`o sostituire FiB con FiB e NB con NB∗ nella 2.1; la nuova misura raggiunge lo 0 ∗ quando tutti i type di a sono presenti in b con frequenza FiA = FiB , cio`e quando il testo pi`u. corto e` una specie di modello di quello pi`u lungo. Risolto l’inconveniente della lunghezza con la riscalatura appena descritta, gli autori considerano il problema dei type in comune tra i due testi, calcolando la distanza assoluta in due passi: per primi i VA types (vengono contati una volta anche quelli in comune), successivamente solo i VB∗ , quelli relativi al solo testo riscalato, in cui FiA = 0 . La distanza assoluta risulta quindi dVA,B∗ =. X. ∗ |FiA − FiB | ;. VA ,VB∗. quando A e B non hanno type in comune e` uguale alla somma dei tokens nei due testi – NA + NB∗ –; la distanza relativa raggiunge il massimo teorico, 1. Nel caso in cui i due testi abbiano type in comune il risultato ha un valore compreso tra 0 e 1, calcolato come: P P ∗ ∗ VA ,VB∗ |FiA − FiB | VA ,VB∗ |FiA − FiB | P = . d(A,B) = P ∗ NA + NB∗ VA FiA + VB FiB. (2.3). ∗ Si noti che le FiA sono numeri interi, mentre le FiB – essendo delle stime – includono valori. decimali che influiscono nel calcolo della distanza; a questo proposito si pu`o aggiustare il valore della 2.3 considerando solo le parole la cui frequenza stimata e` maggiore di uno. La soglia ci permette di applicare il calcolo della distanza solamente alle parole del testo pi`u lungo (B) che hanno frequenza tale da comparire almeno una volta nel testo riscalato; la 2.3.

(29) 23 ∗ verrebbe aggiornata sulla base della condizione FiB ≥ 1.. Esempio 1: Prendiamo i primi due autori esaminati, AF e AN; dalla TdM calcoliamo:. • NAN = 2977, il numero di type utilizzati da AN; • NAF = 4285 il numero di type di AF; • Fi,AN e Fi,AF le frequenze dei types nei rispettivi testi; ∗ • Fi,AF le frequenze stimate nella riscalatura del corpus.. Possiamo vedere il risultato della riscalatura del testo pi`u lungo nella Tabella 2.5: Fi,AN. Fi,AF. ∗ Fi,AF. trovare. 2. 7. 4.86. trovo. 5. 2. 1.39. tua. 2. 5. 3.47. tutti. 11. 8. 5.56. tutto. 5. 3. 2.08. una. 25. 29. 20.15. volta. 5. 3. 2.08. vorrei. 3. 2. 1.39. Tabella 2.5: Esempio di “riscalatura” del corpus pi`u lungo.

(30) 24 i valori nella terza colonna sono le stime calcolate moltiplicando il corrispondente valore di Fi,AF per la costante di normalizzazione NAN /NAF = 0.695; la distanza di Labb´e calcolata per ∗ questi due testi e` pari a 0.76, se si usa la 2.3 senza alcuna soglia d’inclusione per le Fi,AF . Nel ∗ caso imponessimo il calcolo solo alle parole con Fi,AF ≥ 1 la distanza sarebbe inferiore e pari. a 0.602, la lettura di questo dato e` molto semplice: i due testi condividono il 40% delle parole utilizzate mentre, nel caso senza alcuna soglia, solo il 34%. Data la scarsa numerosit`a campionaria a disposizione e la lunghezza dei corpus abbastanza ridotta rispetto a quella su cui la letteratura ha applicato questa metodologia – studi su novelle e romanzi di autori storici con un numero di type ben pi`u elevato –, utilizzare un livello di soglia per escludere alcune parole ridurrebbe ulteriormente la dimensione dei corpus in esame. Nell’esempio precedente il corpus AF, una volta riscalato con la 2.2, ha la stessa dimensione di quello pi`u corto (2977 types); se considerassimo le parole che effettivamente costituirebbero il ∗ ≥ 1), avremmo un testo di 1945.298 types con nuovo testo, quelle con frequeza attesa (Fi,AF. una perdita di 1031.702 parole (sono cifre decimali perch´e stiamo ragionando sulle frequenze attese). Calcolando la 2.3 con la soglia, rischiamo di eliminare dal conteggio gli hapax (parole che compaiono una volta sola) del corpus pi`u grande; questo non comporterebbe alcun problema se i testi fossero abbastanza lunghi e la percentuale sul totale non fosse alta, come invece succede nel nostro campione: il range di variazione e` compreso tra il 20% e il 40% e, se si considera che le lunghezze vanno da 1760 a 6258 (Tabella 2.3), la proporzione e` troppo elevata. La relazione tra hapax e lunghezza del corpus e` rappresentata nella Figura 2.1, in cui si identificano due gruppi abbastanza distinti: uno formato dai corpus di lunghezza compresa tra i 2000.

(31) 25 e i 3000 types e percentuale di hapax intorno al 30%, l’altro dai testi pi`u lunghi e proporzione minore. Due autori si discostano notevolmente dal resto del campione: si tratta di FP (ma l’elevato numero di hapax pu`o essere imputato all’esigua lunghezza del suo testo) e AF che, pur avendo un. ●. FP. ●. ●. 0.30. ●. LB DV. ●. MV. AF. ● MO DR AN. ● ●. ●. 0.25. % hapax. 0.35. 0.40. 0.45. corpus abbastanza lungo, ha una proporzione di hapax molto alta.. OP ● ●. CM. LP PCM. 0.20. ●. DDL. 0.15. ●. 2000. 3000. 4000. 5000. 6000. lunghezza corpus. Figura 2.1: Percentuale hapax nei corpus. La maggior parte dei testi analizzati e` formata da hapax, come se ogni parola fosse pesata e pregna di significato all’interno della frase. Quindi, per rispettare questa particolarit`a, la distanza tra i testi e` stata calcolata senza considerare alcun livello di soglia per la frequenza attesa dei type e, partendo dalle colonne della TdM, abbiamo ottenuto la matrice delle distanze di Labb´e tra coppie di autori (Tabella 2.6), che risulta essere:.

(32) 26 • quadrata, di ordine 13x13 • triangolare, infatti d(a, b) = d(b, a) • ha traccia nulla, perch´e d(a, a) = 0 .. AF. AN. CM. DDL. DR. DV. FP. LB. LP. MO. MV. OP. AF. 0. AN. 0.76. 0. CM. 0.67. 0.62. 0. DDL. 0.74. 0.62. 0.56. 0. DR. 0.73. 0.62. 0.55. 0.57. 0. DV. 0.73. 0.64. 0.58. 0.61. 0.62. 0. FP. 0.75. 0.65. 0.61. 0.62. 0.63. 0.65. 0. LB. 0.75. 0.59. 0.58. 0.57. 0.60. 0.62. 0.59. 0. LP. 0.74. 0.63. 0.54. 0.60. 0.60. 0.65. 0.65. 0.58. 0. MO. 0.72. 0.61. 0.55. 0.56. 0.56. 0.61. 0.60. 0.55. 0.58. 0. MV. 0.76. 0.63. 0.59. 0.63. 0.62. 0.63. 0.65. 0.58. 0.60. 0.60. 0. OP. 0.74. 0.66. 0.57. 0.59. 0.61. 0.63. 0.64. 0.61. 0.64. 0.59. 0.62. 0. PCM. 0.73. 0.62. 0.52. 0.55. 0.57. 0.60. 0.62. 0.55. 0.56. 0.53. 0.57. 0.59. PCM. 0. Tabella 2.6: Matrice delle distanze di Labb´e tra coppie di autistici. Le distanze tra profili lessicali sono molto elevate e questo si deve al fatto che stiamo analizzando parole utilizzate da persone diverse3 ; tuttavia, i valori relativi ad AF risultano molto 3. Nell’articolo di Labb´e & Labb´e (2001), viene presentata una scala standardizzata per la distanza intertesuale. dove il valore 0.65 rappresenta la distanza massima per testi scritti nello stesso linguaggio da autori diversi..

(33) 27 elevati: la media delle sue distanze e` 0.74, valore molto pi`u grande rispetto agli altri che variano tra 0.58 e 0.64 (Tabella 2.7).. AF. AN. CM. DDL. DR. DV. FP. LB. LP. MO. MV. OP. PCM. 0.74. 0.64. 0.58. 0.60. 0.61. 0.63. 0.64. 0.60. 0.61. 0.59. 0.62. 0.62. 0.59. Tabella 2.7: Media delle distanze tra un autistico e gli altri. La proporzione di hapax presente in ogni corpus e` una causa delle differenze cos`ı marcate. Infatti, sembra esserci una correlazione tra distanza media e proporzione di parole usate una volta sola (Figura 2.2); l’unico autore per cui non sembra valere questo ragionamento e` AF, che. 0.75. si comporta come un outlier.. AF. 0.65. media delle distanze. 0.70. ●. AN DV. ●. ● ● ●. 0.60. ●. OP. ●. LP ●. ●. DDL ●. FP. MV. ●. PCM CM. 0.55. ●. DR LB ● MO. 0.20. 0.25. 0.30. 0.35. 0.40. 0.45. %hapax. Figura 2.2: Relazione tra distanza media e percentuale di hapax.

(34) 28 Ulteriore conferma a queste ultime osservazioni si trova incrociando i dati relativi alla lunghezza dei testi con la distanza media: sembra delinearsi una relazione inversa tra le due quantit`a e, anche in questo grafico, la produzione scritta di AF risulta essere un punto a parte. 0.75. rispetto agli altri (Figura 2.3).. AF. 0.65. media delle distanze. 0.70. ●. ●. FP. ● ●. DV ●. AN. MV. ●. OP ●. 0.60. ● ●. DR ●. LB ●. LP. DDL. MO. ●. PCM CM. 0.55. ●. 2000. 3000. 4000. 5000. 6000. lunghezza corpus. Figura 2.3: Relazione tra distanza media e lunghezza dei corpus. 2.2.4 I periodi di facilitazione Dai dati in nostro possesso e` stato possibile recuperare gli scritti relativi ai periodi di facilitazione a cui i ragazzi si sono sottoposti (Tabella 2.2) e costruire una TdM che sulle colonne (profili lessicali) riporta i diversi momenti per ogni autistico. Ogni autore ha cinque profili lessicali diversi (tranne FP, di cui mancano gli scritti relativi all’ultimo periodo) che rappresentano il “cammino” individuale nell’uso della comunicazione facilitata; una sorta di evoluzione in termini di uso di parole, pensieri e scrittura..

(35) 29 La tabella 2.8 riporta le distanze intertestuali, calcolate con la 2.3, tra i testi prodotti nei diversi periodi da un solo autistico: e` un blocco di dimensioni 5 × 5 ottenuto dalla matrice contenente le distanze di Labb´e calcolate per ogni periodo di ogni autore (di dimensioni 64 × 64) da cui otteniamo, sezionando lungo la diagonale, 12 matrici quadrate di dimensione 5 × 5 e una 4 × 4 (FP). LB1sem. LB2sem. LB2year. LB3year. LB1sem. 0. LB2sem. 0.64. 0. LB2year. 0.67. 0.61. 0. LB3year. 0.70. 0.65. 0.66. 0. LB>3year. 0.77. 0.73. 0.74. 0.77. LB>3year. 0. Tabella 2.8: Matrice di distanze intertestuali per periodi di facilitazione, autistico LB. In questo modo possiamo valutare, in termini di distanza intertestuale, come si differenzia il modo di scrivere nell’arco temporale della facilitazione. Perch´e ci sia un apprendimento da parte dell’autistico dovremmo trovare una relazione diretta tra valori delle distanze e periodi di tempo; piccoli tra tempi adiacenti, elevati tra tempi distanti. Quest’ipotesi deriva direttamente dalla rigida gradualit`a del protocollo a cui sono sottoposti i facilitatori per quanto riguarda sia l’insegnare a scrivere, sia le domande poste al facilitato (vedi il paragrafo 1.3.1); tuttavia le differenze dipendono anche dall’individualit`a stessa degli autori che, per la prima volta, vengono messi di fronte alla possibilit`a di poter comunicare. Nel nostro caso, pare non esserci alcuna relazione tra periodo di facilitazione e lunghezza del testo scritto: la tabella 2.9 mette in evidenza la variabilit`a della dimensione dei corpus, in-.

(36) 30 dipendentemente dal tempo trascorso, come se fossero altre variabili ad influenzare il flusso comunicativo degli autistici. Oltretutto, in termini di calcolo delle distanze, le lunghezze dei testi nei diversi periodi non sono adatte per il calcolo della 2.3: stiamo confrontando testi molto al di sotto della soglia consigliata dalla letteratura (Tabella 2.9), situazione che crea valori distorti delle distanze intertestuali. Allora la tabella 2.8 va letta in un’ottica puramente indicativa, considerando che il valore della distanza tra gli ultimi due periodi (0.77) e` dovuto alla differenza di lunghezza tra i due testi, 120 contro 419 parole. Maggiore e` la differenza nella lunghezza tra i due testi in considerazione, maggiore e` il valore della distanza intertestuale. Ad esempio, per gli autori che hanno il primo testo al di sotto delle 100 parole le distanze tra i periodi raggiungono valori troppo elevati (≥ 0.80), come se i corpus fossero scritti in lingua diversa (vedi Tabella 2.10). Bisogna quindi prendere con cautela l’analisi per periodi di facilitazione; le lunghezze dei testi estremamente variabili portano distorsioni nel calcolo delle distanze, ottenendo valori che non rispecchiano la realt`a: un valore come quello tra il primo semestre e il terzo anno di facilitazione per DDL (0.96) indica che i due testi condividono solamente il 4% dei types utilizzati, un valore come quello precedente si trova nel confronto tra testi scritti in due lingue diverse (in letteratura la soglia minima per testi scritti nello stesso linguaggio e` il 35%, che corrisponde ad una distanza pari a 0.65). Di conseguenza, anche tenendo conto degli eventuali errori, del disturbo di cui soffrono gli autori, della difficolt`a nell’imparare a comunicare attraverso un computer, i valori ottenuti sono totalmente influenzati dalle diverse lunghezze dei testi; risulta difficile quindi poter descrivere in modo corretto l’andamento delle distanze nel tempo..

(37) 31. periodo facilitazione 1 sem. 2 sem. 2 anno. 3 anno. >3 anno. AF. 921. 570. 595. 756. 1443. AN. 260. 598. 529. 1040. 550. CM. 1382. 1191. 1174. 1109. 1402. DDL. 39. 154. 1386. 1694. 1356. DR. 226. 331. 788. 985. 750. DV. 313. 762. 233. 459. 583. FP. 634. 147. 704. 276. 634. LB. 598. 559. 591. 419. 120. LP. 846. 1242. 920. 1148. 1290. MO. 78. 614. 241. 541. 1700. MV. 115. 146. 147. 651. 1605. OP. 76. 527. 1999. 604. 949. PCM. 645. 842. 1289. 1381. 1369. Tabella 2.9: Lunghezza dei testi per periodo di facilitazione. 1 sem. 2 sem. 2 anno. 3 anno. oltre 3 anno. DDL1sem. 0.00. 0.86. 0.97. 0.96. 0.96. MO1sem. 0.00. 0.85. 0.80. 0.82. 0.86. OP1sem. 0.00. 0.87. 0.87. 0.90. 0.90. Tabella 2.10: Distanze tra periodi. Autori che nel primo periodo hanno scritto meno di 100 parole.

(38) 32. 2.2.5 Indici di confronto tra testi Oltre alla distanza di Labb´e possiamo calcolare altri indici di somiglianza tra due testi: l’indice di connessione lessicale e l’indice di indipendenza lessicale. Queste due misure sono pi`u grezze rispetto a quella proposta da Labb´e: si basano, infatti, sul confronto tra i vocabolari utilizzati e non sulle frequenze assolute delle parole; verificando quali e quanti sono i types presenti in entrambi i testi o in uno solo dei due.. Indice di connessione lessicale Questo indice e` stato proposto per risolvere il problema di attribuzione di un’opera anonima ad un autore noto, basandosi sul vocabolario comune tra i testi. Prendiamo due testi A e B con il rispettivo vocabolario VA e VB ; la parte comune ai due scritti si indica con VA∩B , il vocabolario totale (cio`e del corpus che unisce i due testi) e` VA∪B e i vocabolari propri di A e B vengono indicati rispettivamente come VA∩B¯ e VA∩B (A¯ rappresenta, infatti, ¯ le parole che non sono presenti nel testo A). L’indice di connessione lessicale (C) corrisponde al rapporto tra la parte comune e il totale del vocabolario:. CVA,B =. VA∩B . VA∪B. (2.4). Ovviamente, varia tra 0 e 1: nel primo caso ci troviamo di fronte a due testi completamente differenti – nessuna parola in comune –, nel secondo i due testi sono assolutamente identici. In questo contesto, allora, CVA,B rappresenta la percentuale di parole in comune tra due autori; un’ulteriore strumento di verifica per risultati fin qui ottenuti. La tabella A.1 in Appendice,.

(39) 33 contiene il valore dell’indice calcolato sia tra coppie di autori, sia tra uno e tutti gli altri (`e riportato solo un valore per coppia, infatti CVA,B = CVB,A ); in entrambi i casi la connessione tra i testi e` molto bassa. Gli autori utilizzano vocabolari molto diversi e mediamente non arrivano a condividere 20 parole su 100 utilizzate: ognuno ha un modo differente di esprimersi, con le proprie particolarit`a che incidono in grande misura nel confronto tra coppie. Per eliminare l’influenza dell’“individualit`a espressiva” nel calcolo dell’indice, abbiamo eliminato gli hapax che, comparendo una volta sola, rappresentano le specificit`a dei corpus esaminati. I risultati sono riportati per intero in Appendice (Tabella A.3), qui sotto riportiamo il valore medio per ogni autore, con e senza hapax: AUT. hap. no hap. AUT. hap. no hap. AF. 0.131. 0.157. LB. 0.165. 0.217. AN. 0.154. 0.212. LP. 0.166. 0.212. CM. 0.171. 0.231. MO. 0.165. 0.232. DDL. 0.179. 0.231. MV. 0.158. 0.212. DR. 0.163. 0.210. OP. 0.162. 0.214. DV. 0.168. 0.215. PCM. 0.171. 0.240. FP. 0.146. 0.197. Tabella 2.11: Media dell’indice di Connessione Lessicale con e senza hapax, tra coppie, per autore. La crescita dell’indice e` dovuta all’aumento della proporzione di parole in comune sul totale; eliminando gli hapax abbiamo reso “meno particolari” i testi analizzati, ma la connessione rimane bassa e il vocabolario comune non raggiunge il 30% di quello totale, in tutte le coppie di autori..

(40) 34 La figura qui sotto rende pi`u immediata la verifica di quanto appena detto, oltre a risaltare la particolarit`a rappresentata da AF che, in entrambi i casi, utilizza un vocabolario molto diverso. 0.24. dagli altri.. ●. ●. DDL. ●. 0.22. CM. ● ●. AN. ●. DV. ●. ●. 0.18. LB. DR. 0.20. ●. LP. ●. MV. ●. OP. FP. DDL CM. PCM. DV. 0.16. PCM. MO. LB. DR ●. LP. MO OP MV. AF AN FP. 0.14. Media indice di connessione lessicale. ●. 0.12. AF. ●. 2. 4. 6. 8. 10. 12. hap no hap 14. Index. Figura 2.4: Media dell’indice di Connessione Lessicale con e senza hapax.

(41) 35 Indice di Indipendenza lessicale Questo indice viene utilizzato per valutare quanto due testi (A e B) sono dipendenti l’uno dall’altro in termini di vocabolario; in particolare si misura quanto “pesa” la parte propria di un testo sul vocabolario (del testo stesso). L’indipendenza lessicale di A da B si indica con IVA (B) e si ottiene dalla formula: IVA (B) =. VA∩B¯ VA. (2.5). Di conseguenza, il grado d’indipendenza di B da A si calcola con: IVB (A) =. VA∩B ¯ . VB. (2.6). L’indice cos`ı calcolato raggiunge la massima indipendenza (IVA (B) = 1) nel caso di due testi completamente diversi, mentre la perfetta dipendenza si ha quando IVA (B) = 0 e i due testi sono identici: la tabella A.2 in Appendice contiene, sulle righe, i valori calcolati tra coppie di autori, mentre l’ultima colonna rappresenta il grado di indipendenza tra il corpus di un autore e quello formato dai testi di tutti gli altri. I valori molto elevati, in tutti i casi superiori a 0, 5, rendono pi`u chiara l’importanza delle parole diverse tra autori. L’indice ci dice quante parole del proprio testo non vengono condivise oppure, dal secondo punto di vista, quante ne ha in comune con l’altro. La lettura per riga ci indica il grado di indipendenza di quell’autore dagli altri (l’indice calcolato con la 2.5), sulle colonne il grado di indipendenza da quell’autore (testo B): possiamo affermare, quindi, che AF e` il pi`u “autonomo”, mentre FP e` quello con cui gli altri condividono meno vocaboli. I valori nell’ultima colonna, in cui il confronto avviene con un corpus formato dall’unione dei restanti dodici, sono cos`ı bassi, perch´e, da un punto di vista matematico, la probabilit`a di trovare.

(42) 36 parole diverse in due testi diminuisce all’aumentare della lunghezza di uno dei due. Come nel paragrafo precedente vediamo la relazione tra hapax e indipendenza: eliminando le parole che compaiono una volta sola, l’indice diminuisce perch´e non vengono considerate alcune parole appartenenti al vocabolario di un solo testo. In Appendice si trova la tabella con i valori medi d’indipendenza lessicale per ogni autore (A.5), di seguito riportiamo il grafico della relazione tra la diminuzione dell’indice (calcolata come IVA (B) − IVA∗ (B ∗ ) , dove A∗ e` il testo A senza hapax) e la percentuale di hapax nei corpus. Come si pensava, sembra esserci una relazione diretta: infatti, all’aumentare del numero di hapax aumenta la differenza tra i due indici; solamente AF, pur avendo un alto numero di parole “singolari” e` caratterizzato da un valore basso per la differenza. Quest’ultimo fatto ci porta a pensare che non siano solamente gli hapax ad influenzare i valori di AF, ma che egli abbia un modo totalmente diverso di esprimersi con le parole rispetto a tutti gli altri..

(43) 37. AF. MV. MO. LB. DR AN. 0.30. proporzione di hapax. 0.35. 0.40. FP. DV. 0.25. OP CM LP PCM. 0.20. DDL. 0.05. 0.10. 0.15. Differenza tra indici di indipendenza con e senza hapax. Figura 2.5: Relazione tra hapax e differenza tra indici di indipendenza.

(44) 38.

(45) Capitolo 3 Le distribuzioni di distanze Nel capitolo precedente abbiamo calcolato la distanza intertestuale tra coppie di autistici e descritto il fenomeno in modo statico, considerando come unit`a di analisi i corpus individuali; in questo capitolo le analisi utilizzano esclusivamente la TdM, la matrice che ha sulle righe i types utilizzati e sulle colonne gli autori stessi.. 3.1 Il procedimento Per rendere dinamica l’analisi abbiamo estratto in modo casuale campioni di mille types dalle righe, costruendo per ognuno di questi una matrice di dimensioni 1000 × 13 (parole per autori) le cui celle riportano il numero di volte in cui e` stata utilizzata l’i–esima parola dal j– esimo autore; le colonne di queste matrici–campioni rappresentano i sub–corpora individuali, cio`e le unit`a di riferimento per le prossime analisi. E’ importante sottolineare che il campionamento e` avvenuto senza reinserimento per evitare di. 39.

(46) 40 considerare la stessa parola due o pi`u volte e che la numerosit`a e` un compromesso suggerito dalla letteratura1 , dovuto all’elevata percentuale di hapax presente in ogni corpus e alla lunghezza dei testi piuttosto esigua. Grazie al software utilizzato per le analisi abbiamo costruito una array formata dalle 1000 matrici estratte – la dimensione e` 1000 × 13 × 1000 (types, autore, campione) – a cui abbiamo applicato il calcolo della distanza 2.3 e ottenuto una nuova array costituita da tante matrici quadrate di distanze intertestuali (come la Tabella 2.6) quanti sono i campioni estratti. La tridimensionalit`a di quest’oggetto ci permette di determinare l’evoluzione della distanza intertestuale tra due autori nei 1000 campioni: basta “tagliare” l’array lungo le righe o le colonne (essendo matrici di distanze il valore non cambia) per ottenere le distribuzioni di distanze tra l’i–esimo (o j–esimo se si lavora sulle colonne) autistico e tutti gli altri. Nel caso si voglia analizzare una particolare coppia di autori bisogna isolare il procedimento ad una sola cella delle matrici selezionando l’i–esima riga e la j–esima colonna (con i 6= j), lasciando la terza dimensione (il k–esimo campione) libera: cos`ı facendo otteniamo la distribuzione della distanza intertestuale tra coppie di autori, da cui possiamo ricavare media e varianza. Sono state calcolate 78 distribuzioni – da un gruppo di n individui si ottengono n(n − 1)/2 coppie diverse –, i cui grafici sono riportati in Appendice, e di ognuna si e` provveduto al calcolo di media e varianza, come si pu`o vedere nell’esempio seguente(Figura 3.1): i due autistici sono OP e PCM, sull’asse delle x abbiamo le classi di distanze di Labb´e, sulle y il numero di 1. Labb´e & Labb´e (2001): [...] l’accuratezza della metrica proposta dalla 2.3 viene ridotta a causa dei valori. ∗ ; questo effetto aumenta nel caso le parole poco frequenti siano una parte importante del testo, decimali delle Fi,b. come avviene nei testi piccoli. Per evitare tutto ci`o non e` conveniente applicare il calcolo a testi troppo esigui (meno di mille tokens) [...].

(47) 41 campioni; media e varianza sono uguali a 0.596 e 0.006.. Distribuzione distanze OP e PCM. 0. 50. Frequenza. 100. 150. media=0.583 var=0.006. 0.4. 0.5. 0.6. 0.7. 0.8. distanza di Labbé. Figura 3.1: Distanza di Labb´e tra OP e PCM nei 1000 campioni: µ = 0.596, σ 2 = 0.006. Per sintetizzare l’array delle distribuzioni abbiamo costruito due matrici; una delle medie e.

(48) 42 una delle varianze campionarie, in cui la media e`. µa,b =. n X. da,b,k. k=1. AF. AN. CM. DDL. DR. !. /n, con n = 1000 e a 6= b. DV. FP. LB. LP. MO. MV. OP. AF. 0.00. AN. 0.76. 0.00. CM. 0.68. 0.62. 0.00. DDL. 0.74. 0.62. 0.57. 0.00. DR. 0.74. 0.62. 0.56. 0.58. 0.00. DV. 0.74. 0.65. 0.59. 0.61. 0.62. 0.00. FP. 0.75. 0.65. 0.62. 0.62. 0.64. 0.65. 0.00. LB. 0.76. 0.60. 0.58. 0.57. 0.61. 0.63. 0.60. 0.00. LP. 0.74. 0.64. 0.55. 0.60. 0.61. 0.65. 0.66. 0.59. 0.00. MO. 0.73. 0.61. 0.55. 0.57. 0.57. 0.61. 0.61. 0.55. 0.58. 0.00. MV. 0.76. 0.65. 0.60. 0.63. 0.63. 0.63. 0.66. 0.60. 0.61. 0.61. 0.00. OP. 0.74. 0.66. 0.58. 0.59. 0.62. 0.63. 0.65. 0.62. 0.64. 0.59. 0.63. 0.00. PCM. 0.73. 0.63. 0.53. 0.56. 0.58. 0.61. 0.63. 0.56. 0.56. 0.54. 0.58. 0.60. Tabella 3.1: Matrice delle medie (delle distribuzioni di distanze, tra coppie di autistici). e la varianza e`. 2 σa,b =. n X k=1. (da,b,k − µa,b )2 / (n − 1) , n = 1000 e a 6= b.. PCM. 0.00.

(49) 0. 0.00301. 0.00255. 0.00216. 0.00290. 0.00311. 0.00300. 0.00275. 0.00227. 0.00301. 0.00281. 0.00216. 0.00284. AF. AN. CM. DDL. DR. DV. FP. LB. LP. MO. MV. OP. PCM. AF. 0.00670. 0.00511. 0.00924. 0.00600. 0.00760. 0.00874. 0.00786. 0.00616. 0.00651. 0.00621. 0.00529. 0. AN. 0.00701. 0.00484. 0.00677. 0.00583. 0.00563. 0.00715. 0.00752. 0.00527. 0.00623. 0. DDL. 0.00835. 0.00685. 0.00835. 0.00789. 0.00684. 0.00894. 0.00942. 0.00592. 0. DR. 0.00554. 0.00421. 0.00494. 0.00490. 0.00512. 0.00550. 0.00623. 0. DV. 0.00984. 0.00766. 0.00983. 0.00866. 0.00881. 0.00905. 0. FP. 0.00786. 0.00996. 0.01210. 0.00698. 0.01000. 0. LB. 0.00656. 0.00612. 0.00994. 0.00774. 0. LP. 0.00723. 0.00649. 0.00827. 0. MO. Tabella 3.2: Matrice delle varianze (delle distribuzioni di distanze, tra coppie di autistici). 0.00572. 0.00559. 0.00655. 0.00650. 0.00519. 0.00622. 0.00780. 0.00500. 0.00720. 0.00503. 0. CM. 0.00774. 0.00805. 0. MV. 0.00615. 0. OP. 0. PCM. 43.

(50) 44 Confrontando la Tabella 2.6 con la 3.1 possiamo sottolineare che la distanza media nel campione rispecchia totalmente quanto detto nel capitolo precedente a proposito del modo di scrivere degli autistici analizzati: i valori medi delle distribuzioni tra AF e gli altri sono molto elevati e le rispettive varianze sono tra le pi`u basse delle 78 calcolate. La Figura 3.2 e` una parte del grafico che rappresenta la posizione delle diverse distribuzioni, in termini di media e varianza; e` facile notare che la nuvola di punti, prodotta dai valori delle distribuzioni di distanze tra AF e gli altri, si posiziona quasi completamente nella parte destra del riquadro, caratterizzata da valori medi elevati. L’unico punto estraneo a questo insieme, rappresenta la distribuzione della distanza tra AF e CM che, pur avendo valore piccolo in ascissa, e` comunque superiore a tutti quelli calcolati per altre coppie di autori: quindi min(dAF,· ) > max(da,b ) con a 6= b 6= AF ; per lo stesso motivo, negli altri tre riquadri, il puntino che rappresenta AF si trova nell’angolo in basso a destra del quadrante, a cui corrispondono valori in ascissa elevati (media) e piccoli in ordinata (varianza). La Tabella 3.2 riporta i valori delle varianze delle distribuzioni: l’intervallo in cui sono compresi ha come estremi 0.00216 e 0.01210; i valori molto piccoli, quasi prossimi allo 0, evidenziano il fatto che ogni distanza tra due autori nei 1000 campioni si discosta di poco dal rispettivo valore medio; come se fosse indipendente dai types estratti. Questo fatto pu`o essere dovuto all’esigua numerosit`a di ogni campione; ma, per verificare empiricamente quest’affermazione, bisognerebbe disporre di testi pi`u lunghi in modo da poter confrontare le varianze relative a numerosit`a crescenti di types estratti (1000,2000,...,10000,...)..

(51) 45. mean and var of AN dist. DV. variance. PCM DR DDL DV MO CM. 0.005. CM. 0.007. 0.0028. FP LP. DR PCM MV LB. 0.0024. LB. AN FP. MO. variance. MV. 0.009. 0.0032. mean and var of AF dist. OP. LP. 0.55. 0.60. 0.65. 0.70. 0.75. 0.003. 0.0020. OP DDL. 0.80. AF. 0.55. 0.75. mean and var of DDL dist. 0.008. mean and var of CM dist. 0.006. OP AN DDL DV. AF. 0.55. 0.60. 0.65 mean. MV. MO CM. AN LP DV. OP. 0.002. 0.002. 0.004. LP. variance. LB PCM. LB. DR. 0.004. MV. MO. 0.80. FP. FP. 0.006. 0.70. mean. PCM. variance. 0.65. mean. DR. 0.50. 0.60. 0.70. 0.75. 0.80. AF. 0.55. 0.60. 0.65. 0.70. 0.75. 0.80. mean. Figura 3.2: Sintesi delle distribuzioni tra coppie di autori: in ascissa µ, in ordinata σ 2 (parte 1).

(52) 46. 3.2. Il caso AF. Nei paragrafi precedenti si e` accennato ad AF come caso particolare del gruppo esaminato; alla fine del secondo capitolo abbiamo messo in evidenza le peculiarit`a che evidenzia il calcolo della distanza di Labb´e sul suo modo di scrivere:. 1. I valori elevati nella Tabella 2.6 – e di conseguenza nella Tabella 2.7 – ci danno percezione di come questo autore si discosti dal resto del gruppo,. 2. Figura 2.2 e Figura 2.3 confrontano il valore della distanza media in funzione di due quantit`a (la proporzione di hapax nel testo e la lunghezza del corpus) riscontrando il comportamento singolare di AF,. 3. La Tabella 3.1 conferma la tesi del punto 1: il valore medio delle distribuzioni campionarie di AF e` superiore a quello degli altri.. Nell’ultimo punto e` importante sottolineare che il valore medio e` ottenuto dalle distanze intertestuali calcolate all’interno dei mille campioni; la diversit`a di AF emerge, quindi, nonostante l’estrazione casuale dei types in ogni campione. Se poi confrontiamo le varianze di tali distribuzioni (Tabella 3.2) notiamo che, oltre ad essere le pi`u basse, sono molto “concentrate” intorno a ∼ = 0.0025. La Tabella 3.3 ci mostra il range della varianza per le distribuzioni riferite ad un autore e viene calcolato come: range(x) = max(x) − min(x).

(53) 47 dove x rappresenta ogni singola colonna della Tabella 3.2, escluso lo 0. Il valore per AF, cos`ı calcolato, e` il pi`u piccolo tra tutti e sottolinea come le varianze delle distribuzioni tra questo autore e gli altri siano molto simili; situazione dovuta a scostamenti dal valor medio esigui in ogni campione estratto.. Autore. Range. Autore. Range. AF. 0.00096. LB. 0.00934. AN. 0.00622. LP. 0.00773. CM. 0.00525. MO. 0.00565. DDL. 0.00536. MV. 0.00928. DR. 0.00652. OP. 0.00780. DV. 0.00312. PCM. 0.00700. FP. 0.00684. Tabella 3.3: Range delle varianze delle distribuzioni di distanze. Una spiegazione plausibile e` quella che identifica AF come un “outlier” nel modo di scrivere dei tredici autistici in esame; rappresenta cio`e un soggetto “egualmente diverso” (in termini di distanza intertestuale) da tutti gli altri, i quali hanno un “comportamento” molto simile nei suoi confronti. Questa supposizione trova conferma nei grafici che rappresentano la relazione tra media e varianza delle distribuzioni campionarie, come la Figura 3.2 e la restante parte riportata in seguito (Figura 3.3). In tutti i riquadri il punto che indica la distanza tra l’autore considerato e AF si posiziona nell’angolo in basso a destra, esattamente all’opposto della nuvola formata dagli altri..

(54) 48. 0.60. 0.65. 0.70. 0.75. 0.80. 0.009. OP. AF. 0.60. 0.65. 0.70. 0.75. AN CM OP DDL. 0.007. variance. PCM LB DDL LP CM MO MV. 0.55. PCM MV DR LP. LB MO. DV. 0.003. AF. 0.55. FP AN DR. 0.0045 0.0030. variance. 0.007. LPOP AN DDL DV. 0.005. CM. mean and var of FP dist. 0.005. 0.0060. mean and var of DV dist. FP LB MV PCM MO. 0.003. variance. 0.009. mean and var of DR dist. 0.80. AF. 0.55. 0.75. 0.80. mean and var of LB dist. mean and var of LP dist. mean and var of MO dist. 0.010. mean. 0.012. MV. FP MV. LB MV DR LP. PCM. OP DDL. CM. DV. AF. 0.55. 0.60. 0.65. 0.70. 0.75. 0.80. AF. 0.55. 0.60. 0.65. 0.70. 0.75. PCM LB CM DDL. OP AN DV. 0.003. 0.002. 0.004. DV. 0.007. DR. 0.005. AN. variance. PCM MO DDL CM. 0.006. MO. FP DR AN. variance. 0.80. AF. 0.55. 0.60. 0.65. 0.70. 0.75. 0.80. mean. mean and var of MV dist. mean and var of OP dist. mean and var of PCM dist. 0.010. mean. LB. FP AN. MODR OP PCM CM DDL. DR MO PCM LP CM DV. 0.002. 0.004. AF. 0.60. 0.65. AN. DDL. DV. 0.55. variance. MV FP. variance. 0.008. LP. LB. 0.006. 0.012. mean. 0.70. mean. 0.75. 0.80. AF. 0.55. 0.60. 0.65. 0.70. mean. 0.75. 0.80. 0.003 0.005 0.007 0.009. 0.008. 0.70. mean. LP OP. variance. 0.65. mean. FP. variance. 0.60. FP. DR LB MV MO DDL AN LP OP CM DV. AF. 0.55. 0.60. 0.65. 0.70. mean. Figura 3.3: Sintesi delle distribuzioni tra coppie di autori: in ascissa µ, in ordinata σ 2 (parte 2). 0.75. 0.80.

(55) 49 Un’ulteriore conferma di quanto appena detto si ha confrontando gli indici di connessione e indipendenza lessicale che, “contando” il numero di vocaboli presenti nei diversi corpus, rappresentano una prima misura (molto grezza) della diversit`a tra gli autori. Nella Tabella A.2, l’ultima colonna indica il grado di indipendenza tra un autore e i restanti dodici: e` quindi una misura di quante parole non vengono condivise con gli altri. Ebbene, il valore 0.478 (relativo ad AF) indica un grado molto elevato; infatti, nonostante le dimensioni differenti dei vocabolari, condivide solamente 53 parole su 100 con tutti gli altri (questa lettura fa riferimento alla Formula 3.1). Come conseguenza, ci si aspetterebbe un valore piccolo di CVAF,altri ; questo non accade perch´e, nel calcolo dell’indice di connessione lessicale tra un autore e i restanti (ultima colonna della Tabella A.1), l’importanza del vocabolario in comune viene ridimensionata dalla grandezza di quello totale, che rappresenta il denominatore della frazione ed e` formato dai 9756 types utilizzati da tutto il gruppo di ragazzi. Per questo, nel confronto con gli altri, e` meglio ricavare la dipendenza lessicale, calcolata come: DVA (B) = 1 − IVA (B) .. (3.1). La Formula 3.1 indica, in opposizione a IVA (B) , la proporzione di vocaboli condivisi da un autore sul totale, rappresentato dal suo vocabolario: non risente, quindi, della numerosit`a elevata di types che caratterizza il denominatore della Formula 2.4. Ovviamente, le misure di indipendenza e di connessione sono differenti nella sostanza; si rifanno, cio`e, a quantit`a diverse e difficilmente comparabili (in termini numerici)..

(56) 50.

(57) Capitolo 4 Analisi di raggruppamento L’idea originale di classificare e, successivamente, raggruppare secondo una sistematica precisa viene fatta risalire al Systema Naturae del naturalista svedese Linneo, che ha classificato gli esseri viventi in gruppi (in base a caratteristiche generali comuni) per poi ripartirli in sottogruppi sempre pi`u specializzati e localizzati. Con i legami esistenti tra le categorie animali, Linneo costru`ı un albero dalle cui basi partono ramificazioni principali, sulle quali si innestano varie ramificazioni secondarie. Ad esempio, l’uomo e` collocabile su un ramo secondario dell’albero: fa parte, prima di tutto, dei primati che, a loro volta, appartengono agli amnioti, i quali sono un sottogruppo degli animali vertebrati. La classificazione a partire dall’osservazione della realt`a, senza aver definito a priori le classi, e` l’obiettivo delle tecniche di analisi di raggruppamento o cluster analysis che cercano di assegnare entit`a multivariate a poche categorie, non ancora definite. Una volta costituito un gruppo, non e` necessario che le entit`a appartenenti abbiano le stesse caratteristiche; anzi, quanto pi`u numerose sono le variabili osservate, tanto meno riconoscibili sono le modalit`a che lo identifi-. 51.

(58) 52 cano. Le unit`a che fanno parte dello stesso gruppo sono allora “simili”, o “somiglianti”.. 4.1. Metodologia. L’albero delle specie naturali e` un esempio di classificazione di tipo gerarchico. In un’analisi gerarchica dei gruppi, ogni classe fa parte di una pi`u ampia e cos`ı via, fino a quella che contiene tutte le entit`a analizzate. Le tecniche di analisi gerarchica si possono suddividere in: • agglomerative, se l’analisi parte considerando ogni unit`a iniziale, delle n considerate, come un gruppo a s´e stante, fino ad arrivare al passo n-1 nel quale si forma il gruppo che le contiene tutte. • divisive, quando si parte dal gruppo che contiene tutte le entit`a e, ad ogni passo dell’analisi, lo si ripartisce in un sottogruppo fino a che ogni gruppo e` formato da una sola entit`a (stadio n-1). Nel nostro caso abbiamo utilizzato due metodi appartenenti al primo gruppo1 . L’analisi (gerarchica) agglomerativa, indipendentemente dal metodo utilizzato, segue un preciso ordine di operazioni, che qui riportiamo: 1. data una matrice simmetrica di distanze tra n entit`a, si trovano le due che sono pi`u vicine e, con queste, si forma un gruppo. A questo punto, assumendo distanza nulla al suo 1. Per una spiegazione approfondita dell’analisi di raggruppamento e dei suoi metodi si rimanda a:. Fabbris L.; Statistica Multivariata Ed: McGraw-Hill (1997).

(59) 53 interno, si calcolano le distanze tra il gruppo appena formato e le rimanenti unit`a: in questo momento si decide la strategia agglomerativa da utilizzare.. 2. Nella nuova matrice di distanze, di dimensione n−1, si individuano le unit`a pi`u vicine e si forma un nuovo gruppo. Successivamente si ricalcolano le distanze tra il gruppo formato e le rimanenti entit`a.. 3. Si ripete il procedimento n − 1 volte finch´e tutte le unit`a fanno parte di un unico gruppo.. In questa sequenza e` fondamentale il punto 1, in cui, dopo aver unit`o le due unit`a pi`u vicine, si ricalcolano le distanze. Il metodo per calcolare le nuove misure influisce sulla struttura dei gruppi finali: a seconda di quale scegliamo uniremo un’unit`a precisa, che non e` sempre la stessa per tutti i metodi. Supponiamo, quindi, di aver aggregato le due entit`a i e j (possono essere singole o rappresentare un gruppo) e di voler calcolare la distanza con una delle rimanenti, k; avremo tre misure di distanza tra le entit`a: di,k , dj,k e di,j per cui vale sicuramente di,j < di,k < dj,k (ma pu`o anche essere di,j < dj,k < di,k ). La distanza tra il gruppo e l’entit`a esterna, d(i,j)k , si calcola combinando le tre distanze appena viste con pesi diversi a seconda del metodo utilizzato. Nel caso vengano generate delle partizioni tali per cui vale la disugualgianza:. di,j ≤ max {di,k , dj,k } con i, j, k = 1, ..., n.

(60) 54 si dice che tale metodo genera un’ultrametrica. Questa disuguaglianza assicura che le distanze alle quali i gruppi si uniscono assumano valori progressivamente crescenti o decrescenti, a seconda che l’analisi si basi su misure di dissomiglianza o di somiglianza. La rappresentazione grafica di questo tipo di analisi e` un diagramma ad albero, dendrogramma, su assi cartesiani che riportano in ascissa le n entit`a analizzate, in ordinata i livelli di aggregazione delle unit`a.. 4.2. Le strategie agglomerative utilizzate. La matrice di partenza per la cluster analysis e` la matrice di distanze di Labb´e (Tabella 2.6); una volta uniti i due autori pi`u vicini, CM e PCM, a distanza 0.52, si ricalcolano le nuove distanze in base al metoro agglomerativo scelto. Nel nostro caso abbiamo optato per il confronto tra il metodo di Ward e il metodo del legame completo.. 4.2.1 Il metodo di Ward Con questo metodo, la coppia di entit`a da aggregare ad un certo gradino dell’analisi e` quella che minimizza la devianza tra i centroidi dei possibili gruppi. La distanza a cui si aggrega un’entit`a k al gruppo di nuova formazione (i,j) e` :. dk,(i,j) =. s. (ni + nk )d2i,k + (nj + nk )d2j,k − nk d2i,j ; ni + nj + nk. (4.1).

(61) 55 dove: ni , nj , nk rappresentano le numerosit`a delle entit`a e, identificando degli autori, sono uguali a 1 (sono > 1 nel caso si tratti gi`a di un gruppo e non pi`u di un singolo); di,j , dk,j , dk,i sono le distanze di Labb´e della Tabella 2.6. Il metodo di Ward • e` stato pensato per distanze euclidee, ma pu`o essere usato per ogni tipo di distanze; • ha il difetto di unire outliers nei primi passi del processo di aggregazione. Il risultato dell’applicazione di questo algoritmo ai nostri dati e` sintetizzato nella tabella qui sotto: Stadio. Entit`a 1. Entit`a 2. Distanza. Stadio. Entit`a 1. Entit`a 2. Distanza. 1. CM. PCM. 0.524. 7. MV. OP. 0.624. 2. MO. stadio 1. 0.545. 8. DV. stadio 7. 0.630. 3. DDL. LB. 0.569. 9. AN. FP. 0.647. 4. DR. stadio 2. 0.570. 10. stadio 6. stadio 8. 0.649. 5. stadio 3. stadio 4. 0.581. 11. stadio 9. stadio 10. 0.661. 6. LP. stadio 5. 0.588. 12. AF. stadio 11. 0.851. Tabella 4.1: Algoritmo del metodo di Ward. Prendiamo ad esempio il secondo passo del processo: la lettura per riga ci dice che l’autore MO si aggrega all’entit`a formata allo stadio 1, generando un nuovo gruppo di cui fanno parte CM, PCM e MO. Allo stadio 5, ad una distanza pari a 0.581, si forma un gruppo unendo le entit`a formate ai passi 3 e 4; la nuova entit`a e` costituita da CM, PCM, MO, DR, DDL e LB. L’algoritmo continua finch´e tutti gli autori vengono riuniti in un unico gruppo (passo 12): e` in questo stadio del processo che AF si unisce a tutti gli altri..

(62) PCM. CM. MO. DR. LB. DDL. 0.50. LP. 0.55. Figura 4.1: Dendrogramma, metodo di Ward OP. MV. DV. FP. AN. 0.60. 0.65. distanza 0.70. 0.75 AF. 0.80. 0.85. 56. cluster Ward.

(63) 57 La rappresentazione grafica della Tabella 4.1 e` il dendrogramma riportato in Figura 4.1. Da questo si possono individuare quattro gruppi ben definiti: il primo si forma ad una distanza pari a 0.588 (stadio 6); il secondo, costituito da DV, MV e OP nel passo 8 del processo e il terzo, di cui fanno parte AN e FP che si aggregano a distanza 0.647. AF, che viene considerato come un gruppo a s´e, entra a far parte della classificazione ad una distanza molto elevata (0.851), a conferma di quanto detto nel paragrafo 3.2.. 4.2.2 Il metodo del legame completo Viene anche chiamato del “vicino pi`u lontano”: tra l’entit`a esterna k e il gruppo di formazione (i,j), la distanza e` data dal valore pi`u elevato tra di,k e dj,k , cio`e. dk,(i,j) = max {di,k , dj,k } , con i 6= j 6= k = 1, ..., n.. (4.2). Questo criterio produce gruppi di forma circolare caratterizzati da forte somiglianza interna: l’entit`a candidata all’unione e` sempre la pi`u vicina, ma e` la distanza a determinare le caratteristiche del nuovo gruppo; scegliendo quella pi`u elevata ci assicuriamo della maggior prossimit`a (o “somiglianza”) con le altre. Il metodo del legame completo pu`o essere utilizzato con qualunque misura di distanza e genera un’ultrametrica. Come per il paragrafo precedente, vediamo nello specifico come funziona il metodo del legame completo sugli autori esaminati. La tabella sottostante riporta, per ogni stadio del processo, le due entit`a che si aggregano e la distanza calcolata:.

(64) 58. Stadio. Entit`a 1. Entit`a 2. Distanza. Stadio. Entit`a 1. Entit`a 2. Distanza. 1. CM. PCM. 0.524. 7. MV. OP. 0.624. 2. MO. stadio 1. 0.545. 8. AN. stadio 6. 0.628. 3. DDL. stadio 2. 0.563. 9. DV. stadio 7. 0.631. 4. DR. stadio 3. 0.574. 10. FP. stadio 9. 0.650. 5. LB. LP. 0.581. 11. stadio 8. stadio 10. 0.656. 6. stadio 4. stadio 5. 0.598. 12. AF. stadio 11. 0.757. Tabella 4.2: Algoritmo del metodo del legame completo. Confrontando le due tabelle fin qui presentate, si pu`o notare che non ci sono molte differenze tra i valori delle distanze relative ad ogni stadio del processo; sono le entit`a aggregate che differiscono tra i due metodi e generano un diverso raggruppamento degli autori (vedi Figura 4.2). Il numero di gruppi non e` ben definibile a prima vista; per fare ci`o, dobbiamo immaginare una linea orizzontale posta sull’asse delle ordinate ad altezza 0.65 (la distanza massima proposta dalla letteratura per testi scritti nello stesso linguaggio). Questa retta, tagliando il dendrogramma, mette in evidenza due gruppi distinti: uno formato da AN, DR, DDL, MO, CM, PCM, LB, LP e l’altro, a cui appartengono FP, DV, MV e OP. AF rimane isolato e si unisce per ultimo a distanza 0.757. Rispetto ai nostri obiettivi, cio`e valutare le differenze nel modo di scrivere tra i ragazzi autistici, il legame completo e` il metodo pi`u adatto. I gruppi cos`ı generati, sono caratterizzati da una forte somiglianza interna e, tenendo conto che la matrice di partenza e` costituita dalle distanze intertestuali, la classificazione ottenuta rappresenta proprio il fenomeno analizzato..

(65) 59. LP. LB PCM. CM. MO. DDL. DR. Figura 4.2: Dendrogramma, metodo del legame completo. OP. MV. AN. DV. FP. 0.65 0.60 0.55 0.50. distanza labbé. 0.70. AF. 0.75. cluster Complete.

(66) 60. 4.3. Cluster e periodi di facilitazione. Nel paragrafo 2.2.4 sono stati introdotti i periodi di facilitazione e le problematiche relative al calcolo della distanza di Labb´e per questi testi; tuttavia, abbiamo voluto applicare i metodi di raggruppamento alla corrispondente matrice di prossimit`a. La lettura del dendrogramma relativo al metodo del legame completo (Figura 4.5) non e` immediata: gli eventuali gruppi non sono identificabili a prima vista; sembrano delinearsi due macro gruppi (al centro del dendrogramma), costituiti principalmente da testi scritti dal secondo anno di facilitazione in poi. Infatti, gli scritti relativi ai primi periodi (primo e secondo semestre) rimangono abbastanza isolati fino a distanze prossime a 1; un esempio e` il gruppo che si forma per ultimo, ad una distanza pari a 0.982, dall’unione di OP1sem, DDL1sem, DDL2sem, AF2sem, AF2year. Una caratteristica comune a tutti gli autori sembra essere la prossimit`a temporale nei gruppi: difficilmente vengono aggregati due testi relativi a periodi di facilitazione non adiacenti, come se ci fosse un filo conduttore (la maggiore confidenza con gli strumenti e i modi della comunicazione facilitata?) a legare i testi in tutto l’arco temporale. Il dendrogramma prodotto dal metodo di Ward (Figura 4.6) e` differente da quello appena visto; innanzitutto, la distanza calcolata con la 4.1 produce livelli di raggruppamento – i valori in ordinata – maggiori di 1 poich´e nella formula vengono contate le unit`a che costituiscono le entit`a candidate all’aggregazione. I gruppi sono abbastanza delineati e identificabili: un primo gruppo e` quello formato dai cinque testi di LP, che si colloca a sinistra nel dendrogramma; negli altri gli autori si mischiano casualmente. Tenendo conto del gruppo mono autore, abbiamo immaginato di tagliare il grafico ad un altezza tale da considerarlo come gruppo a s´e. Si sono individauati.

Riferimenti

Documenti correlati

• Recentemente, si `e sviluppata una scala delle distanze in cui il posto delle Cefeidi `e stato preso dal Tip of the Red Giant Branch (TRGB), cio`e dalla luminosit`a massima

- possibilità di misurare senza riflettore (EDM reflectorless) su brevi distanze (qualche centinaio di metri, fino anche a 1 Km circa con alcuni strumenti recenti),

 Le candele standard possono essere le più svariate, la magnitudine delle stelle più brillanti in una galassia, le regione HII, gli ammassi di stelle, ecc...

Il colore azzurro-verde del manto di Maria proclama la sua divina Ma- ternità mentre il colore rosso della tunica sotto il manto e della quale una parte copre il bambino, indica

ALTEZZA DEL TELO: Rilevare l’altezza riferendosi alla LUCE ARCHITETTONICA e riportando la misura con un’aggiunta di +10 cm. ESEMPIO: In caso di misura esatta 210 cm è

Ferrovia Santhià-Borgomanero &#34; Progetto Giambastiani „ Ferrovia prealpina (locale) &#34; Progetto Rossi „. Ferrovia di cui si propone la

e) le unità immobiliari ad uso residenziale di nuova costituzione dovranno essere dotate di almeno una camera di superficie utile non inferiore a mq. 14,00; in ogni caso

[r]