• Non ci sono risultati.

Modelli psicolinguistici di percezione del linguaggio

Le teorie sulla percezione del linguaggio

2.5 Modelli psicolinguistici di percezione del linguaggio

Tra i modelli psicolinguistici si riconoscono quelli con tendenza a concentrarsi sugli aspetti del processo, interrogandosi se esso sia autonomo, o seriale, o interattivo, e quelli invece che si focalizzano sulla rappresentazione, cioè su quali siano livelli di rappresentazione linguistica rilevanti per la comprensione, e quali unità linguistiche i soggetti utilizzino per avere accesso al lessico. La mancanza più grave dei modelli sorti in seno alla disciplina è da ritenersi l’incapacità di fornirne un quadro d’insieme.

I primi modelli psicolinguistici sono stati fortemente influenzati dalla linguistica, nella misura in cui i livelli e le unità delle rappresentazioni mentali delle forme linguistiche incorporate erano derivate direttamente dalla teoria linguistica. Tutte le teorie inoltre ammettono una memoria a lungo termine in cui sono immagazzinate le conoscenze linguistiche, organizzate a livelli separati, in sistemi di rappresentazione fonologici, morfologici, sintattici e semantici.

Il principale obiettivo è stato quello di cercare di descrivere i processi che danno accesso a tali informazioni, e come infine esse siano usate durante il riconoscimento del parlato. Descrivere un processo vuol dire anche stabilirne la struttura, riconoscerne le componenti, e fissare un’eventuale gerarchia o relazione tra esse.

Molti psicologi hanno tentato di tradurre in maniera diretta i sistemi di conoscenza proposti dai linguisti in componenti di processi computazionalmente indipendenti o autonomi.

Il modello SEARCH di Forster (1976; 1979) parte proprio da questo assunto, proponendo un’elaborazione dell’informazione linguistica interamente autonoma e seriale. Secondo il modello, ogni parola comprende un set di informazioni lessicali, sintattiche, e semantiche. I tre livelli linguistici codificano e processano tali rappresentazioni. Inizialmente l’informazione uditiva passa attraverso un processore lessicale, che la compara con le rappresentazioni lessicali fonetiche immagazzinate, una alla volta fino a trovarne corrispondenza. Soltanto una volta avvenuto ciò l’informazione lessicale può passare attraverso il processore sintattico che tenta di costruirne una struttura sintattica. Secondo il modello di Forster la struttura si genera in questo modo: l’informazione si muove in un'unica direzione e il più alto livello di informazione, sintattica o semantica, non può incidere sui processi a livello della forma lessicale.

I modelli seriali e autonomi sono stati presto messi in discussione dai dati sperimentali, grazie ai quali si è misurata la velocità e l’accuratezza del processo. I tempi di risposta nei compiti di controllo del riconoscimento verbale in contesti normali sono approssimativamente di 250 ms

64

dalla parola onset, troppo poco perché l’informazione acustica in sé sia sufficiente a specificare univocamente la parola in questione (Marslen-Wilson e Tyler 1980).

Tutti i modelli di riconoscimento di parole condividono l’assunto che la percezione implica due processi fondamentali: di attivazione e di competizione (Luce & Pisoni 1998; Marslen-Wilson 1989;McClelland & Elman 1986). Ogni parola-input cioè attiva nella memoria un set di rappresentazioni, che ‘competono’ tra loro, poiché il sistema selezionerà solo una fra esse. L’oggetto di dibattito e controversie invece riguarda le modalità con cui avvengono i processi di attivazione e competizione.

2.5.1The Cohort Theory

Per alcuni decenni lo studio sulla percezione è coinciso con le ricerche sulla discriminazione e la categorizzazione di segmenti fonetici. In seguito una nuova spinta portò gli studiosi a concentrarsi sui processi e le rappresentazioni responsabili della percezione di parole verbali. Quelli sulla percezione di parole presentate in maniera visiva era già un terreno esplorato, ma le teorie sviluppatesi non costituivano dei modelli adeguati applicabili al parlato.

Uno dei primi e più influenti modelli per i processi di riconoscimento delle parole è quello di Marslen-Wilson, la Cohort theory (Marslen-Wilson & Welsh 1978; Marslen-Wilson e Tyler 1980; Marslen-Wilson 1984; Lahiri e Marslen-Wilson 1991, 1992), che, nonostante ricerche già avanzate in questa direzione (ad esempio quelle di Miller, Morton e Warren), si pose subito al centro dell’attenzione dei ricercatori. Il modello include gli aspetti sia autonomo che interattivo del processo. Esso presuppone che il riconoscimento richieda un processo narrowing-down da un set iniziale di parole candidate.

Secondo il modello Coorte l’attivazione del set iniziale è basata interamente sul confronto tra i primi 150ms di segnale in entrata, e le rappresentazioni fonologico-lessicali immagazzinate. Tale processo si risolve in una coorte di parole candidate che condividono i fonemi iniziali. Una volta che la coorte iniziale si è delimitata, tutti i tipi di informazione linguistica possono essere usati in parallelo per eliminare le parole candidate. Una volta attivata, la coorte viene selezionata grazie a informazioni di tipo bottom-up (acustico-fonetiche) e top-down (sintattiche e semantiche), fino a che vi resti un solo candidato. Le parole possono essere rifiutate se esse non combaciano con l’informazione in continua entrata, ma anche nel caso in cui esse non combacino con le strutture sintattiche o semantiche disponibili che siano state generate dalla frase. Il riconoscimento avviene quando un solo candidato resta nella coorte.

65

Il modello si è evoluto negli anni, nella prima versione della teoria l’attivazione è funzione di un incontro perfetto tra informazioni fonetico-acustiche, e rappresentazioni presenti nella memoria. Le informazioni fonetico-acustiche sono le sole responsabili dell’attivazione della coorte. Nelle versioni seguenti la teoria specifica e restringe il processo di competizione.

La Cohort theory è stata fondamentale nel concentrare l’attenzione sulle dinamiche temporali del riconoscimento di parole. In particolare la teoria ha proposto un esplicito meccanismo di valutazione degli effetti del contesto sul riconoscimento di parole: sono le informazioni top-down a condurre ad un riconoscimento più facile, eliminando più velocemente i candidati dalla coorte. L’enfasi sull’esatto incontro tra input e rappresentazione resta tra i punti deboli della teoria. Sebbene le nuove versioni abbiano proposto rappresentazioni distribuzionali, esse presentano ancora la nozione di competizione lessicale, e respingono le rappresentazioni sub lessicali intermedie tra tratti e parole.

2.5.2Il modello LOGOGEN

Il bisogno di spiegare dati di questo tipo porta allo sviluppo di modelli maggiormente interattivi. Il modello LOGOGEN di Morton (1969; 1982) presuppone un dispositivo di ricognizione, chiamato logogen, per ogni parola del lessico mentale. Un logogen registra, e dunque contiene, tutti i livelli di informazione linguistica per una data parola, e viene attivato da ogni informazione di frase e fonologica appropriata, derivata dal segnale verbale. Tutti i tipi di informazione (fonologica, morfologica, sintattica, e semantica) sono monitorate simultaneamente da tutti i logogeni in parallelo. Dal confronto delle informazioni, i logogeni appropriati raggiungono la soglia di attivazione, e si attivano. A questo punto la parola rappresentata dai logogeni è dunque riconosciuta.

Il modello Logogen lavora in maniera altamente parallela e interattiva, dal momento che non pone limiti su come o quando i diversi tipi di informazione linguistica incidano sul riconoscimento. Sebbene il modello non sia molto esplicito sulla natura dell’informazione rappresentata, o il suo peso nel processo di riconoscimento, molti dei suoi assunti di base sono stati incorporati in modelli di attivazione interattiva come il TRACE (McClelland and Elman 1986).

66

2.5.3The TRACE model

Il modello designato da McClelland & Elman (1986) per il riconoscimento di parole verbali è un modello connessionista di interazione attiva per il riconoscimento di parole. Esso fa parte di una classe più generale di modelli a “elaborazione parallela distribuita” (PDP: Parallel Distributed Processing; McClelland, Rumelhart 1981), che descrivono il riconoscimento visivo di lettere e parole come un’operazione che coniuga informazioni di tipo bottom-up e top-down per l’identificazione dello stimolo. A differenza dei modelli di ispirazione modulare (cfr. 2.3), secondo le teorie connessioniste la conoscenza non si genera sulla base di un substrato simbolico, ma attraverso le connessioni tra i nodi all’interno di una rete neurale. Il concetto di elaborazione parallela distribuita, tuttavia, non si esaurisce nella realizzazione di una rete neurale, sebbene questa rappresenti una, forse la prima, applicazione del modello, ma può trovare applicazioni anche in strutture di altro tipo, che possono utilizzare anche modalità di trattamento dell’informazione non connessionistiche (la logica fuzzy37

, principi competitivi o altre modalità) (Bettelli 2011).

Come tutte le ricerche di impostazione connessionista, il modello TRACE cerca di emulare il comportamento delle cellule neurali, tramite il ricorso alle reti neurali. Una rete neurale è una struttura formata da un certo numero di unità funzionali, in connessione tra loro. Le unità hanno le caratteristiche essenziali dei neuroni, le connessioni quelle dei collegamenti sinaptici tra neuroni. Ogni unità può assumere due stati, di riposo e di attivazione, ed avere due tipi di collegamenti, di input e di output. Un aspetto importante del funzionamento del cervello emulato dalle reti neurali è il sistema di eccitazione. I collegamenti tra i nodi della rete possono essere, infatti, sia inibitori che eccitatori. Nel complesso una rete neurale può essere descritta come un processo in cui, una volta fornita come input una configurazione di segnali stimolo, la rete rilascia in uscita un’altra configurazione di segnali38

.

Il modello TRACE postula, dunque, l’elaborazione del linguaggio attraverso legami di tipo inibitorio ed eccitatorio fra un numero semplice di unità, i nodi, che possono essere costituiti da tratti, fonemi, o parole, che simulano il funzionamento di un neurone. Ogni nodo ha un livello di riposo, e una soglia di attivazione, ed è interconnesso a nodi di diverso livello. Viene presupposto un livello preliminare e precoce di elaborazione acustica dell’input, che può essere rappresentato

37

Detta anche logica sfumata (o sfocata) è una logica polivalente in cui viene introdotta la nozione di ‘grado di verità’ (o ‘valore di appartenenza’ che può assumere valore copreso tra 0 e 1) come appartenenza di un concetto ad un prototipo predefinito che funge da termine di paragone.

38

67

da un tratto, un fonema o una parola, a partire dal quale viene valutato il grado di concordanza tra l’entrata lessicale, e l’unità che il nodo rappresenta. Se vi è concordanza il nodo raggiunge la soglia di attivazione, e in questo modo influenza i nodi a cui è collegato. Tra nodi di diverso livello la connessione è di tipo eccitatorio e bidirezionale (cioè un nodo fonemico può attivare nodi di sillabe o parole), mentre tra nodi di stesso livello le connessioni sono sì bidirezionali, ma di tipo inibitorio (cioè l’attivazione di un fonema inibisce quella di un altro). Il concetto di trace (traccia) fa riferimento alla memoria a breve termine, che registra porzioni iniziali di entrate lessicali, che restano disponibili per successioni considerazioni e modifiche.

La peculiarità del modello è la sua interattività. I più bassi livelli di attivazione dei nodi, infatti, dipendono dallo stimolo input, ma anche dall’attività di tutto il sistema.

In maniera simile a quanto descritto per i logogeni, i nodi sono attivati dall’informazione coordinata nel segnale in entrata. Ma a differenza del modello Logogen TRACE è più esplicito, sia per ciò che riguarda la rappresentazione, che per il processo in sé, il cui input è costituito dalle caratteristiche acustiche, rappresentate, e valutate attraverso porzioni temporali diverse.

Il modello TRACE ha avuto una grandissima influenza, grazie innanzitutto alla sua specificità computazionale, e all’ampio spettro di fenomeni che prende in considerazione. Nonostante ciò, l’architettura del modello, oltre ad essere complessa, può essere giudicata discutibile, per il fatto che si basa su una rappresentazione segmentale del parlato. L’intera organizzazione della rete si struttura sull’esistenza di diverse unità di elaborazione ad ogni livello che corrispondono ai tratti acustici, ai fonemi e infine alle parole. “Queste ultime hanno una struttura molto più complessa rispetto alle altre unità del sistema, i nodi delle parole non solo riflettono l’attivazione della parola considerata come unità, ma anche l’attivazione di ognuno dei fonemi costituenti e di ognuno dei tratti costituenti i fonemi” (Cerrato 1998).