• Non ci sono risultati.

La fase sperimentale

MILANO NAPOLI ROMA

6.4 Analisi statistica

6.4.1 Introduzione alla logica dell’ANOVA

Nel confronto tra i gruppi, l’obiettivo primo è stabilire se la differenza delle medie dei campioni sia o meno significativa, cioè se indichi un’effettiva diversità delle due popolazioni da cui i campioni sono stati estratti, oppure rientri nella normale variabilità delle medie campionarie di una stessa popolazione.

Quesiti di questo tipo si risolvono applicando la tecnica dell’analisi della varianza (ANOVA, dall’inglese ANalysis Of VAriance)109, una tecnica statistica che, pur basandosi su un’analisi delle

medie, si fonda sulla scomposizione della variabilità totale dei dati osservati in due parti: variabilità sperimentale110, dovuta alle variabili introdotte e studiate dal disegno di ricerca, e cioè alla manipolazione della variabile indipendente, e variabilità residua o accidentale, dovuta a tutte le condizioni o variabili non controllabili, o non controllate, dal disegno stesso. L’analisi della varianza è dunque basata sulla dimostrazione matematica che i dati campionari possono essere usati per ottenere due stime indipendenti della varianza nella popolazione: quella che esprime quanto ciascun punteggio di un campione differisce dagli altri punteggi dello stesso campione, e quella che esprime quanto le medie di ciascuno dei campioni differiscono tra loro.

L’ipotesi nulla saggiata dall’ANOVA è che le medie delle popolazioni da cui sono estratti casualmente i campioni siano uguali (H0: 1 = 2 =3 =…= r). L’ipotesi alternativa stabilisce

solo che H0, considerata nel suo complesso non sia vera. Ma vi sono molti modi con cui ciò può

accadere (1  2, oppure 35, ecc…). Il rifiuto dell’ipotesi nulla nell’analisi della varianza,

cioè, esprime solo il fatto che vi sia almeno una disuguaglianza tra le medie considerate.

Trattandosi, nel nostro caso, di risposte non numeriche, si è proceduto etichettando preliminarmente le 6600 risposte in corrette (a cui è stato assegnato il valore 1), nei casi in cui è stata riconosciuta o la voce o la prosodia, e non corrette (a cui è stato assegnato il valore 0), in tutti gli altri casi.

Un valore numerico in nostro possesso, relativo alle risposte, è quello indicante il grado di accento a cinque livelli, assegnato alla voce da parte del soggetto partecipante al test mediante la scala Likert, e registrato dal server in forma percentuale.

Grazie a questi due valori è stato possibile applicare una serie di analisi ANOVA.

109

Il suo sviluppo si deve allo statistico inglese R.A. Fisher (1890-1962).

110

Detta anche spiegata o tra gruppi (betweengroups).

o C o n f r o n t o t r a s t i m o l i M M - M M m : [ P i s a n i χ 2 ( 2 ) = 1 7 2 ; p < 0 , 0 0 1 ; M i l a n e s i χ 2 ( 2 ) = 1 4 8 ; p

153

6.4.2 Analisi

111

Una prima analisi della varianza, a una via, è stata condotta sulle 6600 risposte, contate come corrette (1) o non corrette (0), considerando come fattore il gruppo di ascoltatori. Le assunzioni di partenza sono rappresentate dunque dal fatto che le varianze dei gruppi relative a ciascuno stimolo sono tra loro uguali, e, nell’insieme, uguali alla varianza della popolazione, e che le differenze tra i soggetti, all’interno dei gruppi, siano casuali. I risultati comportano il rifiuto dell’ipotesi nulla (Pisani [F(8, 1641)=17.102; p<0]; Romani [F(8, 1641)=9.2863; p<0]; Milanesi [F(8, 1641)=17.739; p<0]; Napoletani [F(8, 1641)=10.696; p<0]): ciò dimostra che il tipo di stimolo ha un effetto sulla percezione dei partecipanti.

Anche le differenze legate al grado di accento attribuito agli stimoli varia significativamente a seconda che la voce sia originale, o modificata prosodicamente mediante algoritmo (Pisani [F(8,1638)=17.839; p<0]; Romani [F(8,1640)=9.0592; p<0]; Milanesi [F(8,1639)=10.535; p<0]; Napoletani [F(8,1640)=4.2722; p<0]). Tale risultato dimostra che, nelle risposte di tutti i gruppi, il grado attribuito allo stimolo varia a seconda che questo sia costituito da una voce originale o modificata. Ed infine anche l’interazione tra queste due variabili si è dimostrata significativa: Pisani [F(8,1629)=2.7532; p<0,001]; Romani [F(8,1631)=2.7518; p<0,001]; Milanesi [F(8,1630)=3.418; p<0]; Napoletani [F(8,1631)=1.7848; p<0].

Questi dati avvalorano l’ipotesi che le variazioni nella percezione degli stimoli da parte di tutti i gruppi sono dovute all’effetto di interazione tra il tipo di stimolo e il grado di accento: un accento forte è identificato meglio rispetto ad accenti meno forti.

Nella logica dell’ANOVA a una via, si è detto, si distingue il fattore sperimentale e la variabile dipendente o risposta. Il fattore sperimentale è la fonte di variabilità il cui effetto si vuole determinare sulla base dei risultati di una variabile dipendente o risposta. Nella pratica sperimentale, però, l’ANOVA ad una via rappresenta spesso un’impostazione troppo elementare in quanto assume che la variabilità dei diversi gruppi a confronto sia determinata dai differenti livelli di un solo fattore. Spesso è necessario prendere in considerazione almeno due criteri di classificazione sia per analizzare separatamente il contributo del fattore principale e quello del secondo fattore; sia per eliminare l’effetto del secondo fattore sulla varianza d’errore, quando l’interesse fosse indirizzato solo verso il primo ed il secondo fosse considerato esclusivamente come un elemento di perturbazione.

111

Per l’analisi statistica e la creazione dei grafici ci si è avvalsi del software R versione 2.15.2, tranne che per la costruzione dei box-plot (grafici 6.12-6.15), realizzati in Excel 2007.

154

Per studiare, dunque, la relazione tra due o più variabili indipendenti e una variabile dipendente, dove ogni fattore ha due o più livelli, si utilizza un disegno sperimentale di tipo fattoriale. L’obiettivo diventa dunque quello di mettere in luce le interazioni tra le variabili. La logica nasce dalla scomposizione della somma totale dei quadrati nella somma dei quadrati entro i gruppi (o d’errore), e la somma dei quadrati tra i gruppi. Ma, nel disegno fattoriale, la somma dei quadrati tra i gruppi viene a sua volta scomposta in tre diverse fonti: la variazione dovuta al primo fattore, la variazione dovuta al secondo fattore, e la variazione dovuta all’interazione dei fattori. Il disegno fattoriale dunque permette di scomporre la variabilità totale in diverse componenti, permette cioè di verificare spiegazioni diverse e alternative sul motivo delle differenze fra i soggetti dei valori della variabile dipendente, consentendo di studiare gli effetti di ciascun fattore sulla variabile risposta, e gli effetti di interazione dei fattori sulla variabile risposta.

Le analisi statistiche applicate ai dati dell’esperimento, ANOVA ‘a due vie’, e quella ‘a misure ripetute’ rientra in questo disegno, e consente di verificare in una sola analisi statistica tre ipotesi nulle: una riguardante il fattore ‘tipo di stimolo’ (cioè tipo di frase), una riguardante il secondo fattore, nel nostro caso ‘tipo di risposta’ (cioè Milano, Napoli, Roma), e una riguardante l’interazione tra il primo e il secondo fattore. Gli effetti di questi due fattori sono detti effetti principali.

L’ipotesi H0 che si sottopone a verifica è che la varianza spiegata sia uguale alla varianza

residua, cioè che il modello non migliora l’errore di previsione della variabile dipendente. Per la verifica dell’ipotesi si usa il test F (rapporto tra le varianze) che si distribuisce come una variabile casuale F di Fisher.

Il primo modello statistico applicato è un’ANOVA a tre fattori. La variabile indipendente considerata è il numero di risposte dei quattro gruppi ai 15 tipi di frase. Le tre variabili dipendenti (cioè i fattori) considerate sono: tipo di frase (A), tipo di risposta (B), gruppo di provenienza (C). Con 3 fattori si hanno:

- gli effetti principali dei tre fattori (A, B, C),

- le tre interazioni di primo ordine (AB, AC, BC) causate dall’effetto dei fattori due a due - una interazione di secondo ordine (ABC), determinata dall’effetto congiunto dei tre fattori.

Dall’analisi della varianza è risultato che il fattore ‘Tipo di frase’ ha un effetto altamente significativo sul numero di risposte [F(19,60)=5.785; p<0), mentre non si rileva nessun effetto maggiore del fattore ‘Tipo di risposta’, né del fattore ‘Gruppo’.

Per poter generalizzare la significatività dei fattori principali e della loro interazione si è applicata un’analisi della varianza a due criteri di classificazione con repliche. Nel caso più

155

semplice di analisi della varianza a due criteri di classificazione con repliche, le interazioni sono chiamate di primo ordine (A*B)112.

Le interazioni possono avere un valore:

• Positivo: la presenza contemporanea di determinati livelli dei fattori migliora il risultato rispetto alla semplice additività. L’effetto di un fattore migliora con la presenza dell’altro fattore.

• Negativo: la presenza contemporanea di determinati livelli dei fattori peggiora il risultato rispetto alla semplice additività. L’effetto di un fattore peggiora con presenza dell’altro fattore.

• Nullo: l’effetto dato dalla presenza di entrambi i fattori è determinato esclusivamente dalla somma dei singoli effetti principali, i singoli fattori cioè hanno degli effetti che non variano a seconda del livello degli altri fattori.

Si formulano allora tre ipotesi:1) Si verifica l'ipotesi nulla di nessuna differenza tra le medie del fattore α: H0: μ1= μ2= μ3=...= μp, contro l'ipotesi alternativa H1 : non tutte le medie

sono tra loro uguali. 2) Si verifica l'ipotesi nulla di nessuna differenza tra le medie del fattore β: H0: μ1= μ2= μ3=...= μq, contro l'ipotesi alternativa H1: non tutte le µ sono tra loro uguali. 3) Si

verifica l'ipotesi nulla di nessuna interazione tra i fattori α e β ai vari livelli: H0:(αβ)ij = 0 per ogni

i e j, contro l'ipotesi alternativa H1: :(αβ)ij ≠ 0 per almeno un ij.

Le tre ipotesi vengono verificate mediante tre test F costruiti con le diverse varianze utilizzate. Confrontando i valori di F calcolati con i valori di F tabulati con i relativi gradi di libertà, siamo in grado di rifiutare (o non rifiutare) le ipotesi nulle a seconda che il valore calcolato superi (o meno) il valore critico in base ad un prefissato livello di significatività.

Dai risultati ottenuti si può evincere che:

1-vi è una differenza altamente significativa nelle risposte dei campioni in base al tipo di stimolo, le risposte dei quattro gruppi cioè variano significativamente a seconda del tipo di frase (p<0). 2- tra i gruppi le risposte variano significativamente (p<0,5).

3- vi è interazione tra i fattori: le risposte variano a seconda del tipo di frase in maniera simile nei quattro gruppi osservati (p<0).

Il grafico 6.6 mostra la presenza di interazione tra i fattori, poiché i profili delle medie si allontanano dal parallelismo.

112

156