• Non ci sono risultati.

Analisi dell’associazione tra due caratteri: tabelle di contingenza

CAPITOLO 3 PIANO DI CAMPIONAMENTO E METODOLOGIA DI ANALISI

3.2 Analisi sul campione

3.2.3 Analisi dell’associazione tra due caratteri: tabelle di contingenza

Il terzo tipo di analisi effettuata sul dataset prende in esame una serie di variabili categoriche, che non potevano essere esaminate secondo le stesse modalità previste per quelle quantitative. Si tratta delle variabili “mode”, “time_signature” e “key”. Su queste variabili non è stato possibile eseguire l’ANOVA, ma lo scopo dell’analisi presa in esame in questo paragrafo è il medesimo, ovvero rilevare il grado di associazione fra due caratteri in questo caso.

Per poter effettuare suddetta analisi è necessario sintetizzare le determinazioni dei caratteri tramite una tabella di frequenze a doppia entrata detta anche “distribuzione doppia di frequenze” (Borra, Di Ciaccio, 2014).

In ogni casella della tabella troviamo il numero di canzoni che presenta una particolare combinazione delle categorie delle due variabili studiate di volta in volta. Questa analisi, infatti, è stata eseguita per

la variabile “mode” in relazione a “target”, per “time_signature” in relazione a “target” e anche per “key” in relazione a “target” ed infine, anche per le 3 variabili in relazione alle decadi.

Per ogni riga e per ogni colonna della tabella otteniamo un conteggio, che può essere trasformato in percentuale, sia i totali di riga che di colonna prendono il nome di “distribuzioni marginali”.

Le righe e le colonne interne alla tabella a doppia entrata identificano le cosiddette “distribuzioni condizionate”.

Si possono ottenere anche distribuzioni doppie di frequenze relative e percentuali, le prime si ottengono dividendo quelle assolute marginali per il totale e per ottenere le percentuali, basta moltiplicare questo risultato per 100.

Le distribuzioni relative condizionate della X e della Y si ottengono rapportando le distribuzioni condizionate per i corrispondenti totali di riga o di colonna.

La tabella di frequenze a doppia entrata è dotata delle seguenti proprietà (vedi Equazione n.12, Equazione n.13 ed Equazione n.14):

𝑛. = ∑ 𝑛 𝑝𝑒𝑟 𝑖 = 1, … , 𝐻 Equazione n.12

𝑛. = ∑ 𝑛 𝑝𝑒𝑟 𝑗 = 1, … , 𝐾 Equazione n.13

𝑛 = ∑ ∑ 𝑛 = ∑ 𝑛. = ∑ 𝑛. Equazione n.14

Se le due misurazioni sono indipendenti, ovvero se non c’è nessuna relazione fra “target” e “mode”, oppure “time_signature” o “key”, le percentuali totali di riga dovrebbero essere uguali in tutte le colonne, e le percentuali totali nelle colonne dovrebbero essere uguali (approssimativamente) in tutte le righe (https://laboratoriostatistica.files.wordpress.com/2014/09/2-e-tabelle-di-contingenza.pdf). Nello specifico, l’indipendenza statistica può essere così definita: “tra due caratteri sussiste indipendenza statistica quando la conoscenza delle modalità di uno dei due caratteri non migliora la previsione della modalità dell’altro” (Borra, Di Ciaccio, 2014, p. 123).

A questo punto si procede al calcolo delle frequenze attese, le quali rappresentano il conteggio teorico che ci aspettiamo di trovare in ogni cella, in base all’ipotesi di indipendenza (vedi Equazione n.15):

𝑓𝑟𝑒𝑞. 𝑎𝑡𝑡𝑒𝑠𝑎 = . . . Equazione n.15

Per ciascuna cella della tavola di contingenza si può ottenere una frequenza attesa, che si può confrontare con la frequenza osservata.

Il calcolo delle frequenze attese si esegue attraverso la seguente formula (vedi Equazione n.16):

𝑚𝑜𝑑𝑒𝑙 = 𝐸 = Equazione n.16

dove n è semplicemente il numero totale di osservazioni.

A questo punto si può procedere con il calcolo delle discrepanze fra valori osservati e attesi (vedi Equazione n.17).

𝑑𝑒𝑣𝑖𝑎𝑡𝑖𝑜𝑛 = ∑(𝑜𝑏𝑠𝑒𝑟𝑣𝑒𝑑 − 𝑚𝑜𝑑𝑒𝑙) Equazione n.17

Le discrepanze si elevano al quadrato in modo che qualsiasi discrepanza in negativo non compensi una discrepanza in positivo.

L’indice che si prende in considerazione per valutare l’associazione tra due caratteri qualitativi è il 𝜒 di Pearson, ottenibile anche dalla somma di tutte le discrepanze al quadrato (vedi Equazione n.18):

𝜒 = ∑( ) Equazione n.18

in cui i rappresenta le righe nella tabella di contingenza e j rappresenta le colonne.

Se le due variabili sono indipendenti, la discrepanza è piccola, poiché le frequenze osservate sono simili a quelle teoriche. Se, al contrario, la somma delle discrepanze è grande, le due variabili non sono indipendenti: c’è associazione fra alcune modalità delle due variabili. In questo caso il test del chi-quadrato è utile per prendere una decisione (https://elearning.unimib.it).

L’indice 𝜒 assumerà valori nulli o prossimi allo zero quanto più vi è indipendenza tra due caratteri, viceversa l’indice sarà positivo e assumerà valori tanto più grandi quanto più i caratteri sono associati. Quello che è necessario sapere per procedere con il test sono i gradi di libertà calcolati come (r - 1)(c - 1) in cui r è il numero di righe e c è il numero di colonne.

Molto spesso, soprattutto quando si eseguono questi test con i programmi statistici (es. SPSS), si assume che le frequenze attese in ciascuna cella devono essere superiori a 5. Quando le frequenze previste sono superiori a 5, la distribuzione di campionamento è probabilmente abbastanza vicina ad una distribuzione chi-quadrato perfetta. Tuttavia, quando le frequenze previste sono troppo basse, probabilmente significa che la dimensione del campione è troppo piccola e che la distribuzione campionaria della statistica test è troppo diversa da una distribuzione chi-quadrato per essere di qualsiasi utilità. Questo problema, quindi, non si incontra nel caso in questione, essendo il campione di elevate dimensioni, ma SPSS restituisce comunque, in calce alla tabella del suddetto test, quante celle hanno un conteggio previsto inferiore a 5.

Come per altri test già incontrati (T test per campioni indipendenti), anche il test chi-quadrato richiede il rispetto di alcune assunzioni per la sua applicazione (Field, 2009):

 Affinché il test del chi-quadrato sia significativo è imperativo che ogni canzone, nel caso in questione, contribuisca ad una sola cella della tabella di contingenza. Pertanto, non è possibile utilizzare un test chi-quadrato su un disegno a misure ripetute.

 Le frequenze attese dovrebbero essere superiori a 5. Sebbene nelle tabelle di contingenza più grandi sia accettabile avere fino al 20% delle frequenze attese al di sotto di 5, il risultato è una perdita di potenza statistica (quindi il test potrebbe non rilevare un effetto reale). Anche in tabelle di contingenza più grandi nessuna frequenza dovrebbe essere inferiore a 1. Nel caso si riscontri questa problematica, sarà utile utilizzare il test esatto di Fisher.

 In ultima istanza, sembra utile menzionare il fatto che piccole differenze nelle frequenze delle celle possono provocare associazioni statisticamente significative tra le variabili se il campione è piuttosto grande. Pertanto, occorre guardare le percentuali di riga e colonna per interpretare tutti gli effetti che si ottiene. Queste percentuali rifletteranno i modelli dei dati molto meglio delle frequenze stesse.

L’applicazione del test prevede, anche in questo caso, l’assunzione di due diverse ipotesi:

Figura n.2 – regioni di accettazione e rifiuto test chi-quadrato (Fonte: http://static.gest.unipd.it/)

𝐻 : 𝑝𝑟𝑒𝑠𝑒𝑛𝑧𝑎 𝑑𝑖 𝑎𝑠𝑠𝑜𝑐𝑖𝑎𝑧𝑖𝑜𝑛𝑒

Per decidere se accettare o scartare l’ipotesi nulla, si procede con il calcolo del chi-quadrato e lo si confronta con il valore critico corrispondente che si osserva sulle tavole. Di solito il livello di significatività α è fissato a .05.

Come si può osservare in Figura n.2, l’ipotesi nulla può essere scartata se il valore della statistica del chi quadrato calcolato è più grande del valore critico. In tal caso, si può accettare l’ipotesi alternativa ed affermare l’esistenza di una relazione tra le due variabili prese in considerazione.