• Non ci sono risultati.

Analisi delle Corrispondenze Multiple

Sommario

La metodologia dell’Analisi delle Corrispondenze pu`o essere estesa ai profili ottenuti da una tabella di indicatori del tipo individui × modalit`a , nella quale, per ogni individuo statistico, le modalit`a di pi`u variabili cate- goriche sono indicate in forma disgiuntiva completa. Il metodo `e particolar- mente adatto all’analisi delle risposte raccolte nei sondaggi ed ha propriet`a matematiche specifiche che comportano particolari adattamenti alle regole d’interpretazione dei risultati. L’Analisi delle Corrispondenze che osserva la nuova interpretazione costituisce un metodo del tutto nuovo che prende il nome di Analisi delle Corrispondenze Multiple.

Dalla lettura di questo capitolo, il lettore verr`a a conoscere, tra l’altro, • la definizione di Analisi delle Corrispondenze Multiple;

• le analogie e le differenze tra Corrispondenze Multiple e Corrispon- denze semplici;

• come `e strutturata una tabella di indicatori delle modalit`a con codifica disgiuntiva completa;

• come viene ottenuta una matrice di Burt;

• come siano legate le analisi dei profili ricavati dalla tabella di indicatori e dalla matrice di Burt;

• l’impiego delle Corrispondenze Multiple nell’analisi dei questionari: sondaggi d’opinione, ricerche di mercato, ecc.;

152 5.1 - Introduzione

CAPITOLO 5

5.1 - Introduzione

Al termine ‘Analisi delle Corrispondenze’ si fa abitualmente seguire l’aggettivo semplici quando si intende riferirsi al metodo presentato nei capi- toli precedenti, per distinguerlo dalla sua estensione pi`u immediata e impor- tante che va sotto il nome di ‘Analisi delle Corrispondenze Multiple’ (ACM), presentata in questo Capitolo. L’aggettivo ‘multiple’ si riferisce al fatto che pi`u di due variabili categoriche possono venire analizzate congiuntamente. `

E il metodo pi`u fecondo e di successo perch´e consente, tra l’altro, l’analisi multidimensionale dei dati di inchieste rilevati mediante sondaggio.

Il legame tra i due tipi di analisi `e molto stretto. Per esempio, i risultati ottenuti analizzando con le Corrispondenze semplici la matrice di contingenza Spettacoli-3 di ordine 3× 8 della TAV. 14, sono equivalenti1

all’Analisi delle Corrispondenze Multiple dei profili desunti da una tabella di ordine 576× 11 . Le 576 righe corrispondono ai biglietti venduti e le 11 colonne alle modalit`a delle due variabili categoriche, 3 per l”Area Geografica’ pi`u 8 per il ’Tipo di Spettacolo’. Di ogni biglietto `e indicato in quale Area `e stato acquistato e per quale tipo di spettacolo. Gli indicatori delle modalit`a sono codificati in forma disgiuntiva completa, un tipo di codifica che verr`a introdotto nella Sez. 5.6. L’equivalenza dei risultati induce a generalizzare2

l’analisi estendendola al caso in cui pi`u di due variabili categoriche vengano rilevate congiuntamente sul medesimo insieme.

Anche le variabili numeriche possono venire incluse nell’analisi, pre- via trasformazione in variabili categoriche mediante suddivisione in classi

1 Si veda ad esempio la Sez. 1.4.6 in L. Lebart et al. (1995), op. cit. nella

Sez. 5.24 e Greenacre (1984), pag. 130, op. cit. nella Sez. 4.17.

2 L’estensione `e legittimata anche dal fatto che l’ACM `e un caso particolare

dell’Analisi Canonica Generalizzata con pi`u di due gruppi di variabili. Si veda la Sez. 3.1.3 in Lebart et al. (1995), op. cit. nella Sez. 5.24, e Bouroche e Saporta (1980), L’Analyse des Donn`ees, Presses Universitaires

5.2 - Notazioni 153

dell’intervallo di variazione dei loro valori e successiva codifica degli indi- catori delle classi d’appartenenza in forma disgiuntiva completa, come verr`a mostrato nella Sez 5.16. La capacit`a di analizzare variabili di tipo eterogeneo rende estremamente ampio il campo delle potenziali applicazioni dell’ACM.

5.2 - Notazioni

L’applicazione pi`u frequente dell’ACM riguarda l’analisi delle risposte ottenute in una indagine effettuata tramite sondaggio con questionario chiuso, in cui cio`e le modalit`a di risposta alle singole domande sono gi`a predisposte e mutuamente esclusive: l’intervistato deve limitarsi a indicarne una1.

La terminologia dell’ACM differisce da quella dei sondaggi, come mostra lo specchietto qui sotto che fa riferimento al caso di un sondaggio con I intervistati ai quali sono poste delle domande. Di queste, le Q che vengono considerate attive nell’analisi hanno complessivamente J modalit`a di risposta.

Sondaggio A. C . M . Simbolo Totale

intervistato / questionario individuo i I

domanda / quesito variabile q Q

risposta possibile modalit`a j J

Ogni domanda del questionario diventa una variabile per l’ACM, men- tre per ‘individuo’ si intende qui un individuo statistico che pu`o essere un intervistato, e quindi un essere umano nel caso di sondaggi, ma che in parti- colari applicazioni pu`o essere un animale, una pianta, un prodotto, un evento, ecc.

Come mostra lo specchietto, anche in questo Capitolo i indicher`a la riga generica della matrice da analizzare e I il numero di righe complessivo. Con Q verr`a indicato il numero complessivo di variabili categoriche attive prese in esame e con q la generica variabile attiva avente Jq modalit`a es- clusive. Con j verr`a indicata una colonna attiva e quindi una qualunque modalit`a, il cui numero complessivo J `e la somma delle modalit`a che ha

1 L’Analisi Multidimensionale dei questionari aperti con risposte libere `e trat-

tata in L. Lebart e A. Salem (1994), Statistique textuelle Dunod ed., Paris. Un suo compendio in italiano si trova in S. Bolasco (1999), citato nella bib- liografia al termine di questo Capitolo.

154 5.3 - Esempio ogni variabile J = Q  q=1 Jq. (5.2.1)

5.3 - Un esempio: l’ascolto radiofonico

Commissionata da alcune radio locali, nel 1995 `e stata condotta una estesa indagine telefonica sull’ascolto delle trasmissioni radiofoniche in Emilia Romagna. Lo scopo dell’indagine era quello di ‘conoscere meglio’ gli ascolta- tori. Si voleva sopratutto indagare come e da chi le trasmissioni venivano as- coltate nel corso della giornata e quali erano gli atteggiamenti degli ascoltatori nei riguardi delle interruzioni pubblicitarie. Per esemplificare la metodologia dell’ACM, dall’insieme dei dati raccolti, `e stato estratto un campione casuale di 400 intervistati e sono state selezionate 14 delle domande originali, in buona parte modificate per maggiore semplicit`a e chiarezza espositiva. L’esempio ha sopratutto fini pedagogici.

Anche il questionario meno complesso comporta sempre dei gruppi omogenei di domande che indagano su aspetti diversi del problema e che, nel gergo dell’ACM, sono detti temi dell’indagine. Nell’esempio, le 14 variabili appartengono a 4 temi distinti:

A - programmi che vengono ascoltati (3 domande),

C - attivit`a svolta durante l’ascolto e durata giornaliera dell’ascolto (2 domande),

D - atteggiamento verso la pubblicit`a radiofonica (5 domande), E - profilo socio-demografico dell’ascoltatore (4 domande).

Le domande elencate nelle TAV. 5.1, 5.2 e 5.3 si riferiscono tutte a quesiti con scelta multipla: tra le possibili modalit`a proposte, l’intervistato ne poteva scegliere una ed una sola. Cos`ı, per rispondere al quesito: ‘D4 - La musica facilita il ricordo degli spot radiofonici?’, si poteva scegliere una soltanto di queste due possibili risposte:

1 - ‘S`ı, facilita.’, oppure 2 - ‘No, non facilita.’.

Per l’ACM i 14 quesiti individuano 14 variabili categoriche. La domanda E2 ‘Anno di nascita dell’intervistato’ prevedeva originariamente come risposta un numero. Per trasformare la corrispondente variabile numerica in categorica, l’anno di nascita `e stato convertito prima in ‘Anni di et`a dell’intervistato’ che, ripartiti poi in 7 classi, hanno fornito la nuova variabile ‘E2 - Fascia di et`a dell’intervistato’, categorica a 7 modalit`a che `e quella riportata nella TAV.

5.3 - Esempio 155

5.3. La riduzione di variabili numeriche in categoriche `e trattata nella Sez. 5.16.

In base al gruppo di variabili, o tema, che si sceglie come attivo1, sono

possibili diversi tipi di analisi. In linea di principio si potrebbero considerare attive tutte le variabili rilevate, ma ci`o vorrebbe dire confrontare gli intervis- tati tenendo conto simultaneamente del tipo di programmi che ascoltano, di quello che fanno durante l’ascolto, del loro atteggiamento verso la pubblicit`a, oltre che del loro profilo socio-demografico. Diventerebbe arduo interpretare eventuali somiglianze o differenze tra intervistati, perch´e le cause potrebbero essere di tipo diverso. Perci`o, `e pi`u sensato selezionare un gruppo di variabili che sia omogeneo rispetto a un tema ben definito e coerente con l’obiettivo dell’indagine. Il tema scelto, ossia il gruppo di variabili che si considerano attive, definisce il punto di vista secondo cui confrontare gli intervistati, con- fronto che risulter`a cos`ı pi`u facile da interpretare. Le variabili degli altri temi verranno considerate illustrative, nel senso che eventuali somiglianze o diversit`a tra intervistati potranno essere poi illustrate, ossia ‘spiegate’, dalle modalit`a di queste variabili. L’importanza e la ricchezza dell’ACM sta pro- prio in questo: far affiorare eventuali connessioni tra temi diversi che il loro studio separato non sarebbe in grado di far rivelare.

Di solito, ma non sempre, le variabili attive sono quelle che descrivono pi`u o meno obiettivamente gli individui ed illustrative le domande che sono la ragione stessa dell’indagine. In questo esempio, sono considerate attive le Q = 4 variabili del tema E2, che descrivono il profilo socio-demografico

dell’ascoltatore intervistato, ed illustrative le altre 8 variabili, appartenenti ai temi A, C e D, per un totale di 50 modalit`a illustrative. Si `e interessati perci`o a studiare le somiglianze e le diversit`a socio-demografiche dei 400 intervis- tati, i cui profili saranno confrontati in base ai loro descrittori demo-sociali, somiglianze e diversit`a che verranno poi ‘spiegate’ dal tipo di programma ascoltato (tema A), dalle modalit`a di ascolto (tema C) e dall’atteggiamento verso la comunicazione pubblicitaria (tema D).

Si potrebbe anche considerare come attivo quest’ultimo tema e illus-

1 E’ il gruppo di variabili che servir`a a calcolare gli assi fattoriali. Devono

essere tutte di tipo categorico.

2 Si vedr`a nel Capitolo 7 che una analisi con solo 4 variabili attive pu`o fornire

risultati poco stabili. Nell’indagine originale le variabili attive comprende- vano anche quelle socio-culturali, qui trascurate, perch´e le scelte sono spesso influenzate dal vissuto dell’intervistato.

156 5.5 - Ipermatrice

trativi gli altri. I risultati non cambierebbero di molto, come capita nella maggior parte dei casi, anche se le due analisi focalizzerebbero l’attenzione su aspetti diversi del problema. Per questo `e consigliabile effettuare pi`u analisi, variando il tema attivo. In tutti i casi, la dicotomia tra variabili attive e illus- trative ha molte analogie con quella tra variabili ‘da spiegare’ ed ‘esplicative’ di una regressione multipla.

Nei casi reali le modalit`a attive sono spesso alcune decine. In un’estesa e approfondita ricerca di mercato si pu`o facilmente arrivare a una quarantina di modalit`a attive e a 150-200 illustrative.

5.4 - Codifica compatta

Esistono vari modi per organizzare i dati raccolti in un sondaggio. Per esempio, si possono riunire in una tabella del tipo individui × variabili di ordine I × Q avente tante righe quante sono gli individui intervistati e tante colonne quante sono le variabili categoriche attive, come nella TAV. 5.4. All’incrocio della riga i con la colonna q vi `e il numero d’ordine della modalit`a scelta dall’intervistato i per rispondere alla domanda q : 1 se ha scelto la prima, 2 la seconda e infine Jq se ha scelto l’ultima modalit`a possibile per quella domanda. Nella TAV. 5.4 si vede che il primo intervistato ( i = 1 ) ha scelto la seconda modalit`a per rispondere alla prima domanda ( q = 1 ) e poi la terza e la prima modalit`a per rispondere alle due domande successive. Questa codifica ha il vantaggio di essere compatta, tanto da venire correntemente utilizzata per trasferire i dati tra computer o tra programmi, ma non `e direttamente utilizzabile perch´e i totali marginali, ossia le somme per riga e per colonna, non avrebbero significato.

5.5 - Ipermatrice di contingenza

Con le risposte a un sondaggio che preveda due sole domande, Q = 2 , si pu`o costruire una matrice di contingenza mettendo in corrispondenza i due insiemi J1 e J2 di modalit`a, come si `e visto nel primo Capitolo. Allo stesso

modo, nel caso dell’esempio della TAV. 5.4 in cui le variabili attive sono Q = 3 , si pu`o pensare di costruire una ‘ipermatrice di contingenza’ a 3 dimensioni, una per ogni variabile, incrociando tutte le modalit`a. Complessivamente, gli elementi dell’ipermatrice risultano essere J1× J2× J3= 2× 3 × 3 = 18 , ma

molti di essi saranno nulli, dato che gli intervistati sono soltanto I = 15 . Il concetto pu`o essere generalizzato, ma il numero di elementi cresce cos`ı rapidamente all’aumentare del numero di variabili, che in pratica pressoch´e tutti gli elementi dell’ipermatrice sono nulli. L’interesse per questo tipo di

5.7 - Matrice di Burt 157

codifica `e perci`o limitato, anche perch´e l’ipermatrice `e difficile da gestire. Soltanto il caso con Q = 3 merita attenzione, particolarmente quando una delle variabili `e il tempo. All’analisi di ipermatrici di questo tipo `e dedicata la Sez. 8.9 e l’intero Cap. 15.

5.6 - Codifica disgiuntiva completa

Un modo alternativo di organizzare i dati raccolti `e quello di ordi- narli in una tabella di indicatori del tipo individui × modalit`a , con I righe, una per ogni individuo, e con J colonne, quante sono complessivamente le modalit`a attive, come si vede nella TAV 5.4. All’incrocio della riga i con la colonna j un simbolo qualunque, per esempio un ‘s`ı’ o un ‘ + ’, pu`o indicare che l’intervistato ha scelto quella modalit`a di risposta, mentre un ‘no’ o un− ’ pu`o indicare invece che l’ha rifiutata. Di solito si preferisce usare delle cifre, per esempio 1 per indicare le modalit`a scelte e 0 per quelle rifiutate. Questi 0 e 1 non sono numeri, ma semplici indicatori, come ad esempio quelli impiegati in elettronica per indicare lo stato di un circuito: 0 per circuito aperto e 1 per circuito chiuso. Questo tipo di codifica viene detto disgiuntivo e completo, disgiuntivo perch´e le modalit`a di ogni variabile sono esclusive, in quanto soltanto una pu`o essere scelta e completo perch´e necessariamente una modalit`a `e scelta. Per conservare tale carattere, talvolta si rende neces- sario prevedere, o aggiungere successivamente, a qualche variabile la modalit`a ‘Nessuna risposta’. E’ il caso delle risposte mancanti, o non risposte, trattate nella Sez. 5.21.

Come rivela chiaramente la TAV. 5.4, la tabella 15× 8 `e formata da Q = 3 sottotabelle di indicatori affiancate, una per ogni variabile attiva, con J1= 2, J2= 3 e J3= 3 colonne, entro le quali, in ciascuna riga, l’1 compare

una e una sola volta dato che le risposte sono esclusive. Ne consegue che ognuna delle 3 sottotabelle ha la colonna marginale costituita da 1 . Questa peculiarit`a della codifica disgiuntiva completa ha importanti conseguenze, come si vedr`a nelle Sez. 5.13 e 5.14.

5.7 - Matrice di Burt

La matrice di contingenza di Burt prende il nome dello psicologo britannico1 che la introdusse nel 1950 e si ottiene incrociando due a due

tutte le J modalit`a delle Q variabili attive, come si vede nella TAV. 5.4. La matrice di Burt, indicata abitualmente con B , `e simmetrica, di ordine J × J

158 5.8 - Obiettivi

ed assomiglia a una matrice di covarianza, nel senso che riassume i legami tra le modalit`a, prese due a due. Dato che i suoi elementi indicano il numero di individui che possiedono entrambe le modalit`a, ogni individuo vi compare Q2 volte. In realt`a, non si tratta di una vera matrice di contingenza, ma

di un patchwork di blocchi, di una composizione di Q × Q matrici di con- tingenza, ciascuna ottenuta incrociando le Jq modalit`a di una variabile con le Jq delle altre e anche con le Jq di s`e stessa. Nel primo caso il blocco `e,

in generale, rettangolare, mentre nel secondo i blocchi diagonali sono matrici quadrate, non nulle e diagonali, dato che le modalit`a di una stessa domanda sono esclusive. Gli elementi diagonali riportano il numero di individui che hanno scelto ogni singola modalit`a di risposta.

La matrice di Burt si pu`o ottenere indifferentemente dalla tabella individui×variabili o da quella individui×modalit`a . In questo caso, la riga, o la colonna, j della matrice di Burt sono il conteggio delle righe della tabella di indicatori della Sez. 5.6 in cui `e presente la modalit`a j . Ad esempio, la prima riga della matrice di Burt nella TAV. 5.4 ha b11= 8 perch´e tanti sono

gli individui che hanno scelto la prima modalit`a della prima variabile; b12= 0

perch´e avendo essi scelto la prima modalit`a non potevano scegliere anche la seconda e ultima modalit`a della prima variabile; b13 = 2 perch´e due sono

gli individui (il 3o e il 10o) che hanno scelto contemporaneamente la prima modalit`a della prima variabile e la prima della seconda, e cos`ı via.

La matrice di Burt ha il grande vantaggio di avere dimensioni ridotte, ma `e meno informativa, sia perch´e si perde l’identit`a degli individui, sia perch´e non permette di risalire agli altri tipi di codifica. In particolare, mentre `e sempre possibile costruire una matrice di Burt partendo da una tabella di indicatori, l’inverso non `e possibile dato che la matrice di Burt si limita a riportare le associazioni soltanto tra coppie di modalit`a.

Lo specchietto riassume l’ordine delle matrici nei tre principali tipi di codifica, con riferimento al sondaggio sull’ascolto delle trasmissioni radio della Sez. 5.3.

Codifica Ordine Esempio

Compatta I × Q 400× 4 Disg. Compl. I × J 400× 21

Burt J × J 21× 21

5.8 - Obiettivi 159

In sostanza, l’ACM `e l’Analisi delle Corrispondenze dei profili ottenuti da una tabella di indicatori, codificati in forma disgiuntiva completa. Al solito, il suo fine `e quello di rendere graficamente evidenti le relazioni tra modalit`a, tra individui e tra individui e modalit`a, proiettando i loro profili in sottospazi di ridotta dimensionalit`a e tali da mostrare la configurazione geometrica dei profili con la minore distorsione.

Mentre l’Analisi delle Corrispondenze semplici era incentrata esclu- sivamente sulle modalit`a (di due sole variabili), l’ACM ha a che fare anche con individui e con variabili. Lo studio di questi tre elementi comporta es- igenze e problemi diversi che l’ACM cerca di contemperare nell’analisi delle sole modalit`a, perch´e questa permette di studiare implicitamente i legami tra coppie di variabili e al contempo, di esaminare il comportamento di interi segmenti di individui. In altri termini l’analisi delle modalit`a permette di effettuare in gran parte lo studio delle variabili e degli individui.

Studio degli individui

L’obiettivo `e la ricerca di individui con profili simili, cio`o col mag- gior numero di modalit`a in comune. L’obiettivo `e quindi analogo a quello dell’analisi dei profili delle righe nelle Corrispondenze semplici; la differenza `

e che ora gli individui sono generalmente anonimi e possono essere molto numerosi: centinaia e talvolta migliaia nel caso di vaste indagini, per cui la rappresentazione individuale dei loro profili renderebbe qualunque mappa fat- toriale eccessivamente affollata e illeggibile. Si agisce allora per due vie: per segmentazione e per raggruppamento. Nel primo caso gli individui sono stu- diati tramite i segmenti stabiliti dalle modalit`a perch´e si vedr`a nella Sez. 5.15 che una modalit`a `e il baricentro di tutti gli individui che la possiedono. Ad esempio, nello spazio dei profili, la posizione della modalit`a ‘laureati’ indica il baricentro del segmento di intervistati con questo titolo di studio.

L’altra via `e quella di utilizzare le coordinate fattoriali degli individui ottenute con l’ACM per creare dei gruppi o ‘cluster’ di individui con profili di risposta il pi`u possibile simili e di proiettare poi sulla mappa soltanto i baricentri di questi cluster come rappresentativi dei gruppi. L’analisi dei gruppi, ossia la costruzione di cluster di individui omogenei dal punto di vista del profilo delle risposte al tema attivo, sar`a oggetto del prossimo Capitolo 6.

Studio delle variabili

Come si `e detto, nell’ACM le variabili non compaiono esplicitamente, ma restano in secondo piano perch´e similitudini o difformit`a tra variabili si desumono dal confronto dei profili delle modalit`a che le costituiscono. Per

160 5.9 - Profili marginali

questo motivo l’analisi viene effettuata al livello di maggior dettaglio: quello delle modalit`a. Tuttavia, nell’interpretazione degli assi fattoriali `e utile tener conto anche delle variabili che maggiormente hanno contribuito al loro orien- tamento.

Studio delle modalit`a

Le somiglianze tra modalit`a si possono indagare confrontando sia le colonne della matrice C dei profili di ordine I×J , definita nella prossima Sez. 5.11, sia i profili della matrice diB di Burt. Nel primo caso due modalit`a sono simili se sono state scelte o rifiutate sempre, o quasi sempre, dai medesimi individui. Le altre modalit`a non intervengono nel confronto. Nel secondo caso la somiglianza `e invece analoga a quella che si ha nelle Corrispondenze semplici, perch´e ogni profilo tiene conto dell’associazione della modalit`a con tutte le altre. Di conseguenza due profili di B risultano simili se le due modalit`a si associano sempre alle medesime modalit`a. Si vedr`a comunque nella Sez. 5.19 che i risultati delle due analisi sono comparabili.

5.9 - Profili marginali

Documenti correlati