• Non ci sono risultati.

sul primo asse Un calcolo analogo per gli altri vertici e per l’altro asse,

142 4.13 - Mappe asimmetriche

profili delle 3 righe, ottenute nella Sez. 4.8 e riportate nella parte destra del prospetto qui sopra.

Questi risultati autorizzano a denominare vertici delle righe le righe rappresentate in coordinate standard e ad indicarli con le modalit`a Nord, Centro e Sud, come si `e fatto nella mappa di TAV. 46 che `e la semplice trasposizione su un piano della configurazione della nuvola dei profili delle colonne di TAV. 21, ove era mostrata in un riferimento tridimensionale. In entrambe le rappresentazioni, per esempio, il vertice e1, o Nord `e sulla parte negativa del primo asse. L’interpretazione della mappa si basa sulle relazioni di transizione (4.9.4) fia= J  j=1 rijgˆja gja= I  i=1 cijfˆia. (4.13.2) secondo le quali la posizione di ogni profilo colonna `e esattamente la media, o baricentro, dei vertici delle righe ponderata con le componenti del profilo e tende quindi a disporsi sulla mappa verso quel vertice che corrisponde alla componente cij pi`u alta. Ad esempio, nella mappa di TAV. 46 il profilo colonna di Burattini e Marionette c7 = (0.010 0.018 0.011)T `e pi`u vicino al vertice Centro che non agli altri due, mentre quello di Operette c4 = (0.636 0.152 0.212)T si trova pi`u vicino al vertice Nord.

Dato che vertici e profili appartengono al medesimo spazio, `e lecito calcolarne le distanze. Fissato quindi un vertice ei, per ogni profilo colonna

cj, ove j = 1, 2, . . . , 8 , grazie alla (4.13.2) risulta d2D(ei, cj) = 2  a=1  ˆ fia− gja 2 = 2  a=1 ˆ fia2 − 2 2  a=1 ˆ fiagja+ 2  a=1 gja2 = d2 D(ei, c) − 2 2  a=1 ˆ fiagja+ d2D(cj, c).

Nella Sez. 4.10 si `e visto che le formule di ricostruzione dei profili possono esprimersi in termini di scarto relativo dalla quota media come nella (4.10.2) che espressa tramite i fattori standard diviene

sij= A  a=1 1 λafiagja = A  a=1 ˆ fiagja = A  a=1 fiaˆgja. (4.13.3) Tenendo conto che nel caso dell’esempio A = 2 , si ottiene l’importante re- lazione

d2

4.13 - Mappe asimmetriche 143

Al secondo membro le due distanze sono fisse perch´e fissi sono profili e vertici rispetto al baricentro, per cui c’`e proporzionalit`a tra gli scarti relativi e le distanze dei profili da un vertice

d2

D(ei, cj) =−2 sij+ costi (4.13.5) dove costi `e una costante pari alla somma delle due distanze e che dipende perci`o dal vertice considerato. La TAV. 47 riporta il grafico delle distanze tra gli 8 profili delle colonne ed i 3 vertici delle righe, ottenute sostituendo nella (4.13.5) i valori di sij della matrice Spettacoli-3, calcolati nella Sez. 4.10. Ciascun punto `e indicato dalla coppia di indici i j delle modalit`a interessate. I tre gruppi di punti, uno per ciascun vertice, si allineano con la medesima pendenza negativa1. Nella parte sinistra del grafico, ove s

ij 0 , si trovano le coppie di modalit`a distanti, come se tra esse vi fosse repulsione, rivelando che la regione i `e sottorappresentata, rispetto alla quota media, nel profilo cj dello spettacolo j , o, in altri termini, che cij  ci. Nella parte destra invece, ove sij 0 , tra le modalit`a vi `e attrazione per cui profilo e vertice sono vicini indicando che la regione i `e sovrarappresentata nel profilo cj. Infine, nella fascia centrale ove sij 0 la regione i `e rappresentata nello spettacolo j a un livello non lontano da quello medio ci: `e la zona d’indifferenza. Si pu`o quindi concludere che la mappa asimmetrica mette sostanzialmente in luce gli scarti relativi da una situazione di indifferenza o di completa omogeneit`a, definita nella Sez. 1.10, che si verifica quando i profili non si distinguono dal loro profilo medio.

La (4.13.3) ha anche una interessante interpretazione geometrica. Si consideri sulla mappa asimmetrica di TAV. 46 il triangolo avente per vertici il baricentro c , un profilo cj e il vertice ei. Ora, la geometria insegna che per ogni triangolo con lati a , b e c , il quadrato di un lato `e eguale alla somma dei quadrati degli altri due, diminuita di due volte il prodotto di questi e del coseno dell’angolo che formano, per cui, ad esempio

a2= b2+ c2− 2 b c cos θ

bc.

1 Le distanze si potrebbero graficare anche in funzione degli elementi c

ij dei profili cj, ma in tal caso le pendenze dei tre gruppi risulterebbero diverse perch`e il coefficiente viene a dipendere dalla massa del vertice: maggiore la massa, minore la pendenza

d2D(ei, cj) =−2cij− ci

ci + costi= 2

144 4.13 - Mappe asimmetriche

Per il triangolo preso in considerazione, si ha quindi d2

D(ei, cj) = d2D(ei, c) + dD2(cj, c) − 2 dD(ei, c) dD(cj, c) cos θ

dove θ `e l’angolo al vertice c . Confrontando questa espressione con la (4.13.4) si vede subito che

sij= dD(ei, c) dD(cj, c) cos θ.

e quindi sij `e dipende dall’angolo tra profilo e vertice. Di consequenza, quando i profili sono ben rappresentati sulla mappa asimmetrica, se l’angolo risulta inferiore a quello retto allora sij > 0 e la modalit`a i della prima variabile `e rappresentata in eccesso nel profilo cj, se l’angolo `e retto sij= 0 e vi `e totale indifferenza tra le modalit`a i e j , mentre, se l’angolo `e superiore a quello retto, `e sottorappresentata.

Invece della mappa asimmetrica fin qui utilizzata, si pu`o costruire quella in cui i profili sono le righe, in coordinate principali, ed i vertici le colonne, in coordinate standard. Valgono per questa espressioni analoghe a quelle appena trovate. Cos`ı la coordinata fattoriale di un vertice del simplesso di J coincide con la coordinata standard della colonna corrispondente

˜

fa(˜r = ej) = ˆgja e la distanza di un profilo da un vertice colonna `e

d2D(ri, ej) =−2 sij+ costj.

La scelta di una mappa o dell’altra `e guidata dal tipo e dalla natura delle due variabili. Nel caso della matrice Spettacoli di ordine 20×8 di TAV. 2, sembra ragionevole costruire la mappa asimmetrica di TAV. 48 rappresentando le righe, le regioni, come profili e le colonne, i tipi di spettacolo, come vertici. Per garantire una adeguata rappresentazione delle distanze reali, vertici e profili sono stati filtrati come per la mappa simmetrica di TAV. 37, la sua equivalente simmetrica, mentre gli assi sono stati ruotati di 90 gradi, per poter mantenere su entrambi la stessa unit`a di scala. La posizione dei profili delle righe - le regioni - sono le stesse su entrambe le mappe, mentre i tre vertici - Prosa, Musica Leggera e Lirica - appaiono pi`u ‘sparpagliati’ sulla mappa asimmetrica, essendo stati dilatati di un fattore 1/√λ1 = 5.20 sul

primo asse e 1/√λ2= 6.30 sul secondo.

Le mappe asimmetriche, pur presentando sostanziali vantaggi, non sempre sono utilizzabili perch´e quando le inerzie delle proiezioni sui due assi della mappa sono piccole - segnale questo di scarsa associazione tra le due

4.14 - Calcolo dei fattori 145

nuvole - i profili tendono ad accalcarsi intorno al profilo medio, lontani dai ver- tici, rendendo impercettibili le differenze tra distanze. In questi casi conviene utilizzare mappe simmetriche sulle quali le due nuvole di profili occupano approssimativamente lo stesso spazio.

4.14 - Come vengono calcolati inerzie e dei fattori

L’obiettivo finale dell’Analisi delle Corrispondenze `e il calcolo delle inerzie sugli assi e dei fattori dei profili. Dal punto di vista matematico si tratta di ricavare gli autovalori Dλ e gli autovettori V dalla matrice (R − R)TC di ordine I × I e gli autovettori U da (C − C) RT di ordine J × J . Entrambe le matrici sono quadrate, ma non simmetriche e soddisfano le condizioni

VT(R − R)TC V=D

λ con VTD−1r V=I

UT(C − C) RTU=D

λ con UTD−1c U=I.

Il tempo di calcolo pu`o ridursi notevolmente grazie ad alcune considerazioni, elencate qui di seguito.

Intanto, nella Sez. 4.8 e nella Sez. 3.14 si `e visto che le equazioni

VTRTC V = D

λ con VTD−1r V = I

UTC RTU = D

λ con UTD−1c U = I.

che coinvolgono sempre matrici quadrate, ma pi`u semplici da calcolare, for- niscono gli stessi autovalori non banali e gli stessi autovettori delle precedenti. Il tempo di calcolo pu`o essere poi dimezzato grazie alle relazioni di transizione (4.9.3) che consentono di ottenere gli autovettori delle righe da quelli delle colonne e viceversa, per cui basta diagonalizzare una sola delle due matrici: quella di dimensioni pi`u ridotte e quindi RTC che `e di ordine J ×J quando il numero di righe supera quello delle colonne o C RT di ordine I × I nell’altro caso. Con l’ulteriore vantaggio che gli orientamenti degli autovettori di pari rango delle due nuvole concordano automaticamente.

Un altro sostanziale risparmio di tempo ed un incremento della pre- cisione numerica dei risultati si ottiene simmetrizzando la matrice da diago- nalizzare come mostrato nella Sez. B.5 dell’Appendice B, perch´e le routines di diagonalizzazione per matrici simmetriche sono molto pi`u veloci e precise di quelle per matrici quadrate generiche. La sequenza delle trasformazioni e delle operazioni di calcolo `e illustrata nella TAV. 49.

Per quanto riguarda gli algoritmi di diagonalizzazione, il lettore pu`o consultare il testo classico di Golub e Van Loan (1996), citato nella bibliografia

146 4.15 - Cenni storici

del Capitolo 3. Il metodo di Lagrange, che ha il vantaggio di chiarire in modo didatticamente efficace come si perviene agli autovalori e agli autovettori di una matrice di piccole dimensioni, non viene pi`u utilizzato da tempo.

Un cenno infine ai programmi per l’Analisi delle Corrispondenze. Tutti e tre i principali ambienti d’analisi statistica, SPSS, BMDP e SAS1,

permettono di effettuare sia l’Analisi delle Corrispondenze semplici, o binarie, presentata in questi primi capitoli, sia l’Analisi delle Corrispondenze Multiple che verr`a illustrata nel prossimo capitolo. Escludendo per ora quest’ultima, occorre dire che il modulo ANACOR di SPSS ha due gravi svantaggi: non `e provvisto di un’opzione per trattare i profili illustrativi ed `e stranamente in- capace di produrre mappe simmetriche. Il modulo CA di BMDP ha invece la limitazione di non produrre mappe asimmetriche. La procedura CORRESP di SAS `e completa, nel senso che permette di ottenere entrambi i tipi di mappa. I tre programmi forniscono comunque tutti gli indicatori necessari per la cor- retta lettura di una mappa e sono disponibili per le piattaforme hardware pi`u diffuse. Altri prodotti sono disponibili per applicazioni in campi speci- fici: biologia, archeologia, scienze sociali, ecc. Una comparazione dei prodotti software reperibili sul mercato, con i loro punti di forza e di debolezza e gli in- dirizzi dei fornitori si pu`o trovare in Greenacre (1993), citato nella bibliografia della Sez. 4.17.

4.15 - Cenni storici

L’Analisi delle Corrispondenze, nella forma di approccio geometrico all’analisi multidimensionale dei dati che `e stata esposta in questi capitoli, ha avuto origine in Francia negli anni ’60 grazie al lavoro di Jean Paul Benz´ecri e dei suoi collaboratori. Nelle sue linee generali il metodo non era del tutto nuovo, ma con Benz´ecri viene posto in un coerente e rigoroso schema geomet- rico e matematico. La scoperta delle relazioni di transizione e l’introduzione dei contributi relativi e del concetto di qualit`a della rappresentazione per guidare l’interpretazione delle mappe grafiche, hanno reso l’Analisi delle Cor- rispondenze un metodo generale, o quasi, per analizzare dati multidimen- sionali, particolarmente quelli ottenuti da indagini e ricerche di mercato2.

Il metodo si diffondeva rapidamente in Francia durante gli anni ’70, diven-

1 Dettagli e costi dei programmi si possono trovare nei siti www.spss.com e

www.sas.com. BMDP `e stato recentemente acquisito da SPSS.

2 Questa importante estensione, nota come Analisi delle Corrispondenze Mul-

4.16 - Riepilogo 147

tando praticamente il metodo per l’analisi di dati multidimensionali. Occorre per`o arrivare agli anni ’80 perch´e esso inizi a diffondersi anche all’esterno. In Olanda viene incorporato in un sistema d’analisi rivolto alle scienze sociali e verso la fine del decennio viene incluso nei grandi sistemi statistici anglosas- soni: SPSS, SAS, BMDP, ecc.

4.16 - Riepilogo

Giunti a questo punto, `e gi`a possibile fare un bilancio dei principali punti di forza e di debolezza dell’Analisi delle Corrispondenze. Tra i primi va messo senz’altro al primo posto il fatto che il metodo non si limita a rivelare l’esistenza di un legame tra due variabili categoriche, ma che, evidenziando graficamente le associazioni tra modalit`a delle due variabili, mostra perch´e questa sussista. Tenendo conto congiuntamente dei legami multipli di ogni modalit`a permette poi di rivelare delle associazioni che potrebbero non ap- parire anche con una serie di ripetuti confronti a coppie tra profili. In pi`u, le regole d’interpretazione delle mappe simmetriche sono le medesime per i profili delle righe e delle colonne il che facilita l’analisi e l’interpretazione. In questo `e unico tra i metodi d’analisi statistica multidimensionale che portano alla rappresentazione grafica di una configurazione geometrica. La possibilit`a poi di incorporare nell’analisi informazioni aggiuntive lo rende, nelle mani di un analista esperto, uno strumento estremamente duttile. Infine, come verr`a esemplificato ampiamente nella seconda parte, `e uno strumento molto “portabile” perch´e pu`o applicarsi a diversi tipi di matrici di dati. L’unica limitazione `e la non-negativit`a degli elementi, anche se da un punto di vista puramente matematico, `e sufficiente la positivit`a dei totali marginali della matrice.

L’Analisi delle Corrispondenze ha anche alcuni punti di debolezza. Il pi`u evidente `e che nelle mappe simmetriche le prossimit`a tra proiezioni di profili appartenenti a nuvole diverse non possono interpretarsi diretta- mente, ma soltanto tramite le relazioni di transizione, il che spesso costringe a ricercare la conferma delle prossimit`a in piani fattoriali di rango superiore o direttamente nella matrice dei profili. Inoltre capita sovente che le mappe asimmetriche si rivelino di scarso aiuto nell’evidenziare le prossimit`a tra ver- tici e profili, a causa dell’affollarsi di questi intorno al loro baricentro. Esiste infine un certo margine di soggettivit`a nell’interpretazione delle mappe, la cui ampiezza `e per`o inversamente legata all’esperienza dell’analista e al suo grado di conoscenza del metodo.

148 4.17 - Bibliografia essenziale

Ulteriori dettagli sugli aspetti applicativi dell’Analisi delle Corrispon- denze di matrici di contingenza sono presentati nel Capitolo 8, mentre nel prossimo verr`a presentata la sua prima e pi`u importante estensione.

4.17 - Bibliografia essenziale

Alcuni testi sull’Analisi delle Corrispondenze che il lettore pu`o con- sultare:

Jean P. Benz´ecri (1992). Correspondence Analysis Handbook. Marcel Dekker. 665 pg. ISBN 0-8247-8437-5. Quest’opera monumentale - e fondamentale - `e la traduzione in lingua inglese dell’edizione francese del 1980, scritta dal principale autore del metodo. Rispecchia fedelmente il punto di vista e le idee dell’autore sull’ analisi dei dati e sulla Statistica, e presenta le basi geometriche e matematiche del metodo con svariati e dettagliati esempi di applicazioni nella tassonomia, in sociologia, in linguistica e medicina.

Il testo pi`u citato e che completa, per dire, quello precedente `e Michael J. Greenacre (1984). Theory and Applications of Correspondence

Analysis. Academic Press. 365 pg. ISBN 0-12-299050-1. Qui `e presentata anche l’Analisi delle Corrispondenze Multiple ed `e affrontato per la prima volta il problema della stabilit`a delle configurazioni di profili, temi che verranno presentati in dettaglio nei prossimi due Capitoli.

Chi fosse maggiormente interessato agli aspetti applicativi e ad una descrizione del metodo pi`u verbale e grafica che matematica, pu`o consultare Michael J. Greenacre (1993). Correspondence Analysis in Practice. Academic Press. 195 pg. ISBN 0-12-299052-8. Il testo `e corredato da numerose tavole e mappe.

Altro testo d’interesse `e

Michel Jambu (1991). Exploratory and Multivariate Data Analysis. Aca- demic Press Inc. 475 pg. ISBN 0-12-380090. Questa traduzione dal francese parte dalla Statistica descrittiva per arrivare a presentare in det- taglio i metodi fattoriali e di raggruppamento. Purtroppo non `e esente da molteplici errori di stampa nel testo, nelle formule e nelle mappe. Inoltre, la terminologia non standard adottata dall’autore ne consiglia la lettura a chi `e gi`a provvisto di buone basi.

Una preziosa ‘palestra’ per tutti coloro che si interessano di Analisi Multidimensionale `e la rivista trimestrale

Les Cahiers de l’Analyse des Donn´es. Ideata nel 1976 da J. P. Benz´ecri, che ne mantiene ancora la direzione scientifica, `e dedicata in gran parte

4.17 - Bibliografia essenziale 149

alle applicazioni in quasi tutti i campi scientifici, presentando di queste le mappe e le interpretazioni e sovente anche le matrici dei dati. `E stampata in Francia dall’editore Dunod.

Per approfondire l’impiego dei profili illustrativi nell’Analisi delle Cor- rispondenze `e utile consultare

Pierre Cazes (1982) Note sur les ´el´ements suppl´ementaires en Analyse des Correspondances. I. Pratique et utilisation. Les Cahiers de l’Analyse des donn´es Vol. VII, no 1, pag. 9 - 23. `E il primo di due importanti articoli sull’impiego dei profili illustrativi. Il secondo `e citato nella Bibliografia del Cap. 8, alla Sez. 8.10.

Sommario del quinto capitolo 151

PARTE PRIMA: IL METODO

Documenti correlati