• Non ci sono risultati.

FONTI E METOD

5.3. Analisi multivariata

I dati riguardanti i tassi di mortalità standardizzati sono stati inseriti in tabelle (tabb. A.1, A.2, A.5 e A.6, in appendice) le cui variabili sono rappresentate dai seguenti intervalli di tempo in cui è stato suddiviso il periodo che va dal 1971 al 1997: i trienni 1971/73, 1974/76, 1977/79, 1980/82, 1983/85, 1986/88, 1989/91, 1992/94 e 1995/97. Le 20 regioni italiane sono le unità statistiche territoriali a cui si riferiscono le variabili-trienni. La raccolta dei tassi di mortalità standardizzati è stata fatta per le due principali cause di morte dovute a danno del fegato: la cirrosi epatica e il tumore del fegato.

I tassi specifici di mortalità per età (tabb. A.3, A.4, A.7 e A.8, in appendice) sono stati raccolti considerando la popolazione italiana distinta per sesso. I dati sono stati inseriti in matrici, le cui colonne rappresentano le variabili, cioè gli intervalli temporali in cui sono state raggruppate le età, e le unità statistiche (le righe delle matrici) sono le 20 regioni italiane. Non si è ritenuto opportuno considerare le classi di età inferiori ai 24 anni perché le morti per cirrosi epatica e tumore del fegato sono molto ridotte e la distribuzione delle regioni secondo i tassi specifici è, per queste età, completamente diversa rispetto alle classi di età che comprendono le età superiori. Questi due fatti non portano a differenze statistiche nel confronto fra le regioni in termini di tasso standardizzato di mortalità, ma conducono a risultati difficilmente interpretabili quando si studia la distribuzione dei tassi specifici intorno all’intensità media. Perciò si è deciso di considerare le età che vanno dai 25 ai 75 anni, organizzate secondo le seguenti classi di età: 25-34, 35- 54, 55-74. In questo modo si è cercato di sintetizzare i dati facendo riferimento alle popolazioni giovane, adulta e anziana.

5.3.1. Cenni metodologici

Lo scopo di questo lavoro consiste nell’individuare le caratteristiche principali della variabilità territoriale della mortalità italiana per cirrosi epatica e tumore del fegato, evidenziando i fattori ‘non osservabili’ nei dati rilevati. I dati sugli indici regionali ricavati come indicato precedentemente costituiscono una quantità notevole di informazioni, la cui esplorazione necessita di un metodo che permetta di sintetizzare questa grande mole di dati. Per questi motivi si ritiene appropriato l’utilizzo dell’analisi fattoriale .

Dovendo gestire una quantità considerevole di dati sotto forma di matrici di n unità per k variabili, l’analisi fattoriale consente di operarne una sintesi descrittiva. Infatti, questo metodo conduce all’individuazione di variabili ‘artificiali’ che possono essere più utili delle variabili rilevate, se l’obiettivo è sintetizzare le tendenze generali dei fenomeni. Per rilevare questi fattori latenti le variabili osservate sono combinate in un insieme limitato di variabili informativo quasi quanto l’insieme di partenza. La trasformazione dell’agglomerato delle osservazioni iniziali in una struttura semplice è prerogativa del metodo matematico delle componenti principali. Infatti, l’analisi dei fattori viene introdotta passando attraverso la metodica della ricerca degli autovalori e degli autovettori delle componenti principali dei dati originali.

Le componenti principali sono combinazioni lineari tra loro indipendenti delle variabili, la cui varianza complessiva uguaglia quella osservata. Le componenti principali di un insieme di dati si ricavano identificando in sequenza la combinazione lineare delle variabili osservate che estrae il massimo della variabilità dalla matrice di varianze-covarianze, di volta in volta depurata della variabilità e della covariabilità delle componenti precedentemente estratte.

Come detto prima, l’analisi fattoriale è un metodo statistico che permette di ridurre un sistema complesso di correlazioni in uno di dimensioni minori, mantenendone la maggior parte dell’informazione statistica. Le dimensioni trovate rappresentano i fattori impliciti estraibili dall’insieme dei dati di partenza. Pur perdendo una parte delle informazioni contenute nella matrice originale n x k, conviene lavorare sulla nuvola di punti-unità statistiche proiettata su sottospazi di dimensione piccola che, nel caso colgano una quota considerevole della varianza complessiva, forniscono una rappresentazione visiva dei punti e consentono una più semplice interpretazione delle differenze tra le unità.

Esistono diversi criteri utili a determinare il numero di fattori da estrarre, ma in questo lavoro è stata usata la rappresentazione grafica degli autovalori i rispetto all’ordine di

estrazione: lo scree test. Esso è idoneo ad individuare gli autovalori più importanti, ovvero le varianze spiegate dai singoli fattori che verranno considerati per l’interpretazione dei dati. Inoltre, questo criterio è un valido modo per verificare se l’analisi fattoriale risulta un metodo adatto per l’analisi dei dati; infatti, nel caso non vengano individuati dei fattori che prevalgono nettamente sugli altri, o comunque gli autovalori dei primi fattori siano di poco superiori ad 1, l’analisi fattoriale non risulta adatta per i nostri obiettivi di semplificazione. Nel considerare le analisi fattoriali che si presenteranno più avanti, si daranno indicazioni sul significato dei singoli assi attraverso l’osservazione delle correlazioni tra le variabili iniziali e i fattori ottenuti. La posizione dei punti proiettati su un piano permette di individuare le unità, o i gruppi di unità, che si connotano maggiormente per una delle due, o per entrambe le caratteristiche contenute nei fattori acquisiti. A questo proposito, dopo aver ‘compresso’ le informazioni sulla mortalità in un numero ridotto di fattori, è stata eseguita un’analisi di raggruppamento, o cluster analisys, sui punteggi fattoriali ricavati con l’analisi dei fattori. La tecnica di analisi di raggruppamento che è stata considerata è di tipo gerarchica e agglomerativa in quanto si procede ad una successione di fusioni delle 20 unità statistiche, a partire dalla situazione in cui ogni regione costituisce un gruppo a sé stante e fino a quando si forma un gruppo che comprende tutte le 20 unità statistiche. Il

metodo che è stato utilizzato per raggruppare le unità statistiche è quello del legame completo.

In questo elaborato si utilizzeranno le analisi fattoriali considerando i dati di mortalità regionale per cirrosi epatica e per tumore del fegato relativamente alle popolazioni maschile e femminile. Le analisi riguarderanno separatamente i tassi standardizzati e tre serie temporali di tassi specifici di mortalità. In queste analisi la rappresentazione grafica degli autovalori ha permesso l’individuazione di due fattori nettamente predominanti sugli altri.