• Non ci sono risultati.

Quando si lavora nell'ambito della statistica multivariata è bene assicurasi che gli indicatori presentino il più possibile una distribuzione di frequenza molto prossima alla distribuzione normale, in modo da poter essere analizzati tramite tecniche statistiche, che richiedono il rispetto della caratteristica di normalità. La distribuzione normale, anche definita curva Gaussiana, dal nome del matematico tedesco Carl Frederich Gauss (Gauss, 1828) è considerata il caso base delle distribuzioni di probabilità di variabili continue. Una

variabile x ha distribuzione normale, con media μ e deviazione standard σ, se ha come funzione di densità:

L'insieme delle variabili con media μ e deviazione standard σ, aventi distribuzione normale si indicano con

Mediante standardizzazione si ottiene la formula di densità normalizzata

In tal caso si dice che z è distribuita in modo normale con media zero e varianza uno, e si ha z appartenente a N (0,1). Per osservare la misura dell'associazione tra gli indicatori considerati all’interno dello studio, si è ricorsi all'analisi della correlazione, la quale misura quanto due variabili quantitative varino congiuntamente tra loro. La correlazione non specifica la relazione causa-effetto tra due variabili; viene definita diretta o positiva quando al variare di una variabile in un senso anche l'altra varia nello stesso senso; oppure si dice correlazione indiretta o negativa quando variando una variabile in un senso l'altra varia in senso inverso (Chiantore M., 2007).

Il coefficiente di correlazione r è dato dalla radice quadrata del prodotto dei coefficienti di correlazione di due variabili considerate (x e y). Il coefficiente di correlazione (r), è calcolato come segue:

Il coefficiente di correlazione viene espresso attraverso un indice che può variare tra -1 (quando le variabili sono negativamente correlate) e 1 (quando le variabili sono positivamente correlate). Un valore dell'indice pari a zero significa assenza di correlazione.

Nell’ambito di questa tesi, la valutazione delle correlazioni è stata effettuata per tutti gli indicatori del dataset Europa 2020 e per le variabili terze identificate all’interno del modello causale. A tal proposito si è anche valutata la significatività di queste correlazioni. La valutazione della correlazione è stata effettuata mediante il test t (t di Student, Gosset, 1908). In questo test, la distribuzione di Student viene utilizzata per definire degli

intervalli di confidenza per la media di una popolazione, calcolati sulla base di stimatori della sua media e della sua varianza calcolati sul campione considerato. Se la differenza tra due variabili risulta distribuita similmente alla distribuzione t, allora è possibile affermare che vi sia una differenza significativa tra le due. Il livello di affidabilità di questa affermazione è definito dal coefficiente α, che rappresenta il livello di probabilità con il quale si accetta di definire come significativa una differenza anche quando questa non lo sia. Nell’ambito delle analisi effettuate, il valore di α è stato posto pari a 0.05.

3.6.2.1 Diagramma di dispersione

Un strumento utile per osservare gli andamenti delle variabili e quindi anche le possibili correlazioni è il grafico di dispersione (scatter plot), che rappresenta le coppie (x,y) in un piano cartesiano in modo da individuare le relazioni tra le componenti (variabili) della coppia. Come precedentemente accennato, ci si è avvalsi dell'utilizzo del diagramma di dispersione per confrontare gli andamenti degli indicatori tra loro ed osservare se si era in presenza di correlazioni non lineari, che non sarebbero state osservate con i coefficienti di correlazione.

3.6.2.2 Analisi di regressione lineare

Con il termine regressione in statistica viene definito un modello capace di prevedere, attraverso una funzione matematica la relazione tra:

- la variabile attesa o dipendente o di risposta, indicata con Yi, e - la variabile o le variabili indipendenti o predittive, indicate con Xji.

Osservando l’andamento della variabile dipendente Yi rispetto alla variabile indipendente Xji si distingue la regressione lineare rispetto dalla regressione curvilinea.

La prima situazione si ha quando i valori della Yi rappresentati in relazione ai valori della Xji assumono un andamento lineare e pertanto il fenomeno può essere descritto da una retta. La regressione non lineare o curvilinea riguarda tutti i casi in cui la retta non è adeguata a rappresentare i dati sperimentali (Chiantore M., 2007).

La regressione lineare rappresenta un metodo di stima del valore atteso condizionato di una variabile dipendente Yi, dati i valori di altre variabili indipendenti. Di seguito viene riportata l’equazione relativa alla regressione lineare multipla:

Yi =β0 + β1 X1i + β2 X2i + βj Xji + r dove:

Yi = i-esimo valore campionario della variabile dipendente;

βji= i-esimo parametro di variazione (o coefficiente angolare) associato alla variabile indipendente j;

Xji = i-esimo valore campionario della variabile indipendente j; r = residuo, termine di errore statistico.

Definendo il vettore dei coefficienti angolari come l’insieme dei parametri βji, e X come

matrice di dati, è possibile ottenere le stime del di tale vettore tramite il metodo dei minimi quadrati (Rao, 1973), risolvendo il problema di minimo:

Un descrittore della bontà del modello di correlazione lineare così calcolato, è rappresentato dal coefficiente di determinazione (R²) (Steel e Torrie, 1960), il quale ha lo scopo di misurare la frazione della variabilità delle osservazioni (Yi) osservate, che il modello lineare è in grado di spiegare. R² è definito come:

Dove:

,

SS

tot rappresenta la somma degli scarti quadratici mentre

SS

err rappresenta la somma dei

quadrati dei residui, pari a: 1 –

SS

reg

. SS

regviene a sua volta definita come:

e rappresenta la somma degli scarti quadratici spiegati dal modello (ƒi).

R² sarà quindi un numero compreso tra 0 e 1. Più è elevato e più il modello oggetto di analisi è da ritenersi una buona approssimazione causale delle relazioni definite tra le variabili considerate.

4 Risultati

4.1 Analisi preliminare dei dati nazionali e regionali della