• Non ci sono risultati.

Ambiti e sistemi territoriali

N/A
N/A
Protected

Academic year: 2021

Condividi "Ambiti e sistemi territoriali"

Copied!
49
0
0

Testo completo

(1)

Ambiti e sistemi territoriali

Un approccio esplorativo alle tematiche geospaziali

Strumenti esplorativi nell’analisi dei dati

Versione preliminare al dicembre 2001

Spezzone di una carta dei posti letto per abitante negli esercizi turistici italiani al 1991.

WP Web 2001 - Serie RE 6

Laboratorio di Geografia - Dipartimento di Studi Filosofici, Storici e Sociali

Facoltà di Lingue e Letterature Straniere

Ud’A di Chieti – sede di Pescara

(2)

STRUMENTI ESPLORATIVI NELL’ANALISI DEI DATI 4

Il grafico a rami e foglie o stem-and-leaf 4

I sommari a cinque numeri o letter-value displays 7 Numerosità dei rami nei diagrammi a rami e foglie e delle classi negli

istogrammi e nelle carte a coroplete 8

I diagrammi a scatola o box plots 11

Medie ordinate o medie troncate 13

La media TRI 15

Impiego della mediana per la ricerca dei valori anomali 15 Analisi esplorativa dei dati spaziali – baricentro e mediana 16 Calcolo della mediana con dati raggruppati 18

La mediana spaziale bivariata 20

Un caso di studio 22

L’approccio esplorativo alla regressione 24 Procedure alternative per la regressione 27

I rischi della regressione 28

La standardizzazione esplorativa dei dati 29

Lo scaling 32

Osservazioni sulla trasformazione dei dati 34

I grafici del tipo Q-Q plots 37

Conclusioni interlocutorie 40

Applicazione al valore aggiunto nelle province per il 1991 41

Figura 1

Stesura preliminare di un diagramma a rami e foglie.

5 Figura 2

Versione intermedia e finale di un diagramma a rami e foglie.

6

Figura 3 Visualizzazione degli elementi caratteristici di un diagramma a rami e

foglie. 7 Figura 4

Schema di sommario a 5 numeri o letter-value display. 8

Figura 5

Esempio di sommario a 5 numeri.

8

Figura 6 Confronto grafico tra alcune proposte circa la numerosità delle classi. 9 Figura 7 Rappresentazione degli elementi costitutivi di un diagramma a scatola. 11

Figura 8

Famiglia di diagrammi a scatola semplificati.

12 Figura 9 Medie ordinate per la stazione pluviometrica di Campli. 13

Figura 10 Sequenza di medie ordinate o troncate. 14 Figura 11

Confronto tra la posizione del baricentro e quella della mediana tra i capoluoghi di

provincia della regione Lombardia in assenza di ponderazione.

17

(3)

Figura 12 Distribuzione spaziale dei baricentri ponderati nella regione Lombardia

17 Figura 13 Ogive delle frequenze e mediane. 18

Figura 14

L’area mediana dell’insieme di luoghi puntiformi “capoluoghi di provincia della

regione Lombardia”.

21

Figura 15 Popolazione residente nei comuni della provincia di Teramo al

censimento 1991 per aree anulari equivalenti. 23 Figura 16 Dispersione rispetto a Frosinone degli attributi superficie, popolazione e

valore aggiunto nei comparti indicati in legenda (anno di riferimento 1991), rilevati nelle province italiane, Frosinone inclusa. 23 Figura 17 Esempi di regressione con il metodo dei minimi quadrati - caso dei

dipendenti regionali e caso dei dipendenti provinciali. 25 Figura 18 Esempio di regressione con il metodo dei minimi quadrati - caso dei

dipendenti comunali. 25

Figura 19

Esempio di regressione esplorativa con il metodo dei 3 gruppi.

26 Figura 20 I rischi della regressione. 28

Figura 21 Distribuzione delle distanze dei capoluoghi comunali dal capoluogo provinciale in provincia di Gorizia . 30 Figura 22 Confronto grafico tra nove distribuzioni statistiche. Indicatori originali.

30 Figura 23 Confronto grafico tra nove distribuzioni statistiche. Indicatori

standardizzati. 31 Figura 24 Esempio di scaling. 33

Figura 25 Esempio di applicazione dello scaling. 33

Figura 26

Famiglia di trasformazioni tramite potenze.

35 Figura 27 Popolazione residente nelle province italiane al censimento 1981:

diagrammi della radice quadrata e della radice cubica. 36 Figura 28 Popolazione residente nelle province italiane al censimento 1981:

diagramma della trasformazione logaritmica. 36

Figura 29

Schema metacartografico dell’attributo superficie nelle province italiane,

38 Figura 30

Confronto tra le distribuzioni degli attributi superficie e popolazione residente nelle

province italiane al censimento 1991.

39

Prospetto 1 Esempio di medie di posizione con distribuzioni discrete di dati

territoriali puntiformi. 19

(4)

STRUMENTI ESPLORATIVI NELL’ANALISI DEI DATI

Il grafico a rami e foglie o stem-and-leaf

Il primo compito del ricercatore, nell'approccio tradizionale, di fronte a una serie di dati statistici consiste in una preliminare ispezione delle informazioni numeriche al fine di raggrupparle secondo prefissate regole, ritenute idonee a far emergere soggiacenti regolarità. In particolare, è antica e radicata consuetudine quella di disegnare istogrammi delle frequenze, ma le modalità di esecuzione non sono affatto pacifiche e comportano, in ogni caso, il sacrificio di un gran numero di informazioni, nel senso che situazioni distinte confluiscono in contenitori, le singole colonne dell'istogramma, nei quali tutte le differenze sono eliminate.

Considerazioni similari valgono per la costruzione di cartogrammi a coroplete nel senso che essi comportano, in via preliminare, la definizione del numero delle classi o colori (se si utilizzano tonalità di grigio o tratteggi, il problema è sempre lo stesso) da utilizzare; se esse sono stabilite in accordo ai criteri di numerosità dei rettangoli negli istogrammi, si possono seguire le raccomandazioni di Norcliffe (1977) che propone k =

√ n, dove k è il numero delle classi e n il numero dei dati da rappresentare. Ma queste raccomandazioni non sono assecondabili in moltissimi casi; infatti, per n maggiore di 100 le rappresentazioni grafiche tendono a svolgere il ruolo di elementi decorativi, e in ogni caso possono obliterare aspetti di grande rilievo se le classi sono equispaziate 1.

Tornando al problema degli istogrammi, si rileva come l'EDA aggiri con eleganza e successo gli ostacoli con la proposta di un mix grafico numerico, chiamato stem-and- leaf, traducibile in italiano come grafico a rami e foglie.

La realizzazione del grafico (figg. xxx) – l’esempio è costruito con il valore dei seminativi nelle regioni agrarie abruzzesi (riferimento 1991; i dati sono riportati in tab. 1) – comporta i seguenti passi:

A - si stabilisce l'unità di misura, ad esempio i milioni di lire, e si inizia il diagramma con tale indicazione;

B - si individuano i valori minimo (2.120) e massimo (19.600) e si impone un or- dinamento ascendente (crescente) o discendente (decrescente) dei dati. Se l'ordine è crescente si scrivono in colonna le cifre dei milioni da 2 a 19; esse costituiscono i rami;

C - si ricercano le foglie: esse sono date dalle cifre delle centinaia di migliaia di lire.

Ad esempio le foglie del ramo 2 si individuano isolando tutti valori compresi tra 2.0 e 2.9 milioni di lire;

D - si completa il diagramma con tutte le foglie e si eliminano, eventualmente (lo scrivente è d’opinione contraria) i rami secchi ( quelli, cioè, non rappresentati nella serie dei dati originali);

(5)

E - si conteggiano le foglie ramo per ramo (o in altre parole si individuano le frequenze assolute) e le si cumulano, al fine di verificare che il numero delle foglie corrisponda al numero totale dei dati, e retrocumulano.

A questo punto la sintesi grafico-numerica dell'EDA mostra tutti i suoi vantaggi rispetto all'approccio tradizionale in quanto unifica efficacemente più strumenti tipici del secondo: il diagramma della dispersione, l'istogramma, la tabella delle frequenze relative cumulate e retrocumulate.

Il confronto tra i valori cumulati e retrocumulati permette l’introduzione di un importante e nuovo indicatore, la profondità, da intendersi come la distanza di un dato ramo dall’estremo più vicino della distribuzione.

Il prodotto finale non include le colonne dei valori cumulati e retrocumulati, non necessari per la comprensione dei caratteri fondamentali delle distribuzioni, desumibili dalle profondità, ma si avvale di una linea verticale ben marcata da disegnare tra la colonna dei rami e la colonna delle foglie; il tutto, per l’esempio in esame, si presenta come in figura …

U = 1 milione di lire

Rami Foglie Numero delle foglie Cumulate Retrocumulate

2 7741774974 10 10 34

3 997770 6 16 24

4 5 1 17 18

5 0 1 18 17

6 534 3 21 16

7 01 2 23 13

8 0 1 24 11

9 52 2 26 10

10 _ 26 8

11 336 3 29 8

12 _ 29 5

13 _ 29 5

14 _ 29 5

15 98 2 31 5

16 _ 31 3

17 _ 31 3

18 61 2 33 3

19 6 1 34 1

Figura 1 Stesura preliminare di un diagramma a rami e foglie.

(6)

Da notare il non ordinamento delle foglie.

U = 1 milione di lire U = 1 milione di lire

Rami Foglie

Numero delle foglie

o frequenze idem

cumulate idem

retrocumulate Profondità Rami Foglie 2 1444777779 10 10 34 10 2 1444777779

3 77799 6 16 24 16 3 77799

4 5 1 17 18 17 4 5

5 0 1 18 17 17 5 0

6 345 3 21 16 16 6 345

7 01 2 23 13 13 7 01

8 0 1 24 11 11 8 0

9 25 2 26 10 10 9 25

10 0 26 8 8 10

11 336 3 29 8 8 11 336

12 0 29 5 5 12

13 0 29 5 5 13

14 0 29 5 5 14

15 39 2 31 5 5 15 39

16 0 31 3 3 16

17 0 31 3 3 17

18 16 2 33 3 3 18 16

19 6 1 34 1 1 19 6

Figura 2 Versione intermedia e finale di un diagramma a rami e foglie.

Versione intermedia, a sinistra: da notare l’ordinamento delle foglie e la colonna intitolata profondità. La profondità è data dal valore più piccolo tra le frequenze cumulate e retrocumulate; sul piano concettuale corrisponde alla distanza, come numero di casi , dall'estremo (il minimo o il massimo più vicino);la profondità massima compete al ramo o ai rami con il valore mediano della distribuzione: al riguardo si noti che, essendo pari il numero dei casi (34, per la precisione), la distribuzione in esame ha 2 valori mediani, il 17° e il !8°, o la loro media aritmetica.

Versione finale, a destra: nella versione finale, in forma semplificata al massimo di un diagramma a rami e foglie, traspare con grande immediatezza la configurazione asimmetrica della distribuzione statistica soggiacente e la poca significatività, in casi del genere, della media aritmetica come indicatore sintetico;

infatti, essa vale 7.3 milioni di lire e risulta superiore a ben 22 regioni agrarie su 34.

Osservazione generale: è strettissima la somiglianza del diagrammi a rami e foglie con il grafico a barre avente suddivisione uniforme delle classi. La somiglianza è accentuata laddove le foglie sono iscritte su un fondo in colore.

(7)

0 5 10 15 20 25 30 35 40

0 5 10 15 20

Rami

Frequenze

Frequenze Frequenze cum.

Frequenze retrocum.

Profondità

Figura 3 Visualizzazione degli elementi caratteristici di un diagramma a rami e foglie.

Il grafico è stato costruito con gli elementi del diagramma a rami e foglie riportato nella figura precedente.

I sommari a cinque numeri o letter-value displays

I diagrammi in esame possono essere integrati da indicazioni, consistenti nell’apposizione di simboli letterali, circa i rami che accolgono la mediana e i quartili, o anche da segmentazioni che discriminano i casi anomali (sul come riconoscerli, v. più avanti nel testo).

Sommari delle distribuzioni molto più semplici, ma parimenti utili per la loro essenzialità e immediatezza di lettura, sono nell’ambito dell’EDA i cosiddetti sommari a 5 numeri, conosciuti anche come letter-value displays. Essi si presentano in conformità allo schema grafico illustrato in figura 4 ed esemplificato in figura 6 per i dati già utilizzati per illustrare i diagrammi a rami e foglie.

Noti, ma poco diffusi, sono i sommari a 7 numeri, che si realizzano introducendo gli ottili; per le modalità di riconoscimento dei casi anomali si rinvia a quanto si scrive a proposito dei diagrammi a scatola.

(8)

n (numero dei casi) Nome della distribuzione

Mediana

M (profondità della mediana Quartile inferiore Quartile superiore F (Profondità del quartile) Estremo inferiore Estremo superiore

Soglia di anomalia

inferiore

Soglia di anomalia superiore

Eventuali casi anomali

Figura 4 Schema di sommario a 5 numeri o letter-value display. La lettera F indica il quartile, in inglese fourth.

n = 34 Regioni agrarie abruzzesi Valore dei

seminativi per l'anno

1991

M = 17.5 56.7

F = 8.5 3722.5 9425

2120 19600

17979

18199;18653; 19600.

Figura 5Esempio di sommario a 5 numeri.

Numerosità dei rami nei diagrammi a rami e foglie e delle classi negli istogrammi e nelle carte a coroplete

Tornando ai diagrammi a rami e foglie, sembra opportuno rilevare come anche per essi possa manifestarsi il problema della numerosità delle linee diagrammatiche (i rami). A tal proposito, senza entrare in discussioni tecniche, si richiamano le formulazioni più seguite:

k = 10 log n; k = 2 n; k = 1 + log2 n

(9)

dove k è il numero delle linee ed n il numero dei casi: per n inferiore a 100 si preferisce la seconda formulazione; la prima, per n maggiore di 100; la terza, per n molto grande.

In linea generale, la numerosità dei rami nei diagrammi a rami e foglie, delle classi negli istogrammi, e dei colori nelle carte a coroplete, deve rispondere a criteri di leggibilità delle rappresentazioni e di salvaguardia, per quanto possibile, del contenuto informativo nelle distribuzioni dei dati da raggruppare, specie quando il raggruppamento è la fase preliminare di un prodotto cartografico.

È ovvio che il numero k delle classi, se n è il numero dei valori distinti in una data distribuzione, deve risultare compreso tra 1 e n, ma soltanto l’esperienza e il buon senso possono guidare in una scelta per la quale mancano regole generali.

La letteratura geografica e statistica sembra comunque concordare verso valori di k compresi tra 4 e 12-16, a seconda - nel caso delle coroplete - dell’impiego di graduazioni delle intensità di 1 o 2 colori.

Non mancano, tuttavia, proposte precise che possono aiutare nella scelta del numero delle classi:

1) Norcliffe (1977) k = n0.5 2) Huntsberger (1961) k = 1 + 3.3logn 3) Brooks e Carruthers (1953) k < 5logn 4) Cowden (1948) 6 ≤k ≥ 16

Figura 6 Confronto grafico tra alcune proposte circa la numerosità delle classi.

A: Norcliffe; B: Huntsberger; C. Brooks e Carruthers.

A parere dello Evans (1977), il disegno delle classi, allorquando esse sono alla base delle carte a coroplete, dovrebbe fondarsi su una suddivisione uniforme quando, così facendo, esse risultassero, grosso modo, ugualmente numerose (distribuzioni rettangolari). Negli altri casi valgono questi suggerimenti:

0 20 40 60 80 100

10 100 1000 10000

n

k

A B C

a) se la suddivisione uniforme implica un forte addensamento delle frequenze nella classe centrale (distribuzioni leptocurtiche), le classi dovrebbero essere ridisegnate con l’assunzione dello scarto quadratico medio come unità di misura;

b) se le classi equispaziate originano un disegno a J o a J rovesciata, le stesse si ridisegnano scandendo gli intervalli con progressioni geometriche, con ragioni tanto più elevate quanto più marcata è l’asimmetria nella distribuzioni dei dati;

c) se le classi equispaziate originano rappresentazioni a U o a M il ricorso a classi ridisegnate in maniera da risultare egualmente numerose, tramite il ricorso alle medie di posizione (mediana, quartili e percentili) può essere la soluzione più idonea.

(10)

In conclusione i criteri più diffusi nella redazione di carte a coroplete si riassumono in questi termini schematici:

1. Esogeni: significativi in relazione ai valori di soglia che non sono derivati dai dati cartografati, come un rapporto tra sessi pari a 1.

2. Arbitrari: numeri privi di particolare significato, sovente con intervalli diseguali tra le classi, come 5, 10, 20, 30, 80,120...

3. Sistemi ideogratici diversi, influenzati dalle particolarità insite nei dati da cartografare, del tipo:

a) multimodali, grazie all'impiego di intervalli naturali nella distribuzione di frequenza dei dati;

b) multigraduati, con intervalli corrispondenti ai punti nei quali la curva delle frequenze cumulate presenta variazioni di inclinazione;

c) basati sulla contiguità, al fine di rendere massima l'estensione e minimo il numero delle regioni di una data classe;

d) basati sulla correlazione, al fine di rendere massima la somiglianza rispetto a una data carta;

e) su classi percentuali, che contengono un numero uguale di aree o superfici grosso modo uguali delle aree;

f) su limiti tra le classi ancorati alla media, quando la media della distribuzione di frequenza e utilizzata come una soglia per una prima suddivisione in due classi, poi queste ultime sono suddivise ottenendosi così quattro classi, e via di seguito.

4. Vari schemi periodici, con classi i cui limiti presentano tra di loro una relazione matematica definita, come:

a) percentuali rispetto alla normale, con limiti tra classi posti in relazione a classi di uguale frequenza in una prefissata curva normale;

b) unita della deviazione standard, centrate sulla media, che e una classe centrale, se il numero delle classi e dispari, e un limite di classe, se le stesse sono pari;

c) intervalli uguali;

d) intervalli uguali in una scala dei reciproci;

e) intervalli uguali in una serie trigonometrica;

f) progressioni geometriche nell'ampiezza delle classi;

g) progressioni aritmetiche;

h) progressioni curvilineari, quando il grafico del logaritmo del limite di classe in funzione del logaritmo del numero della classe si configura come una retta.

(11)

I diagrammi a scatola o box plots

Un carattere distintivo dell’EDA è la diffidenza nei riguardi della media aritmetica quando essa è impiegata per sintetizzare le distribuzioni di dati, in ragione della poca resistenza di tale media nei riguardi dei valori estremi, anomali o errati. Per contro, mediana e quartili sono utilizzati ampiamente nell’analisi esplorativa dei dati, nel cui ambito si utilizzano per una rappresentazione grafica efficace e molto semplice: i diagrammi a scatola (box-and-whiskers plots o semplicemente box plots)3.

Il tutto si riduce a riportare in scala, su una linea, questi valori: il minimo, il primo quartile, la mediana, il terzo quartile, il massimo: sulla linea si disegna inoltre un rettangolo avente per base l’intervallo tra i due quartili e altezza a piacere - il buon senso consiglia 4-5 mm - , rettangolo che poi si suddivide in due parti, che si estendono a destra e a sinistra della mediana (v. figura 7).

Intervallo interquartilico

Primo quartile Mediana Terzo quartile

Minimo Massimo

Campo di variazione dei dati

Figura 7 Rappresentazione degli elementi costitutivi di un diagramma a scatola.

La differenza tra il terzo quartile e il primo quartile prende il nome di campo di variazione interquartilico; essa è utilizzata nell’analisi esplorativa, della quale parleremo in seguito, per il riconoscimento dei valori anomali da un punto di vista statistico (ma non geografico):

quartile superiore - quartile inferiore = dF

I valori anomali sono quelli maggiori di terzo quartile +1.5 dF e inferiori a primo quartile -1.5 dF.

Il grado di anomalia può essere discriminato introducendo soglie più severe corrispondenti a terzo quartile +3dF e primo quartile -3dF. (numerosi esempi di distribuzioni con valori anomali sono reperibili in uno studio dello scrivente sul valore aggiunto attribuito alle province italiane nel 1991).

(12)

I programmi di statistica consentono di disegnare con immediatezza i diagrammi a scatola di distribuzioni contenenti centinaia di elementi, ma tali programmi sono costosi e di non facile utilizzo per i non esperti che, però, si possono avvalere di software più semplici e molto diffusi.

Un esempio del genere è il programma Microsoft Excel, che offre diverse alternative, con il quale sono stati realizzati i grafici semplificati riportati nel testo.

T otale Di cui: non

alimentari Commercio

ambulante Ristoranti, osterie

e tavole calde Bar, caffè, gelaterie e birrerie Alberghi: numero

Alberghi: posti letto Esercizi extralberghieri

posti letto

0 5 10 15 20

Minimo Quartile I Mediana Quartile III Max

Figura 8 Famiglia di diagrammi a scatola semplificati.

Il grafico illustra, tramite diagrammi a scatola semplificati, i valori di posizione caratteristici delle distribuzioni statistiche “autorizzazioni per il commercio ecc” nelle province italiane, espresse in termini di densità (rapporto con la superficie) e intensità (rapporto con la popolazione) relative nei riguardi dell’Italia (il valore medio nazionale è sempre uguale a 1). Per tutti i raggruppamenti statistici: in basso, l’intensità relativa;

in alto, la densità relativa. I dati analitici sono riportati nella tab. xxxx.

(13)

Medie ordinate o medie troncate

Anche l’Eda si avvale delle medie aritmetiche, ma con una selezione preliminare dei dati sui quali effettuare le elaborazioni. In particolare si segnalano le medie ordinate (anche medie troncate), o trimmed means, molto utili per valutare o per eliminare l'incidenza dei valori estremi, verso l’alto e verso il basso. Per il loro calcolo, dopo aver ordinato i dati in senso crescente o decrescente, si procede come per una normale media aritmetica, ma omettendo una pari percentuale iniziale e terminale dei dati.

È consuetudine (Rent, , p. 203) eliminare il primo e l'ultimo 10% (decili estremi), oppure il primo e l'ultimo 25% (così facendo si ottiene la cosiddetta media interquartile).

Se si indica con p la % dei dati da eliminare, risulta:

(100 - 2p)% = media aritmetica, per p = 0 % (100 - 2p)% = mediana, per p=50 %

(100 - 2p)% = semimediana o media interquartile, per p=25 %

Si noti che, in linea di principio, il valore di p deve essere scelto a secondo del grado di resistenza che si intende attribuire alla media (massima quando p = 50), ma anche in ragione della natura e dell'andamento dei dati. Pertanto, non bisognerebbe mai limitarsi ad un solo valore di p e, al contrario, avvalersi di una successione di termini piuttosto numerosa, rivelatrice di una più o meno rapida convergenza, dalla media aritmetica classica alla mediana: i risultati così conseguiti sono visualizzabili con un grafico elementare di correlazione tra medie e p%.

Campli - Medie ordinate delle precipitazioni

980 990 1000 1010 1020

0 5 10 15 20 25 30 35 40 45 50

p%

mm di pioggia

Figura 9 Medie ordinate per la stazione

pluviometrica di Campli.

Il commento è immediato, nel senso che l'incidenza dei valori estremi si deve ritenere modesta, seppure con un maggiore grado di anomalia dei valori più elevati, in ragione dell'andamento discendente del grafico.

Esempio: nella stazione pluviometrica di Campli il Servizio Idrografico Italiano ha registrato tra il 1924 e il 1950 gli afflussi annui in mm indicati nella prima parte della tabella che seguenel testo. Ordinando i dati in senso crescente si ottiene una nuova tabella dalla quale si ottengono immediatamente (ricorrendo ad un comune foglio elettronico di calcol, quale Excel 97) le medie p% per

(14)

p = 0; 1015 media aritmetica p = 7; 1016

p = 17; 1017 p = 28; 1006 p = 38 999

p = 50 991 mediana

I risultati così conseguiti sono visualizzabili con un grafico elementare di correlazione tra medie e p%, al fine di verificare il tipo di percorso che si compie per passare dalla media aritmetica alla mediana.

1 644 n = 29; p = 0

2 668 p = 0

3 777 n = 25 media 1015

4 865 p = 7%

5 870 media = 1017

6 887 n = 19

7 892 p = 17 %

8 903 media = 999

9 915 n = 13

10 920 p = 28 %

11 924 media = 987

12 953 n = 7

13 978 p = 38 %

14 982 media = 986

15 993 mediana =993 16 996

17 997 18 1002 19 1021 20 1072 21 1084 22 1129 23 1155 24 1183 25 1262 26 1324 27 1332 28 1350 29 1357

Figura 10 Sequenza di medie ordinate o troncate.

L’esempio è stato costruito con i dati della stazione pluviometrica Campli in provincia di Teramo per il periodo 1921-1950.

(15)

La media TRI

Altra particolare media aritmetica è la TRI, utilizzata nelle procedure che si richiamano all’EDA per riassumere le caratteristiche dell’intervallo interquartilico, allorquando tale intervallo risulta asimmetrico o si ritiene possa essere tale:

media TRI = ((primo quartile + mediana) + (mediana + terzo quartile))/4 Da precisare che l’asimmetria è tanto più marcata quanto maggiore è la differenza tra la mediana e la media TRI.

Esempio: superficie territoriale delle province italiane al censimento 1991:

Minimo 212.0 Primo quartile 2079.0

Mediana 2759.0 Terzo quartile 3645.0

Massimo 7520.0 Media aritmetica 3171.6

Media TRI 2810.5

Impiego della mediana per la ricerca dei valori anomali

La procedura, riportata in Sprent (p. 196-197), si basa sulla seguente condizione di anomalia

xo - med(xi) / med[xi - med(xi) ]> 5

il valore 5 sarebbe giustificato dal fatto che in una distribuzione approssimativamente normale tale rapporto dovrebbe risultare inferiore per tutti i dati, tranne quelli anomali.

Il denominatore med[xi - med(xi) ] prende il nome di deviazione assoluta dalla mediana o MAD.

Dati originali

Dati ordinati Deviazioni dalla mediana

Deviazioni assolute dalla mediana

Id. ordinate Rapporti d'anomalia

Iid. in valoee assoluto

8.9 2.8 -4.1 4.1 0 1 1

6.2 3.7 -3.2 3.2 0.3 -0.35 0

7.2 5.4 -1.5 1.5 0.7 0.15 0

5.4 6.2 -0.7 0.7 1.5 -0.75 1

3.7 6.9 0 0 2 -1.6 2

2.8 7.2 0.3 0.3 3.2 -2.05 2

(16)

17.2 8.9 2 2 4.1 5.15 5

13.7 13.7 6.8 6.8 6.8 3.4 3

6.9 17.2 10.3 10.3 10.3 0 0

Mediana = 6.9 Mediana (MAD) = 2.0 Rapporto superiore alla soglia d'anomalia Valore anomalo

L’interesse verso questo rapporto d’anomalia sembra, allo scrivente, alquanto modesto.

Analisi esplorativa dei dati spaziali – baricentro e mediana

L’interesse dell’EDA nei riguardi delle medie di posizione si riflette nello studio delle tendenze centrali e della dispersione nelle distribuzioni di punti. Il luogo centrale per eccellenza è, secondo una radicata e lunga consuetudine, identificato nel baricentro o nel luogo puntiforme più vicino ad esso, ma può essere ricercato anche con il criterio della mediana spaziale4, più in linea con le normali esigenze geografiche in quanto quest’ultima gode della proprietà del minimo rispetto alla somma delle distanze lineari5 (il baricentro, invece, rappresenta il minimo della somma delle distanze al quadrato; la mediana è alla base dell’impostazione della localizzazione secondo Isard, il baricentro di Weber, che però aveva intuito alcune proprietà della mediana, senza trarne tutte le conclusioni).

La procedura per ricercare la mediana è illustrata (figure 11 e 13) assumendo come caso esemplificativo i capoluoghi provinciali della regione Lombardia, in relazione al carico di bovini al 1991 nelle corrispondenti province, e distinguendo i due casi fondamentali: la mediana semplice e quella ponderata.

(17)

m ediana m edia

M A N TO VA C R EM O N A

P A VIA

B R ESC IA B ER G A M O

M ILA N O

SO N D R IO

C O M O VA R ESE

0 20 40 60 80 100 120 140

0 20 40 60 80 100 120 140 160 180

km

km

Figura 11 Confronto tra la posizione del baricentro e quella della mediana tra i capoluoghi di provincia della regione Lombardia in assenza di ponderazione.

Ovini

Suini Bovini SAU

SAT bar. ST

semplice

-30 -20 -10 0 10 20

0 10 20 30 40

km

km

Figura 12 Distribuzione spaziale dei baricentri ponderati nella regione Lombardia

(18)

Coordinata x

0.00 25.00 50.00 75.00 100.00

0 20 40 60 80 100 120 140 160 180

% Cum Retrocum

Coordinata y

0.00 25.00 50.00 75.00 100.00

0 20 40 60 80 100 120 140

% Cum Retrocum

Figura 13 Ogive delle frequenze e mediane.

Sinistra: andamento nel senso della longitudine delle percentuali e delle percentuali cumulate dei capi bovini nelle province lombarde. Destra: andamento nel senso della latitudine delle percentuali e delle percentuali cumulate dei capi bovini nelle province lombarde.

Osservazione: Devono essere sempre ben presenti due fondamentali proprietà della mediana:

a) la mediana spaziale dipende dall’orientamento degli assi: se essi ruotano, il punto mediano può spostarsi e disegnare un’area centrale (il baricentro è, invece, sempre un punto, indipendente dagli orientamenti degli assi);

b) se un elemento ha un peso pari o superiore al 50%, il valore mediano compete, in ogni caso, a tale elemento. Nel caso della regione Lazio la popolazione residente nella città di Roma (2.693.383 ab.), alla data del censimento 1991, è pari al 53,5% del totale (5.031.230 ab.); pertanto, senza necessità di elaborazioni dei dati si può assegnare a Roma la posizione mediana.

Calcolo della mediana con dati raggruppati

Per il calcolo della mediana con dati raggruppati, come le classi quinquennali d’età, si procede prima ad individuare la classe contenente la mediana (quella che accoglie il 50% della popolazione cumulata), e poi ad applicare la seguente relazione:

lm +((Pt/2) - SPa)/(Pm-Pm-i)]. i

(19)

dove: lm= limite inferiore in anni della classe contenente la mediana; SPa= popolazione cumulata fino alla classe contenente la mediana; Pm= popolazione effettiva della classe contenente la mediana; Pt = popolazione totale; i = intervallo di ciascuna classe. In maniera analoga si procede per il calcolo dell’età del primo e del terzo quartile.

Prospetto 1 Esempio di medie di posizione con distribuzioni discrete di dati territoriali puntiformi.

Capoluoghi comunali della provincia di Teramo ordinati per distanze (in km) crescenti a partire dal capoluogo; le frequenze cumulate e retrocumulate si riferiscono alla popolazione residente (in % del totale provincia) alla data del censimento 1921.

Nome distanza Cum Retrocum Nome distanza Cum Retrocum Teramo 0.0 12.5 100.0 Pietracamela 18.2 56.5 44.2 Torricella Sicura 4.1 14.1 87.5 Torano Nuovo 18.6 57.4 43.5

Campli 8.0 18.6 85.9 Sant'Egidio alla Vibrata 18.7 59.2 42.6

Basciano 8.1 19.5 81.4 Nereto 19.1 60.8 40.8

Canzano 8.1 20.5 80.5 Castelli 19.3 62.4 39.2 Castellalto 9.3 22.0 79.5 Arsita 19.7 63.3 37.6

Penna Sant'Andrea 9.7 22.6 78.0 Ancarano 19.9 64.1 36.7 Montorio al Vomano 9.7 26.0 77.4 Valle Castellana 20.3 66.4 35.9

Cermignano 11.3 27.6 74.0 Corropoli 20.3 68.6 33.6 Bellante 11.6 29.8 72.4 Crognaleto 20.7 71.1 31.4 Tossicia 12.7 31.0 70.2 Montefino 20.9 72.0 28.9 Cortino 13.3 32.2 69.0 Giulianova 21.6 76.0 28.0 Castel Castagna 13.3 32.9 67.8 Tortoreto 21.6 78.3 24.0

Colledara 13.3 34.1 67.1 Castiglione Messer Raimondo 21.8 80.0 21.7 Civitella del Tronto 13.6 38.7 65.9 Controguerra 22.7 81.6 20.0

Notaresco 15.2 41.0 61.3 Castilenti 23.9 82.5 18.4 Rocca Santa Maria 15.3 41.7 59.0 Alba Adriatica 24.2 82.8 17.5

Sant'Omero 15.4 43.9 58.3 Roseto degli Abruzzi 24.9 87.2 17.2 Cellino Attanasio 15.9 45.8 56.1 Atri 25.3 92.7 12.8

Fano Adriano 16.7 46.6 54.2 Colonnella 25.5 94.8 7.3

Mosciano Sant'Angelo 16.8 50.2 53.4 Martinsicuro 28.4 95.9 5.2

Morro d'Oro 17.0 51.5 49.8 Pineto 31.1 97.7 4.1 Isola del Gran Sasso d'Italia 17.5 54.1 48.5 Silvi 36.5 100.0 2.3

Bisenti 17.7 55.8 45.9

Alla base di questa procedura vi sono due ipotesi: la distribuzione statistica è continua; è giustificata, ai fini pratici, l’interpolazione lineare per la ricerca del valore mediano.

La procedura in questione appare inapplicabile con dati territoriali discreti, come quelli che si riferiscono a luoghi puntiformi. In tali evenienze l’unica strada percorribile appare il ricorso alle frequenze cumulate, o a quelle retrocumulate.

(20)

In merito, si consideri (vedi prospetto) quale caso concreto la distribuzione dei capoluoghi comunali della provincia di Teramo, ordinati per distanze crescenti a partire dal capoluogo di provincia e qualificati dalla popolazione residente nei corrispondenti comuni alla data del censimento 1921, popolazione espressa in termini percentuali del totale provinciale.

Si conviene di considerare quale

a) espressivo del primo quartile delle distanze, ponderate con la popolazione, il capoluogo comunale in cui le frequenze cumulate risultano pari o superiore al 25% e quelle retrocumulate risultano pari o superiori al 75% (Montorio al Vomano, alla distanza di 9.7 km);

b) espressivo della mediana, il capoluogo comunale in cui le frequenze cumulate risultano pari o superiore al 50% e quelle retrocumulate risultano pari o superiori al 50%

(Mosciano Sant’Angelo, alla distanza di 16.8 km);

c) espressivo del terzo quartile, il capoluogo comunale in cui le frequenze cumulate risultano pari o superiore al 75% e quelle retrocumulate risultano pari o superiori al 25%

(Giulianova, a 21.6 km).

La mediana spaziale bivariata

La mediana spaziale calcolata sulle singole coordinate non assicura, come visto in precedenza, la proprietà del minimo al ruotare degli assi; pertanto, laddove lo si ritenga utile, è necessario rifarsi alla mediana spaziale bivariata.

La mediana in questione si calcola con procedura iterativa, manca infatti la possibilità di una soluzione analitica generale, sotto il vincolo di rendere minima la somma delle distanze complessive dei luoghi puntiformi in esame e il punto immagine della mediana.

L’iterazione porta a soluzioni rapidamente convergenti, ma dobbiamo rilevare la laboriosità dei calcoli necessari anche per poche ripetizioni delle elaborazioni (la procedura è illustrata più avanti nel testo di questo paragrafo).

Come esempio introduttivo si propone la situazione di coordinate e pesi di 8 luoghi A, B...H definiti nel prospetto che segue nel testo:

luoghi coordinate pesi X Y P

A 4 6 9 B 6 6 4 C 3 3 10 D 7 2 4 E 2 9 20 F 6 2 8

(21)

G 2 7 20 H 5 3 6

totale pesi 81 coordinate del baricentro X1 = 3.407; Y1 = 5.802

Effettuate le iterazioni, emerge il seguente quadro riassuntivo:

Iterazioni x y Sommatoria delle distanze Differenze

I 3.407 5.802 228.254

II 3.358 6.045 226.449 -1.805 III 3.285 6.145 225.906 -0.543 IV 3.21 6.205 225.506 -0.400

dal quale si desumono differenze progressivamente contenute tra successive sommatorie delle distanze, e la possibilità di attribuire con sufficiente precisione la qualità di punto mediano a quello individuato con la quarta iterazione.

IVIII

II

I

5.5 6 6.5

3 3 5

x

y

.

224 225 226 227 228 229

I II III IV

Sommatoria delle distanze Figura 14 L’area mediana dell’insieme di luoghi puntiformi “capoluoghi di provincia della regione Lombardia”.

A sinistra, spostamenti della mediana spaziale bivariata per successive iterazioni; a destra, progressiva contrazione della distanza complessiva.

Infatti, se le coordinate dei luoghi hanno il chilometro come unità di misura, ulteriori iterazioni potrebbero comportare variazioni globali di qualche centinaia di metri, del tutto irrilevanti in un’analisi territoriale.

(22)

Circa la dispersione nell’intorno dell’area mediana, o di un qualsiasi punto assunto come centrale, la logica interna all’EDA suggerisce di apprezzarla tramite rappresentazioni grafiche o cartografiche delle frequenze cumulate, computate dal centro verso la periferia per anelli successivi.

La procedura è abbastanza semplice e comporta, come primo passaggio, la ricerca del baricentro che funge da prima e provvisoria soluzione; successivamente si calcolano le distanze dei luoghi dal baricentro e le quantità:

Σ (pi/di)xi e Σ (pi/di)yi

dalle quali si derivano le coordinate della seconda provvisoria soluzione:

x’ = Σ( (pi/di)xi)/Σ (pi/di) e y’ = Σ ((pi/di)yi)/ Σ (pi/di)

della quale si verifica la correttezza con il calcolare nuovamente la somma delle distanze complessive dai luoghi sotto indagine, nel senso che dovrà risultare inferiore alla somma trovata in precedenza. La procedura si arresta allorquando le differenze tra le sommatorie delle distanze diventano irrilevanti ai fini concreti della ricerca.

Da precisare che, allorquando ai luoghi sono attribuiti pesi diversi da caso a caso, le coordinate del baricentro e le sommatorie delle distanze devono essere, ovviamente, ponderate, previa verifica della non attribuzione ad un singolo luogo di un peso pari o superiore al 50% del totale dei pesi. Infatti, in un caso del genere la qualità di mediana compete, per definizione, a tale luogo.

Un caso di studio

L’utilizzo meccanico ed acritico degli strumenti quantitativi, specie se associato a procedure automatiche di calcolo, può facilmente condurre non solo a interpretazioni erronee, ma anche a rappresentazioni del tutto fuorvianti. Non sfugge a questo rischio l’analisi esplorativa in generale e, in particolare, la mediana bivariata e le medie di posizione delle distanze, specie quando sono impiegate nello studio della distribuzione spaziale di un solo attributo.

Un caso concreto, la distribuzione delle ampiezze demografiche comunali in provincia di Teramo al censimento 1991, è di aiuto nell’esplicitare i rischi.

Effettuate tutte le elaborazioni, se si assume come centro della provincia di Teramo la mediana spaziale bivariata, ponderata con la popolazione residente, le circonferenze concentriche, aventi raggio pari al primo quartile, alla mediana, al terzo quartile e al valore massimo delle distanze ponderate con la popolazione residente, disegnano quattro fasce in ciascuna delle quali, a prima vista, risiede un quarto della popolazione residente nella provincia. In realtà, poiché la distribuzione spaziale dei capoluoghi comunali è discreta, le quantità non sono del tutto uguali.

(23)

Figura 15 Popolazione residente nei comuni d provincia di Teram censimento 1991 per are anulari equivalenti.

ella o al

e

Commento nel testo.

Figura 16 Dispersione rispetto a Frosinone degli attributi superficie, popolazione e valore aggiunto nei

-40 -30 -20 -10 0 10 20 30 40

-40 -30 -20 -10 0 10 20 30 40

5

0 250 500 750 1000

0 100 200 300 400 500 600 700

pop.zione

sup.Agricoltura foreste e pesca industria

Servizi destinabili alla vendita

comparti indicati in legenda (anno di riferimento 1991), rilevati nelle province italiane, Frosinone inclusa.

(24)

Le ogive delle frequenze cumulate per distanze crescenti forniscono preziose informazioni circa la concentrazione o la rarefazione di insiemi di attributi geografici negli intorni spaziali dei luoghi assunti come origine delle misure. Nel caso della provincia di Frosinone il grafico ne sottolinea il ruolo subordinato nel contesto italiano.

L’approccio esplorativo alla regressione

Il metodo più diffuso, ma non sempre soddisfacente e comunque molto laborioso, per adattare una funzione matematica ad un insieme di coppie di dati empirici, x e y, si avvale della procedura dei minimi quadrati. Essa, inoltre, deve essere applicata due volte - regressione di y rispetto ad x, regressione di x rispetto ad y - in quanto si tratta di rendere minima la sommatoria

( )

( )

y y oppure

x x

i i

i i

'

'

2

2

dove xi e yi sono i dati empirici e xi’ e yi’ sono quelli teorici.

Se la regressione è di tipo lineare, il problema implica il calcolo dei parametri delle rette

y ax b x my

' ' ' '

= +

= +n

x

x Il coefficiente angolare a si ottiene con la relazione

a =  x

i

x y

i

y x

i

  

   −

  

   −

  

 

/

2

dove indicano le medie aritmetiche dei valori x e y; la costante b, a sua volta, è espressa da

x e y

b

= −

y a

Il computo dei parametri, se i dati sono numerosi, è agevole soltanto se si dispone di una calcolatrice espressamente progettata per i calcoli statistici, o di un foglio elettronico.Ma quel che maggiormente conta è che le funzioni di regressione, calcolate con il vincolo dei minimi quadrati, rispecchiano in maniera accentuata i casi estremi.

(25)

Notevole interesse presenta l’approccio esplorativo alla regressione, essendo orientato a discriminare, molto opportunamente da un punto di vista geografico, le situazioni anomale da quelle rilevabili nella maggioranza dei casi.

y = 0.4437x + 2.7801 R2 = 0.2333

0 10 20 30

0 10 20 30

% Popolazione

% addetti nelle province

y = 0.3787x + 3.1057 R2 = 0.1262

0 10 20 30

0 10 20 30

% Popolazione

% addetti nelle regioni

Figura 17 Esempi di regressione con il metodo dei minimi quadrati - caso dei dipendenti regionali e caso dei dipendenti provinciali.

Il calcolo della retta di regressione è stato effettuato con procedura automatica tramite Microsoft Excel.

Figura 18 Esempio di regressione con il metodo dei minimi quadrati - caso dei dipendenti comunali.

Il calcolo della retta di regressione è stato effettuato con procedura automatica tramite Microsoft Excel.

In sostituzione del metodo dei minimi quadrati, fondato sulla media aritmetica e sullo scarto quadratico medio, nell’ambito dell’EDA sono disponibili diverse procedure tra le quali piuttosto diffuso risulta il cosiddetto metodo dei tre gruppi, illustrato tramite un esempio: la costruzione della retta lordo, rilevato nelle province italiane (anno di

y = 0.9226x + 0.387 R2 = 0.9434

0 10 20 30

0 10 20 30

% Popolazione

% Addetti nei comuni

di regressione del valore aggiunto globale

riferimento: 1991), in funzione del valore aggiunto pertinente al comparto industria. I dati

(26)

originali sono stati preliminarmente riespressi in parti per 1000 del totale Italia (figura 19).

La procedura esplorativa in esame - dopo l’attribuzione al comparto industria del ruolo di

è multiplo di 3 si formano i gruppi, di numerosità k, per con

variabile x, indipendente, e al valore aggiunto globale lordo quello di variabile y, dipendente - comporta l’ordinamento dei dati in senso crescente della variabile x per ottenere una nuova tabella ( tab. xxx) da suddividere in 3 gruppi egualmente numerosi che prendono, rispettivamente, il nome di gruppo di sinistra o left (acronimo: L), centrale o middle (M) e di destra o right (R).

Se il numero n dei dati non venzione, come dal prospetto:

formazione dei gruppi aso III 1

sinistra o left

dle 1

1

a con il feriti al

Poiché il numero delle pr

riassunt

caso I caso II c n=3k n= 3k + n= 3k +2

k k k+1

centrale o mid k k+ k

destra o right k k+1 k+

Figura 19 Esempio di regressione esplorativ metodo dei 3 gruppi.

I dati dell’esempio sono ri 1991.

ovince italiane è 95 (si discorre della situazione amministrativa anteriore al 1991), si ricade nel caso III.

I tre gruppi sono i dalle rispettive mediane che si indicano con i simboli delle variabili, specificati da un pedice che richiama i gruppi (L, M, R).

Effettuate le operazioni del caso si ottiene questo prospetto:

0 20 40 60 80 100 120

0 50 100 150

Valore aggiunto dell'industria in parti per mille del totale Italia valore aggiunto lordo complessivo in parti per mille del totale Italia

dati empirici regr.

esplor

(27)

x y

L’equazione della retta di regressione di y in funzione di x:

si quantifica calcolando, per primo, il coefficiente angolare b con la relazione:

corrispondente a quello della retta c mediani L e R; effettuati i calcoli etermina ponendo

R-bxR)]

da cui segue a = 1.52216 ressione è:

A proposito di a si tro sia stato individuato in

maniera

regressione deve essere sempre saggiata con l’esame dei residui e l’apprez

Procedure alternative per la regressione

I metodi alternativi più noti sono:

ta di un metodo, di tipo non esplorativo, ritenuto utile allorqua

suddivisi in 2 gruppi ugualm

1 + ...+ xn)]

dove y’ e x’ indicano le medie aritmetiche dei valori empirici y e x.

b) Metodo di Nair e Shrivastava. Si utilizzano direttamente solo i dati del primo e del terz

L = (y1 + ...ynL)/nL

La retta di regressione i punti riassuntivi:

mediana L 2.811 3.826 mediana M 6.362 6.921 mediana R 16.126 14.945

y = a +bx b = (yR-yL)/(xR-xL) he passa per i punti richiesti si ottiene b = 0.835057845.

A sua volta il parametro a si d

a = (1/3)*[(yL-bxL)+(yM-bxM)+(Y

9367, sicché la richiesta equazione di reg y = 1.522169367 +0.835057845x può rilevare come questo parame

tale da far passare la retta di regressione in un punto medio tra i 3 punti mediani riassuntivi dei gruppi.

La bontà della

zamento visuale delle distribuzioni tramite un congruo numero di grafici; inoltre, è bene confrontare i risultati con quelli conseguenti all’applicazione di metodi alternativi.

a) Metodo di Wald. Si trat

ndo si ritiene che i dati empirici possano contenere errori.

I dati, dopo essere stati ordinati rispetto alla x, sono ente numerosi e si calcolano i parametri con le relazioni:

b = [(ym+1 + ....+yn) - (y1+...ym)]/[(xm+1 +....+ xn) - ( x a =y’-bx’

o gruppo con i quali si individuano 2 punti riassuntivi L e U (da low ‘basso’ e upper ‘superiore’) tramite le medie aritmetiche:

x’L = (x1 + ... + xnL)/nL ; y

x’U = (xn-nU + ...xn)/nU; y’U = (yn-nU + ...yn)/nU

è, molto semplicemente, quella che passa per

(28)

b = (y’U-y’L)/(x’U-x’L) a = y’L -bx’L

c) Metodo di Bartlett. La suddivisione in 3 gruppi ugualmente numerosi è richiest

L (x’L;y’L) baricentro (x’; y’)

la retta di regressione è definita com r il baricentro e parallela alla retta

U-y’L)/(x’U-x’L)

I rischi della regressione

Le linee di tendenza costruite con la regressione, qualunque sia la procedura, sono m

isce gli aspetti in discussione:

immagi

Figura 20 I rischi della regressione.

’equazione di regress

o anche per questo metodo che si avvale di tre punti riassuntivi: le medie aritmetiche del primo (L) e dell’ultimo gruppo (U), e le medie aritmetiche delle due distribuzioni:

U (x’U; y’U) e quella passante pe congiungente i punti L e U; pertanto:

b = (y’

a = y’ -bx’

olto utili in geografia allorquando sono utilizzate per analisi retrospettive, ma nel contempo possono condurre a valutazioni previsionali sempre dubbie e sovente assurde allorquando sono impiegate in indagini prospettiche.

Un semplice esempio (figura 20) chiar

niamo di trovarci nel comune di Milano all’indomani del censimento della popolazione effettuato nel 1951 e di voler effettuare una previsione per il quarantennio successivo sulla base dei risultati dei censimenti effettuati tra il 1921 e il 1951.

0 500000 1000000 1500000 2000000 2500000

1921 1931 1941 1951 1961 1971 1981 1991 Anno di censimento

Popolazione

Pop effettiva Pop teorica

Commento nel trsto.

L

ione lineare, calcolata

con il programma Excel (o con

altro similare) secondo il

principio dei minimi quadrati

(y = 1.8898x+101.4) si adegua

molto bene ai dati empirici,

come documentano i modesti

residui (dato teorico-dato

empirico) e l’alto valore di R

(29)

quadro (0.9655), pertanto riassume efficacemente il trend del periodo 1921-1951.

Al contrario, la proiezione della tendenza storica verso il futuro conduce ad errori via via

Censimento Popolazione Popolazione teorica Residuo In %

1 1061522

-134364

39.63

La standardizzazione esplorativa dei dati

Un cenno anche sulla standardizzazione dei dati, una procedura che consente di trasform

m

Nel secondo caso scendono da una formula

similare

ore - quartile inferiore)

dipendentemente dal criterio seguito nella standardizzazione l’utilità della trasform

più appariscenti, tanto che al 1991 il residuo sfiora il 40 % del dato reale. In merito è illuminante questo quadro analitico1:

1921 818148 829602 11454 1.40 1931 960660 984216 23556 2.45 1936 115768 -54246 -4.86 1951 1274154 1293443 19289 1.51 1961 1582421 1448057 -8.49 1971 1732000 1602670 -129330 -7.47 1981 1604773 1757284 152511 9.50 1991 1369231 1911897 542666

are in puri numeri i valori di una tabella statistica e, conseguenza di rilievo, di confrontare tabelle diverse, riferite ad un certo insieme territoriale, anche se i valori originali sono espressi in differenti unità di misura.La standardizzazione si avvale di due distinti approcci: quello tradizionale e quello esplorativo (figura 21.Nel primo caso i valori standardizzati, zi, si ottengono tramite la relazione:

zi = (xi - media aritmetica)/sq i valori standardizzati, z’i , di

, in ragione della sostituzione della media aritmetica con la mediana e dello scarto quadratico medio con la differenza interquartilica:

z’i = (xi - mediana)/(quartile superi In

azione dei dati risulta evidente se si ricorda che tutte le tabelle standardizzate con il metodo tradizionale sono accomunate dall’avere la media aritmetica pari a zero e

1 L’esempio dovrebbe mettere in guardia verso le false profezie, propalate con corredi ingannevoli di grafici, estrapolazioni statistiche e scenari fittizi, dei circoli ambientalisti più agguerriti e amplificate dai mass-media circa l’esaurirsi a breve di risorse minerarie e alimentari . I tanti studi del Club di Roma, pubblicati nella seconda metà del Novecento offrono una casistica tanto numerosa quanto sconcertante. In realtà, per evitare gli sprechi dovrebbe bastare il buon senso.

(30)

lo scarto quadratico medio pari a 1, le tabelle standardizzate con l’approccio esplorativo hanno invece pari a zero la mediana.

Inoltre, numerose tabelle possono essere facilmente confrontate con la visualiz

igura 21 Distribuzione delle distanze dei

Figura 22 Confronto grafico tra nove

è stato costruito con gli

zazione dei valori su linee graduate, sovrapposte o affiancate.

F

capoluoghi comunali dal capoluogo provinciale in provincia di Gorizia .

-3 -2 -1 0 1 2 3 4

0 10 20 30 40

Dati originali (km)

Dati standardizzati

tradizionale esplorativa

0 10000 20000 30000 40000 50000 60000

min quartile I mediana quartile III max

distribuzioni statistiche. Indicatori originali.

Il grafico

elementi, riportati nel prospetto che segue, che si riferiscono ai 47 comuni della provincia di Teramo.

Riferimenti

Documenti correlati

Al consumo di questi servizi, che può avvenire per vie interne (terziario interno all’impresa) o per vie esterne ricorrendo al mercato, si affianca un consumo diverso di servizi,

Le qualità topologiche della rete stradale, risultate piuttosto modeste nel Corridoio Adriatico, sono state ulteriormente precisate, prima, con la presa in esame del fattore

associa nei capoluoghi regionali a dimensioni areali e demografiche ampiamente eccedenti gli standards locali, l’uno e le altre compensate, verso il basso, dai comuni limitrofi.

nel primo caso si avrebbe una unità territoriale non premiata dalle scelte localizzative, perché il suo QL risulta inferiore allo standard nazionale 100, e il contrario

La quantificazione e la qualificazione della pressione turistica e residenziale sulla montagna appenninica discendono da due insieme di elementi informativi, la ricettività

La popolazione residente in ciascun comune della Repubblica, censita al 21 ottobre 2001 e indicata nell’unita tabella, è dichiarata popolazione legale alla data anzidetta e fino

Le prove di accertamento per il conseguimento della qualifica di Operatore Amministrativo Segretariale e di Diploma di Tecnico dei Servizi d’Impresa si svolgeranno secondo il

Responsabile dei Servizi Assetto del Territorio e Patrimonio Geom.