• Non ci sono risultati.

View of Scomposizione della dispersione per variabili statistiche ordinali

N/A
N/A
Protected

Academic year: 2021

Condividi "View of Scomposizione della dispersione per variabili statistiche ordinali"

Copied!
6
0
0

Testo completo

(1)

Si.1 ri\iir/i, anno LXII, n 1, 2002

SCOMPOSIZIONE DELLA DISPERSIONE

PER VARIABILI STATISTICIIE ORDINALI

L. Grilli, C. Rampichini

Indichiamo con Y una variabile statistica ordinale, rilevata su una popolazione u di dimensione N, con supporto S y = (yi, y2, ..., yK), frequenze relative cumulate

n,

+

n2 + . . . + n k

4,

= -

N

e frequenze relative retrocumulate

Fi

= 1 - Fk -

(k

= 1, 2,

...,

K), dove n, è la frequenza della i-ma modalità.

Leti (1983, pp. 290-297) propone la seguente misura della dispersione nel caso di variabile ordinale:

Tale indice consente d i tener conto dell'informazione sull'ordinamento delle mo- dalità, assume valore zero nel caso di minima dispersione, cioè nel caso in cui le frequenze siano tutte concentrate in un'unica modalità, ed è massimo quando la dispersione è massima, il che, per una variabile ordinale, accade quando le frequen- ze risultano concentrate nelle due modalità estreme yl e yK. I1 valore massimo di

D dipende dal numero di modalità assumibili dalla variabile (numero di elementi del supporto) e dalla numerosità della popolazione osservata N (solo nel caso in cui

N sia dispari). In particolare si ha:

1-

-> se N è pari

Per N sufficientemente grande, il valore massimo di D" può assumersi pari a

-

l

qualunque sia N. Si definisce allora il seguente indice di dispersione re- 2

(2)

112 i.. Gtdli, C. Rampichini

con d E [O, 11 , a meno dell'approssimazione per il caso di N dispari.

Ai fini della nostra analisi il fattore moltiplicativo 2 presente nella (1.1) è super- fluo e quindi dimostriamo la scomposizione relativamente all'indice D così definito:

2. SCOMPO<>IZIOiY\'T DELLA DISPERSIONF

Si supponga ora che la popolazione 151 che stiamo esaminando sia suddivisa in

I

sottopopolazioni (gruppi) t i 1 , di numerosità

N,,

definite per esempio in termini di modalità assunte da una seconda variabile X, con supporto

Sx=

{ x , , x,, ..., x ] ) , in modo tale che le sottopopolazioni considerate formino una partizione della po- polazione ti. Con riferimento a tale partizione possiamo definire

I

variabili con- dizionate

YI

G,,, con frequenze relative cumulate (funzione di ripartizione)

nIl f n,, f

...+

n~.,

F

= ,

k

= l , 2,

...,

K , dove n, è la frequenza della i-ma mo-

k l ~

N,

daliti nella j-ma ;ottopopolazione. Si osservi che è possibile esprimere la funzione di ripartizione marginale come mistura delle distribuzioni condizionate:

dove

n,

= hr1/N è la proporzione di unità statistiche appartenenti alla j-ma sottopo- polazione.

Definiamo ora con DI l'indice di dispersione (1.2) calcolato per la j-ma sottopo-

polazione:

Dimostreremo ora che, analogamente a quanto accade per la varianza di variabili quantitative, l'indice D riferito all'intera popolazione può essere scomposto nella

somma di due quote: la prima relativa alla dispersione di

Y

intema alle sottopopo-

lazioni considerate e la seconda interpretabile come una misura della dispersione tva

le sottopopolazioni.

Ricordando che le frequenze marginali

F,,

possono essere espresse in termini del- le frequenze condizionate FA.

1,

in base alla mistura (2. l ) , l'indice D diviene:

(3)

Scoitzpo&ione M a diqm'sione per variabili statistiche ordinali 113

K- l K-l 1 K-l

D

= ~ F ~ ( I - F,) =

x

z x i F I l i ( l -

4 )

=

ziii

z F k l i ( l -

4 )

L!=i k = i j=i i-1 k = l

Si osservi che il primo termine della (2.2), che indichiamo con

Dw,

è una media ponderata degli indici di dispersione calcolati nelle J sottopopolazioni, con pesi pari a iil, ed è pertanto una misura della dispersione media entro i gruppi. Resta da esa-

minare il secondo termine della (2.2), che indicheremo con il simbolo

DB:

Ricordando dalla (2.1) che, per ogni

k,

Fk rappresenta la media ( ~ o n d e r a t a ) degli

Fk ognuno dei (K - 1) addendi della (2.3) è semplicemente la varianza degli Fk il,

si ha cioè

Pertanto la (2.3) può scriversi come

dove

Z

:

!

è il quadrato dell'indice quadratico di dissomiglianza per variabili ordinali (Leti, 1983, p. 531) tra la i-ma distribuzione condizionata e la distribuzione mar- ginale.

D,

può quindi essere interpretato come una misura della dispersione tra gruppi.

Si osservi che

DB

è una quantità non negativa che assume il valore zero quando le distribuzioni condizionate sono tutte simili a quella marginale, cioè Fkll = FA: per

ogni

k

(nel caso in cui la partizione sia indotta dalla variabile concornitante X, ciò equivale all'indipendenza stocastica fra Y e

X).

Un caso particolare di distribuzioni simili si ha quando la distribuzione marginale e, di conseguenza, tutte le distribu- zioni condizionate sono degeneri (frequenze concentrate in un'unica modalità).

Viceversa,

D,

coincide con

D

quando

DI

= O per ogni 7, cioè quando tutte le di-

stribuzioni condizionate sono degeneri.

(4)

114 I,. Grilli, C. Kartipichini

con la nota scomposizione della varianza (Leti, 1783, p. 783):

dove O: e

Y,

sono, rispettivamente, la varianza e la media della i-ma sottopo- polazione, mentre Y è la media generale.

Dati i risultati precedenti, risulta sensato costruire un indice che misuri quanta parte della dispersione della variabile ordinale Y sia spiegata dalla partizione consi- derata (ovvero dall'eventuale variabile X che definisce la partizione). In analogia con il rapporto di correlazione, tale indice può essere costruito come rapporto fra la quota di dispersione tra gruppi DB e la dispersione totale D:

con 6 E [O, l].

Consideriamo, a titolo di esempio, la variabile ordinale

Y

relativa al livello di soddisfazione globale degli studenti iscritti al primo anno presso la Facoltà di Inge- gneria di Firenze, in merito ai corsi frequentati nel secondo semestre de1l'a.a. 1977/ 2000. Tale variabile può assumere le seguenti 4 modalità, corrispondenti al giudizio espresso: 1 = decisamente no; 2 =più no che si; 3 = piii si che no; 4 = decisamente si.

La tabella 1 riporta (in termini percentuali) le distribuzioni condizionate per cor- so e la distribuzione marginale della variabile Y, la proporzione di osservazioni per corso

q

(i

= 1, 2,

...,

30) e i valori degli indici di dispersione D, e D (si noti che in

K - l

questa applicazione si ha -- = 0.75, per cui tali indici assumono valori compre- 4

si tra O e 0.75).

L'indice DI è massimo per il corso n. 26 (0.534), che presenta frequenze distri- buite tra le quattro modalità, e minimo per il corso n. 28 (0.188), per il quale i giudizi sono tutti positivi e concentrati nella quarta modalità. Una misura sintetica della dispersione entro i corsi è data dall'indice Dir,, che risulta pari a 0.433, mentre

la dispersione tra i corsi si ottiene sottraendo dal valore globale D = 0.508 il valore

di Dlr7, per cui DB = 0.075. La proporzione di dispersione legata al corso, secondo

la (2.4), è dunque 6 = 0.148. Questo valore piuttosto basso significa che, nello spie- gare le differenze nei giudizi formulati sul corso, la variabilità individuale gioca un ruolo preminente rispetto a quella legata alle caratteristiche del corso.

Dipaitimento di Statistica "G. Putvnti",

(5)

Scoiizposizion~ clelh ~li~pei-iionc, per vur.i~ihili statistiche otditiuli 115 8 Y 10 11 L2 I3 14 l j L6 17 18 1.1 20 .! 1 22 2 3 7.1 2 5 2 i. , -27 28 29 jli '17 )T 0.51 1 0.465 0.42 L i1.530 0 . 4 5 1 0.518 0.'I.?'J 0.51X il 545 O 2iO 0 ?.+O O 413 O.432 O 434 0.3iJ'i il ,119 0 ,L> 0.310 o 4 V . l (1, 4%) O >A<> (i. i i i i I l I87 o 302 O i,> 0.5i4 o 17il i) li8 1). $3') O J3! 0 106

IIII 1.1~1RlEN'lI I3IULIOGlIAFICI

<, I r I r ( 1 98 i>), \tutzstlca derclzttlzu, I1 Miilirio, Ko1ogii.1

.Scr/nzposbion~~ deiellci diipc1~iom' PCI. ~ u ~ i a l i i l i s t i h t i c h e oizliizizli

In questo la\wro si iuostra come il noto principio della scomposizioiie della varianza eritro e tra griippi posskt essere esteso al ciiso cli 1111 particolare indice di dispcrsioi~e per variabili statistiche ordinali.

(6)

116 L. Grilli, C. Ram~picbini

SUMMARY

Decomposition of dispersion for ordcved uariables

In the paper we show how the well-known principle of variance decomposition within and between groups can be extended to the case of a specific dispersion index for ordina1 variables.

Riferimenti

Documenti correlati

I Modelli di Simulazione della Dispersione degli inquinanti in aria sono ormai diventati uno strumento di estrema utilità per l’analisi dello stato della qualità dell’aria e per

 se si riformulano le medesime ipotesi che, nella descrizione euleriana, hanno condotto alla soluzione base puff, anche nella Formulazione Lagrangiana

© The Author(s). European University Institute. Available Open Access on Cadmus, European University Institute Research Repository... Eventually, however, the

This research aims to validate H 3 receptor antagonists, both imidazole (ciproxifan) and non-imidazole compounds (DL76 and GSK189254) in IOP reduction, and establish whether

However, it plays an important role in patients with hyperferritinaemia by discriminating high ferritin levels due to an inflammatory state from those caused by iron overload.

L’equazione (XVIII-50) e’ relazione di dispersione per le oscillazioni elettrostatiche di plasma gia’ ricavata in un modo elementare in una della prime lezioni. Nelle ipotesi fatte

[r]

• espresso espresso espresso espresso: non può essere desunto per facta concludentia e non è sufficiente se tacito, pur non occorrendo formule sacramentali; è