-EuoldurcJ alpaur el ennl
rp Brpeur BI 'lV
urJEuorduJBJ BlrsoJeuJnu uilaJ
vvn ewp or{J EruJeJJe
'vzrJvlsos ur 'a1u;tua: atrturl
Iop zuraJool I
N/+o = +o
\d = Art
:elueupurroc ' l{/èo ezuvrrv^ a.{r/
urpau nsenb rp ouuzrauisso.rdde ruordrupJ euolznglJislp pun uoc 'eleulJou
arpetu
ol lú IP eruluaurn?,ffB lo '
ezveuvtt. a ^d srpaul etue^s
euoizul0dod ulup uun
up nleJlsa ouo8uan lV
gtrsoreunu Ip rpnspJ luoldurur
rTrqrssod I nlnt eS
:enEes otuunb vrrtJaJJv er.lr
'íaFJluar alrtu[
Iap urì otlouI osn sllJp etusuodur ol?{uJou sAJnJ ssBq rs BrueJoel Ins
alPrluoc atlurll lop eruoJool
'g ll
.96,I = z/oZ e 96,I _
-',"2- Bg uJolloJ rs vfvzzrpJvpuvls
elzurJou EAJnJ
?llu Bsonos
BeJp(l %86 II'anbunq -PP
'96'I- -z/"2- eqJ Bq
IS 'EJIrJrtuuIIS e aPuJJou
auorznqrJtslp pl eqJrod 'aluarulu;ntzu i96'I
e rJed
? ;LV'T p otzrros
-sv z/"2 oJolu^ II
eqJ aJopJ^
oruurssod 'g arrpuaddu,gau EtzilodlJ
Ig er{r err1rquls gZ0'0 - í0 'SLV'y - vl opuazzrIrln'lpupÒ EIIeqBl prllos
infii.,.flcs,guúffj.'li.ii*'.,.t.#seti:'l,:iijii:Ea :l{lreCI$....tl$#,S::.itHutsúiHffi.:...iffii$.lii.gl.:ià,{eUfi.l.:1fiÌ.i;;$;xa$
,Z,Ilofrn 1*rerilp:
u, ìiuppuodsirloc,'epur:ou e*rna, uL1u
ssbu<rs:5519;1f,'d,,:srg
%L '6 6
oflnuzueuul ouj
Ir owrollor
aqr _ i? ErollB '(0.0
el oqiuBrlue EJJ
os?J olsenb
ut ,e ^ t
' -Jqns o tlenln
lr r -ePn[JUoJ ouJBrSSr
èV 9' I=
Z?
el ua r
eb '0
=E 0' 0- ('
0 EIIa arrpuadd -sod 'g -EUJJOU E^JnJ
lenb :rrJeparq p a 'urtsap
Epor B[au
-JnJ BIIE aJaJJOJTJ
nsanb EJlsnllr E.t ouos lluapuodsrr.
-lP slleP srlsrurs r
vIIe ewrrossB qlrlr
euoiznqrrlsrP sllr[
-aroPr^rPPns
rsEr r -nrsrp opuenf .;.
-?sssJeu z rP ouJr.r '<v1p -BIr{r a "7 pr
:nd {)ó-re5d ,.ilI ,rt
''
tt
t, t
..
t, ,
..
,' ..
'.
.
G.W. Bohrnstedt-D. Knoke, Statistica per le scienze sociali Fondamenti e metodi per l'analisi empirica nelle scienze sociali
88
rie possibili è uguale alla media della popolazione dalla quale i cam- pioni sono stati estratti in modo casuale. Inoltre, la vartanza dt questa nuova ipotetica distribuzione è uguale a l/l'l della varranza della popo- lazione. Non è necessario formulare alcun assunto sulla forma della distribuzione.
La distribuzione ipotetica di tutte le possibili medie di campioni di numerosità N è chiamata disribuzione campionaria delle medie cam- pionarie. Una distribuzione campion arra dr medie è format a dalle medie di tutti i campioni di numerosità N che sarebbe possibile estrar- re da una data popolazione. Poiché qualsiasi popol azione di una certa dimensione contiene miliardi e miliardi di possibili campioni differen- ti, nessuno può veramente calcolare le medie che formano una distri- buzione campionaria. Questa, cioè, rappresenta un costrutto puramen- te teorico. Tuttavia, poiché il teorema del limite centrale mette in rela- zione due parametri della popolazione (&y e a?) con la media e la va- rtanza della distribuzione campionaria, la forma di quest'ultima è com- pletamente determrnata da questi due soli parametri. Il teorema del limite cenmale garantisce che la media campionaria approssima sempre più la media della popolazione mano a mano che la dimensione del campione (N) aumenta, in quanto Ia vartanza della distribuzione cam- pionaria diminuisce all'aumentare di ^/. La deviazione standard di una distribuzione campionaria è detta errore standard. Questo equivale alla radice quadrata della vafranza della distribuzione campionaria:
( r v - z riw
Sapendo che le medie campionarie seguono una distribuzione nor- male, indipendentemente dalla popolazione dalla quale i corrisponden- ti campioni sono stati estratti, e assumendo che N sia grande, possia- mo giungere a importanti conclusioni. Supponiamo di estrarre un campione casuale di numerosità paîr a 400 osservaziom da una popo- Iazione con py = 100 e cv - 15. L'errore standard della distribuzione campionaria delle medíe, in questo caso, può essere calcolato come segue:
A y = -
r5
- U r t )! 4 0 0
Ciò che sappiamo della curva normale ci dice che il 95% di tutte le medie campionarie sono comprese in un intervallo di +1,96 errori standard intorno alla media della popolazione. Pertanto, in questo esempio lI 95% delle medie campionarie rientrano in un intervallo compreso fra 98,53 e 101,47, cioè nell'intervallo 100+(1,96)(0,75). il teorema del limite centrale ci dice che a) la media di una distribuzione
campionaria di medi, caso 100), e b) solo i rientrano nell'interva di aumen tare la dime La conseguenza di c colo, cioè:
Pertanto, con la t campionarie sarannc 100t(1 ,96)(0,47 ). Dt naria su venti non rir fiducia nel fatto che ci darà una stim a ac(
stato estratto.
Sebbene il teorer campioni di numeror lire precisamente qu Alcuni manuali sugl altri indicano una nL rienza, possiamo dir 100 casi, la clistribuzi soddisfacente una di o meno casi, al cont pionaria normale. F 100, si può assumerc applicabile, a meno di interesse abbia ur
6. Stime campionar Il teorema del lir media di un campio gola della media dell estratto. La media ca popolazione, perché che costruire un inte consente di esprimer contenga la vera me
Anche in questo to, permettendoci di di confidenza caratte
plnrrjJoJ eL'D gllllg?qo;d urrytrads
uun vP olvzzrlalleJeJ EZUaPIJUOJ
rP
oll?^Jatui un arlnil.r';ad
a1íuJou sAJnJ BI eJBSn
rP IJoPuallau'rad 'o1
- nr, ur 3 u3r^
rr 3r3'ua,
"t,-jr"5; ;n'#"J,llJ A :Jìr*^'l
; Hy
",,
eluesuoJ eJeullJdsa ry EJnSIuJ 3l InJ UI aqJ oLuBIUeIIJ ollunJelut olsanbr)'aql 'BIUIts ulsanb
E ouJolul szuePlJuoJ IP
olls^Jelul un eJInJlsoJ aL{J
-up ouIEISSod 'oluuJlls oJolsn
olos un uI alslsuor aquad
'auotzelodod
pilep Brpetu zllep alenlu_nd
stulls EUn e zt.tuuoldrueJ elPour 3'I
'o113J1se
oin* q'5uorOùer lr'ol?nb
1rr/) auorrulodod zpp EII'B EIP''
elap ulo3
-urs Eurrls aroq8rru ei
zluaéàrddu.r (..{.) alunsBr auotdlusr
un IP BIPaU
EI :orJslloJor atu?l;odur
un ePeISSod alultueJ etItuIT
IeP 3uJ3Jo31 II
ezuaplluoc !p
!lle^ralu! o llenlund elreuo;dutec
aulls '9
'a;u1o8a;Jr ollotu ptuJoJ sllzP
euolznqlJlslP eun slqge essaJalq
IP
oueuloueJ Ir olueurralrr
rp auol2ulodod ujlau er{r
ouerr, e 'apqulllddu
?rs 3l3J1uar elru{
Iep sujeJoal u at{l
?lelnsr uof aJeuInsss ond
ts 'gg1
e 0É ,r; ,r"réruor Etrsore1unu'rp'l,roìd.usr I
JecI '3lpluJou Bt;euotd
-r.uEJ Auorznqr.rtslp BUn aJelunsss
aIIJI++IP ? 'otleJluoJ
'tsrl ouauj 1e o
0l vp rlpruJoJ ruordruer
JJ.I 'elutuJou euoIZngIJlsIP eun
sluaJelslPPos
opout uI
?uilsso.rddu elPeru_efleP Blreuotdtuer JUoIZnqIJ]sIP
BI '<-ISEr 00I
ouauIls 3p olEujJol q
auorou'?? un oPusnb agr
aJIP oujstssod 'vzuaIJ
-adsa.11ap esug pllns '00I
3 t.rud urutultu qllsoJalunu
uun ouErIPuI IJlle
'tuotzi,ttesso 0É IP sJoIJaJUI allru{
un ouoJSUaEBns IIsnuEuJ IUnJIV
.apue.r6 <<eluJruetuarJrJJn_s'
"uorduJ,J q un opuunb
elueulsslra;d a;q
-r{n6 ayqrssod ?
uou 'iérd-e_
a1ueuletuelJl}Jns qllsorrurnu IP luolduer
"
olos oturrlddu eJOSSe
essod epJluer ellLu{ IeP
stuaJoef IJ euegqas
'o113Jlsa Ol?ls
a apnb vfivp auorzulodod
u11ap slPe_Lu BIIaP plBrnrrB
EuIIls ?un BJEP Ir
ruorzs^Jssso 000'I 3p ol?uj;o1
auotdvlvr îszîslanb arlt
orlsJ Ieu sIlnPIJ
aJolz pJolle ouI?ISSod
'ollúAJ3lut olsanb UI sJeJluaIJ
uou lluan ns zIJBU
-orduur,rip"*
eun olos eluoru'Alssaldruor'anbunq'
(LV'0)(:96'I)1OOt
ollp^Jetq,ileu Qolr 'e6'00I-a
80'66 z'r;
asa'rdluor ouuBJBS olJuuotduer
erpetu aflap
%g6 TI EIJEuoIdruer qllsoJauInu
s^onu 3l uoJ 'o1uuga.1
Lr'o=
- ri +
:JoIJ 'o1or
-rrd qud EJoJUP slue^IP
PJEPuels aJoJJa(l eqr
? QIJ IP Bzuan8esuoJ 3T
.ruorzv1uèsso 000.I v 00v up auordtuEJ IaP_
auoISueuJIP 3l aJslueujns IP
pJo oureruoddnS .LV'I1I J
l(86 u.t1 osa;duoJ olls^Ja1w,ilau. ousJluelJ
rro., tyqissod atieuotduur
elPeul el 411n1 IP
y"E II olos (7
e '(00I oszr
orrr.,b url auorzulodod BTIaP
?IPau PilP alzn8n a
elParu IP slJeuotduur
3uorznqrJlsrP EU
'(E/'0)(96'r)+0( II
ollB^Jalur un ur o
olsanb ul 'oluul.r:
rrorrs 96'I+
IP olì %E6 II erlnr IP rq
sruoJ otEIoJIEJ er
auorznqrrlsrP EIIaF
-odod eun Ep ruor,
un aJJEJIS3
rP OUI -zrssod 'apuur8
urs r alr -uapuodsrJJoJ
-Jou suorzngrJlsrP :pr-rzuotdrueJ au
apnrnba orsanf '1
Eun rP
PJBPUEIS eu -ruBJ euorznqrJlsrP
I3P auorsuourP PI
a.rduas eunsso.rddr IaP 3tu3roe1 'rrli II
-r.uoJ a erultp.tsanl -e^ vI e srpeur Ef ur
-313J ur etletu alPrl
-uauu;nd ollnJlso:
-I JlS rP Un B O U?
LU JC
-uaJoJJrp ruordwur sUeJ EUn rP JUOrzr -JeJtse apgrssod aq
ollPP stsurJoJ r er
-tu?r arPau a[aP r
rp ruoldrwr rp erp.
EIIOP EurroJ EIIns ( vzrrvrru: -odod EIIJp Blsanb rp u,zuvrJv^
-urur r apnb BIIEp
90
per calcolare il limite inferiore e quello confidenza dr livello a è la seguente:
superiore di un intervallo dí
y + (Z,t) (oy)
Per calcolare il limite superiore di confi denza (LSC) bisogna ag- giungere alla media campionaria il prodotto del valore critico (2,,r) moltiplicato per I'errore standard della media campionaria. Per calco- lare, invece, il limite inferiore di confidenza (LIC) bisogna sotmarre questo prodotto dalla media campionaria. Per esempio, se scegliamo un livello a - 0,05, i valori critici 2.1, che ci permettono di collocare il 2,5"A dell'area sottesa alla curva normale in ciascuna delle due code della distribuzione normale stessa sono -1,96 e 1,96. Possiamo allora aspettarci che 1I 95"/" degli intervalli compresi fra +1,96 errori stan- dard dalla media campionaria contengano la media della popolazione py. Per un intervallo di confidenza del95% il limite inferiore di con-
frdenza è pari a Y -1,96cy, mentre il limite superiore di confidenza è uguale a Y +1,96oy. Analogamente, per un intervallo di confidenza
del99"/" il limite inferiore di confidenza è pari a Y -2,58oy, mentre il limite superiore di confidenza è uguale a Y +2,58rry, Come si può vedere, minore è il livello a, più ampio è l'intervallo di confidenza.
Il simbolo Zorz,, introdotto nel pangrafo 3.4, può essere ora defini- to con maggiore precisione. Nella tavola B1 riportata nell'appendice B, Zorzdenota il valore che delimita un'area della coda destra della curva normale paîr a q/2. Se vogliamo essere <<fiduciost>, aI95"/" che un certo intervallo contenga p,y,, allota ne consegue necessariamente che a = 0,05 e cr/2 = 0,025.
Gli intervalli di confidenza devono essere interpretati con una cer- ta cautela. La tenîazione più forte è quella di concludere che un dato intervallo ha il 95% di probabilità di contenere la media della popola- zione. Di fatto, però, una volta che un dato intervallo è stato costruito, la probabilità che esso contenga la media della popolazione può essere solo pari a 1 o a zeîo, a seconda che la media della popolazione sia inclusa o meno nell'intervallo. Dunque, l'unica afferm azione che pos- siamo fare è che se costruissimo molti intervalli di confiden za dello stesso tipo, rI 95% di questi intervalli includerebbe la media della popolazione.
Laftgura 3.6 illustra il concetto di intervallo di confidenza.Lali- nea verticale rappresenta la vera media della popolazione, una costante pari - in questo esempio - a50,5. Le linee orrzzontali, invece, rappre- sentano diversi intervalli di confid enza costruiti intorno alle medie di 15 campioni casuali estratti dalla stessa popolazione. Come si può ve- dere, tutti gli intervalli tranne due (il quinto e i1 quattordicesimo dal- l'alto) includono la media della popolazione py. Le stime puntuali (cioè le medie campionarie) sono riportate accanto a ciascun interval- lo. Se potessimo cosruire gli intervalli di confidenza di tutti í possibili
t--
t l
1 8 a /f o
Fi.è...,.$1 6''.. Hù$ttratilbne. del
Fa#lé.i...i.t}ì..,..Ka3iiÉ.. .e. .. b.v.
611f6t;s5t 'thc.,, 1;991, p. t6ì
campioni casuali di nu ,lono la media della p
In generale, per ur pionarie maggiori pro sapere che oy - 15 e c numerosità pari a 100 Jel 95 "/" avrà. un limit un limite superiore ugr trra di passare a un cal rnvariati gli altri valor
1 = l'0 ' (r t
8'61 =
rTrqrssod I plnl
p -l?AJAluI UnJSETJ
r
IPnrund aulns e-
-l?P ouJrssrrPJollr -an ond rs etuoJ .
rP arPou ell8 our(
-arddzr'elanul ,r1r aluglsoJ eun ,auolt
-\ el.
.EzuePrJuor
slleP srPeur EI aq
oileP szuaPrJuor
ì ouorzzurJ -sod agr
Brs ouorzelodod z1
eJOSSe ond auorzel< 'oltnllsol olpls a
o Brpat -elodod EIIrp
sleP un aLIr eJoPn
-JOJ EUN UOJ I13]AJ(
AI UO UJ SI JE SS EJ EU 3I
"/"96 Iv èq)
<<rsorJr
EIIaP BrlsrP EPOJ I
arrpuaddeJpu vtvl
-lulJeP ?Jo eJossa o 'v,zuePryuor rP oJl
on rs d er uo 'J 3 rg (
aJlueu 'Jnge 'Z -
, rP eJor lP o11u,r vzuePrJ:uor o BZUaPrJuor
-uoJ rP OJorJoJUr
atr auolzelodod egap
e + ,I g6 Je oJ rJ ?ls -u
u
Erolls oursrssod .g6
ePor enP e[aP EUn:
[r er?rollor
IP ouo]]; oruzrlSars as
,otdtu:
JrJuJltos uu8osrq
1- .elrzuordr -oJIBJ .ra.1
('"2) ortil;r rrolel\
-38 euSoslq (fST)
E
6'0 t
Iep vzurplJuor IP olls^r?lq,1
osur olsanb u1 'Irolsn
urlu r13
IwlrE^uI B aressBd euoldrusf, un qtlsorau'nu lp g'gg n'und òprnrrrnl ;rtm IP eJo
oru?ruodd.s . v6,ls - (00]f/sI)g6'I+
e a1en?n I E
aJot.radns elIurII un
e g0,gv _(gqluer)g6'I-Ig
v ued arotreJul alIuIIT
un ?r^3
%g6IeP
vzuopr]{uor rp-ole^Jelul un 'r.ro1un
rlsanb pscl '00I 3
trud qttsoJeujnu
rp alunsu,
".totd-er un ;ad 1 S
= A srelorlsr IP
a- q --::
eqr a'redes
iit J*rt"oddn5 'Ittarlslr r.rrd
rgenralul ouof,npo'rd uotS8utu ar;uuotd
-urBJ Iuolsuaturp;nturplJuor IP oil?^Jelul
o13P- un rad 'a1u;auaE u1
.ouopnlJse 3l D nueusuJrJ r sJtusru
'auolzelodod 3ll3P slPatu 3l
ouoP
-nlf,ul ISSa Ip n
eqf, oLUuaJaAoJl - I
'p qltso-rauJnu IP l1unsuJ
tuotdruBr
# ;;
;;;;il;;;;+i'-;+i4ffi
*-rd.ru
9 = f'0 ,\
E = I'O 0'0 (
ío e=
A I.
OE t'09 =
rP ollB^Jatur un rP
e
92 ALE
95% avrà un limite inferiore pari a 5I-Ig6(Ij/^[i,00) = 49,69 e un limite superiore uguale a 5I+1,96(15/^ISOO) = 52,J1. Per un dato li- vello a, dunque, I'ampiezza dell'intervallo di confidenza diminuisce all'aumentare della numerosità N del campione.
Per costruire un intervallo di confidenza intorno a una media cam- pionaria è necessario che siano soddisfatte tre condizioni: 1) il campio- ne deve essere stato estratto casualmente; 2) lV deve essere <<sufficien- temente>> grande (almeno maggiore di l0); )) lavarranza della popola- zione (o?) deve essere nota, in modo tale che I'errore standard oy possa essere calcolato. Nella maggior parte dei casi I teno requisito ri- mane insoddisfatto. Chiaramente, se conoscessimo ol, non avremmo bisogno di anahzzare i dati di un campione. Quando l{ è sufficiente- mente grande, il problema può essere risolto; in questi casi, infatti, una buona stima dell'errore standard della distribuzione campionaria può essere ottenuta utrhzzando la devrazione standard del campione, cioè sr. Un accento circonflesso posto sopra o7 indica che si tratta di un valore stimato:
à r =
I dati riportati nella tabella 2.3 danno una stima campionaria degli anni medi di istruzione formale pari a I2,9, con una deviazione stan- dard parr a 2,98.I1 campione su cui si basano queste statistiche ha una dimensione uguale a L510 casi. Inserendo tali statistiche campionarie nella formula appena mostrata possiamo ottenere la seguente stima dell'errore standard:
= 2,98/38,86 - 0,077
Dunque, possiamo essere <<fiduciosí>> al 95"/" che i veri anni medi di istruzione formale sono compresi nell'interv allo !2,9+ (r,96) (0,077 ), cioè fra t2,,75 e 13,05 anni.
Un'alffa importante applic azione del teorema del limite centrale consiste nel determinare la numerosità campionaria necessaria per conseguire un determinato livello di accuratezza nella stima della me- dia della popolazione. In un campione sufficientemente grande, e as- sumendo una popolazione distribuita in modo normale, si ha:
ll, - *,1= r*,'l = r|trrl= r*,1 _, _,
\ l a ; | ) \ l a r l )
J i '
{^/-
Questa esPressione e i l r L - n t e p a î r a 1 - a c h -:..liat della poPolazion ' .:'poniamo di volere r - : : r , l a r d , P e r a = 0 , 0 ) . :'rìri,ì dà luogo ai seguc
Dunque, Per raggit cessario disporre di ur l'accuratezza fino a ur sono invece necessari i
7. La distribuzione t L'esempio Precede zione campionaria (cic glia di distribuzioni tt ctrndizion e. La distribr c h é \ i l . S . G o s s e t t , c L
;.roblema, firmò il su .lent>. La formula di r
Jove:
, /.'ffi - stima dell'e La somighanza fra z.r è che i primi (r) si .i ), mentre i second