arol!pa !))ore) Plsal e!^l
!s
oueqlv ouaqou
aler)os
e)Ja)tJ el Jad
e)llsllels
Fondamenti e metodi per l'analisi empirica nelle scienze sociali a.a. 2012-2013 Corso di laurea in Teorie, culture e tecniche per il Servizio sociale Università degli Studi di Macerata
rile dipendente .Jre una variabil . Ji intervalli); I '.ro, ma deve esse ::almente median - na seconda restr ::a senz'altro I'eu :cnti. Per meglio :'.zzare con la sim :ro dal modo in , :radizionale della uon la lettera Y il ,ndipendente, cht :no un generico c \ ). Quando per < ro di casi si parla, re idati nella matNata in ambíto sperimentale, ['Rr'rovR si apptica oggi anche in ricerche non sperimentali
Introduzione atla statistica per [a ricerca sociale gnificatività. La distribuzione campionaria di questo indice è asintotica- mente normale con media o e scarto quadratico
1 medio {" - 1 La statistica test in questo caso è data dal valore z, calcolato nel mod"o con- sueto e confrontaro con la tavola della normale standardi zzata. 4. Analisi detta varianza L'analisi della varianza o ANovA (acronimo inglese di ANatysis Of VArian- ce) è una tecnica statistica nata nell'ambito della ricerca ,p.ri-..rtale per valutare I'effetto di determinati fattori, o variabili indipendinti, su una va- riabile dipendente. Negli anni trenta del secolo scorso Fisher e suoi colla- boratori svilupparono la tecnica dell'analisi della varianzaall'interno di un centro di sperimentazione agraria, allo scopo di studiare I'effetto di deter- minati fattori sulla produzione agricola. L'analisi della varianza, nata in un contesto sperimentale, ha trovato ampia applicazione anche in contesti non sperimentali (molto frequenti soprat- tutto nella ricerca sociale), diventando oggi una delle pro..d.rre più ,rìilir- zate per valutare , generalmente, relazioni di influen za tÍavariabili. L'analisi della varianzaassume nomi diversi a seconda di quante sono le va- riabili dipendenti e indipendenti. In particolare si parla di, . ANovA a una via (One-Way l^Novn) quando si ha una sola variabile di- pendente e una sola variabile indipendente; . ANovA fattoriale quando si ha una sola variabile dipendenre, ma più di una variabile indipendente; o MANovA (Multiuariate ANalysis Of VAriance) quando sia le dipendenti sia le indipendenti sono piùr di una. Dato il carattere introduttivo del testo soffermeremo la nosrra attenzione unicamente sul caso più elementare di analisi della varianza, quella ad. una via. Inoltre limiteremo I'attenzione al caso degli effetti fissi, orri" la situa- zione in cui tutte le modalità dell'indipendenre vengono introdotte nell'a- nalisi (per la cosiddetta ANovA a effetti random, in cui le modalità consi- derate sono un sottoinsieme casuale di quelle possibili, cfr. Iverse n, ry76). Quando è opportuno ricorrere all'analisi della varianza? Dal punto di vista degli scopi di una ricerca, è la tecnica più idonea quando si desideri valuta- re I'esistenza di differenze tra le medie di piùr gruppi tra loro indipendenti, o, in modo del tutto equivalente, quando si voglia valutare all'interno di un solo campione la relazione di infu enzadi una variabile indipendenre su una variabile dipendente, con il vincolo che la variabile indipendenre assu- ma un numero ridotto di modalità distinte (ordinate o non). Dal punto di vista statistico l'ambito di applicazione viene drasticamente ridotto. Una prima restrizione è dovuta al tipo di variabili coinvolte: la va- 252
fABEu-A 9 Matrice r Casix1 Yu Yir Vnt Il vettore della va dimensione np (c vamente accostal pate in K gruppi segno è bilanciat indica la numer< assunto dalla vat più immediato 1 dente Y (le celle ossia da tante pc dente.
Page 1 of 23 Fondamenti e metodi per l'analisi empirica nelle scienze sociali a.a. 2012-2013
€92
'aluaP
-uadrpur elrq?rrB^ EIIep Rtrleporu el ouos aruenb ruotzelodod atuel Ep EISSo'ruolzelodod ;1 ep oue8ue,rord (arrrteu Epuores utsanb Ip ellel al),L aruaP -uadrp elrqerre^ e1 rad lte^resso lrole^ I eqr a.resuad rarod otelperurul AId?llnsrr euolzezzlueSro etsenb uoJ 'X aruapuadlpul alIqBIrE^ BIIEp otunsse erole^ 1r .rad ouorsrraJJrp rddnr8 1 'oddnrS unrserr Ip Rtlsorarunu EI ErIpuI errpadrpo,urdue^op'u.X = N()u = "'='u = 'u)otetcueilqeou8as -IP U 'osBr oJlsou lau aruof 'as e 'ìul = N eqr oPol.u ul 'lddnrS;,1 ul ared -dnr88e.r alels rsof ouos ruorze^Jasso N e-I 'oJlle,lle oun Ilelsofle eluerue^
-rssalrns (oddnr8 ourse-ì Iap Rrrsorerunu EI ErIpuI ìu a,rop) ìu auorsueulp rP rrolle^ ) ur osr^PPns olBls ? N auolsururP IP À allqBlrs^ EIIaP arolle^ II
!se)
aluapuadrpur aìrqeup^ ellep qlllepow
vnoNv.llau olo)le) !p arJlpp 6 tnrrsvr '6 'qer rp olo)lef, rp arrrluru EIIaU I]Ep I er
-vzzr.ue?to oruerssod osec otsanb ul 'olulruuyg ouSaslp Ip eyred IS ISEr Ip or -erunu ossals ol Etuaserd Ir X rlrqerre^ EIIep ErIIepoLu ruSo red opuen| '(51
"' 'l '"' 'z 't) rsBf Ip onrssalduof oJatunu II N uof e osef oflJaua8 un oru -Err{rrpur I uo3 '() '"" '1"' 'r'r) e,uppotu ) Eluasard agr 'aruapuadrpur e11anb X ererrel EI uor 'atuapuadrp elrqtlre^ EI oruelqrrpur À Braual EI uo3'(r 'dec lap r '39 'r3r) ^ x f arrrteru EIIep eleuorzlperl o11anb ? oporu ourrd ull 'rrep I lsretuasard ouossod lnr ur oporu IEp otu -e\zlu1'olseluor otsanb ur eteuopt Jlueru?crdrr elSoloqrurs EI uof eJezzrJ -ellllueJ eurrddep ounr.roddo ? nunsse 113 arapuarduoc orl3au ra4 'nua8 -urJls olloru nunsse runfle rp ouadsr: p ere8al ? pe 'v,toNv,1 oJrl?(zues BJI -uarJ rpnb r ell 'rclrlatue.red lsal r rllnt e eunruof a euolzlJlseJ Bpuofas Bufì'rsself ur otuarueddnrSSeJ un atuelparu oluatulenl -ua^J 'allo8aler egrod uof alrqerJe^ pun pe EtropuofrJ eJesse e^ep etu 'odlt lserspnb rp ere^ur eresse gnd aruapuadrpur alrqrlrr^ e1 :(rp,trarul IP BI -Bfs rp oila^rl E alrqerJe^ Bun elsso) Ererrurllr e Bnunuof elIqeIJE^ Eun aJassr eqqer^op etueruesoroSrr rlrd rzue 'apulprer eresse e^ap aruapuadlp alrqelr
rlrqerrP^ lrd o anp ns ezuarelul futu,{fu^yuf
i!l{ì!^)r^
,,^
>rrt{xrfìy)y
-E^ el :ello^urof IIIq"lr eluSruEfrlsEJP euer^ er '(uou o a -nsse aruepuadrpur elrc ns aluepuadrpur e[qeu rP ouratur,llB er?tnlB^ 'ltuepuadrpur oJol EJt l -?lnlB^ uaPrseP rs oPur Btsr^ rp orund FC iezr ' QL6r'uasla,r1'Ul'lll -rsuof qlrlEPolu el rnf -P,llau alroPoJlur ouoS -Bnlrs EI Ersso 'rssg rDa Eun pe e11enb 'ezuarJel
euorzue]tE EJtsou EI or
rruapuadrp el Ers opuer
Ip lld eru 'atuapuadrp
_rP errqBrl* ",":;1;",
-E^ al ouos aruenb lp e1'rlrqBue^ eJl ez-zrlnn r,rrd ernparord e1-te.rdos rruanba.r3 ollou
erdrue ote^oJl eq 'aptu
-raleP rP olralJe,l ar?rP'
un IP ourelur,lle ezuelr-BIIol rons a reqsr{ osJ(-E^ Eun ns 'ltuapuadrpr
rad apruarul.reds BfJefl
-ua1ry11tg s7s[1a1gV 1p
'erczzr.PJeP1
-uof oPotu Ieu otBlollB
I _ UN- OIPi
I-EfnolursB a efrPur ols
Introduzione alla statistica per [a ricerca sociale Possiamo a quesro punto elencare gli assunti dell'erqove: o i gruppi devono essere indipendenti; ' la variabile Y deve avere la stessa varianzanelle K popola zioni (assunto di omoschedasticità); o la variabile Y deve distribuirsi normalmenre nelle K popolazioni (as- sunto di normalità). Qt"l è la logica dell'eNove? Prima di rispondere a quesra domanda è ne- cessario restringere ancora ulteriormente la nostra trattazione. L',tNove è una tecnica sofisticata che permette sia di condurre dei test di verifica di ipotesi (come vedremo, essa può essere considerata una estensione del test della differenza úa due medie), sia di compiere delle stime puntuali ed in- tervallari, risultando, in questo secondo caso, del tutto "ffi^r. alla tecnica della regressione (che verrà discussa nel prossimo paragrafo). Si potrebbe infatti sviluppare I'analisi della varia-nza.o-. un particolare esempio di modello lineare; il discorso verrà qui limit",o .o-1rnque al- I'eNove come test di ipotesi statistiche (per una rrarrazione dell'eNove come modello lineare rinviamo a Miceli, zoor). Data questa delimitazione possiamo riformulare la domand.a nel seguente modo: quali ipotesi vengono sottoposte a verifica e qual è il ragionamenro che porta all'accettazione o al rifiuto di esse ? Nell'nNova le ipJt.si sono le seguenti: Ho:[t, = F, =...= FK H,: almeno due medie sono tra loro difièrenti Procediamo a sviluppare le conseguenze che derivano dal ritenere validi gli assunti e vera I'ipotesi nulla. Se valgono gli assunti, le K popola zioni,da cui Provengono i rispettivi gruppi, possono differire unicamenre per il para- metro p (si ricorda che una distribuzione normale dipende unicamente dai Parametri p e o); se I'ipotesi nulla è vera le K popolazioni coincidono per la caratteristica in esame: ogni gruppo proviene allora dalla stessa popoÎ"rio- ne in cui la caratteristica in esame (variabile dipendente) è disuibuita se- condo la funzione Nor(p,o). poiché ci troviamo di frorr,e a più gruppi ap_ Partenenti alla stessa popolazione, abbiamo due modi indipendlnti di sti- mare la varianza della popolazione. Secondo una prima modalità, calcoliamo le medie all'interno di ciascun grupPo (dette medie parziali o condizionate) e consideriamo i K valori ot- tenuti come determin azioni della variabile aleatoria media campionaria. Poiché la varianza della media campionaria è o'ln, otteniamo una stima della varianza della popolazione moltiplicando la varian za d,ella media campionaria per n. LJna seconda modalità consiste nello stimare 02 con la media delle varianze 254
lI ricorso all'nruovn è legittimo se sono soddisfatti alcuni assunti L'rnovR può essere usata sia per testare ipotesi sia per stimare parametri
(corrette) calcolate all condo modo è in re: mentre quella ottenur matico (distorsione) r caso le K medie parzi pionaria). Un modo quindi del t nulla è quello di costrr osservare quanto quesl uguaglianza. Sappiamo che la statisr si distribuisce come la tavola statistica F che a to da r del valore restir ficativo accerriamo l'ip Riassumendo, possiarr diversi livelli della vari: le medie dei gruppi, sfi bilità nella variabile di1 te - presente nella vari varianza enrro i grupp zione casuale, presente gruppi; dal confrorto r indipendente influenza Passiamo ora alle form, ricavarne il rapporto. C La presenza del pedice I del k-esimo gruppo. Cc tutti gli N casi osserv gruppi): Prima di calcolare le var le devianze.
Page 3 of 23 Fondamenti e metodi per l'analisi empirica nelle scienze sociali a.a. 2012-2013
Questo nelle scienze sociali è un problema perchè di solito le variabili non sono distribuite normalmente, anzi non sono proprio cardinali
992
'ezuEr^aP al-lns EISSO 'ltolelatunu oJol rns rsoruBruJeJJos )zueue^ al eJelorlBl Ip EuJrJd
:(rddnr8
uI auolzurlsrp orol EIIEp eluarualuapuadlpur 'lte.uasso rser p 113 rrrnr
ns elElo)lec qolo) aprauaS Erpa{u EI otuBrqflpul4 uo3 'oddnrS orulse-ì IeprsBf r rl]nl ns slropuof ElBls ? Erpetu 3l aql Efrpur 1 aclpad Iap ezuasard e1
n4'? ) = {
)I. I=r U
!'l r
uIezuer.Je^ ellsP ErPelU El
ErPeu EIIaP ezueue^
stuns Eun o{uEluello'elreuolduJef prperu E-lo uolB^) r oIuPrrePt
unJsBrf rP ouJelur.llE
-lls Ip rruepuadlpq Ip-de rddnr8 ntd ? rtuo{-as Blrngrnsrp q (aruap-olzelodod essals ?llep
el rad ouoprfuror ruorz
rep eluawefrun apuedl-ercd p rad etuaruefru
rnr ep 'ruorzelodod y a
rp rprp,r rreualrJ IEp or =14
:ourse-ì oddnr8 Iap Erpeur ?l owerqrlpul ì{ uo3 'olrodder Ir eure^Errr
e ezuer.re^ anp el eJelofler rp ououarured rf eq) elnr.uroJ elle ero oruersstd'aruapuadlp e11enb Ezuengur aruapuadrpur
alrqerre^ EI es araprfap oruerssod rzuerre^ enp allrp oluoSuo] IEp :rddnrS I oJlue e11anb uI EIS lddnr8 r. eD ezueIJE^ EIIau Ers eluaserd 'apnsef euorz-Enttng EIF alrqrngutre Eun a - (u1ql1m ezueltet) lddru8 r orlua vzt;relue^
eìensP) elorra EIIOU uou Eru '(uaamlaq ezuvytet) lddnr8 r.ertezrreuB^ BIIau aruasard - at e aluapuadrpur -uapuadlpul rlIqEIrE^ plle elrqrnqrrue pun 'eruapuedrp epqeue^ EIIau Rllllq'n:aluapuadtp -EITBA IP lluoJ anP oreredas rp qrrfqrssod e1 ouellrn5s 'lddnr8 rep arper.u al'^ ellap elrìrqerre^ Brt Ezuere]Jlp EI erersar rad Ersso 'aruapuadrpur epg?rrp^ EIIep ila^ll rsra^rp
!p lluol ano IeP orlalJe,l erellorruor rad vnoNv,lleu eql errp ourrssod 'opuarunsserx
'otuBIlnUIJ BI oueJluof osef ur 'e1pu rsetodl.l ouJEnlJ)fE o^nefg-lu8rs ? uou oluaruelsors ol eg 'ouodder epr Ep otrnlnser aroie^ Irp r Ep or-uaruelsols oilep RrI^nEfgIuBrs e1 JJEtnle^ E otueJpue er.lf C E)nsnpts BIo^El EIIE esBg ul orrdotd ? pa 'rocapau5-reqsrc Ip J 'E'^ el awof efsrnqrrlsrp rs
elleJJol ezueuet enp EJr orrodder euJof EtrnJlsof efnsnels EI aql oruerddeg'ezuerlSen8n
IP euolzrPuol EIIep BISSo 'r pp Btsofsrp rs or-rodde.l otsanb oturnb aJe^Jesso e .o Ip lruapuedrpur eluns enp el err or-rodder Ir arrnrtsol rp ollanb e elpu rsarodr,llap Rlrlrqrsneld e1 arellonuor rp alernteu ollnt Iap rpurnb oporu un'(errruord -urBf ErPeu EIIap al.leuoldrue) luolzezz\Ie)r ouos qelzrcd erpetu ) el osBl otsanb ur olustlos) ere,r ? eilnu rsarodl,l es oluetlos (auolsrorslp) orlreru-atsls aJoJJe ep euelJe uou eluns Eun q oulrd Ir uof Blnueuo elanb eJluaru'e11nu rsarodl.llap Rrrlrprre^ ellep eruapuadrpur B,rlear ul ? oporu opuof-es Ieu elnuallo Blulls e1 'oddnr8 uncserf rp ouJetur,lle etelofler (anarror)
rlrqPue^ nrd o anp ns pzueJelul al ouos rsatodl el vAoNotueruBuorSer p q pnberuan8es leu Epueruop
v^oNv,llaP suorzBllBJl-p anbunurof otetrrurl
aJEIofnJEd un euJol BZ.(o3er8ere
Bfrural BIIE augJB ollnl-ul pe lpnrund aruns el
lset IJP euorsuetse Eun I
rP Elgrre^ rP lsel raP ar
? vAoNV(-J'euorz?llBJl-eu ? Epueruop ersenb e -se) ruolzelodod ;1 ailar
orunsse) luorzelodod )
IluereJJrI
:VAON'
r
Introduzione atta statistica per [a ricerca sociale Possiamo in primo luogo calcolare una devia nza deivalori di y ignorando la distinzione nei K gruppi; chiameremo quesra quanrità devian zatotale:Devl- i S (y,"-y)'
I=l K=r Essa esprime la variabilità delle osseryazioni attorno alla loro media gene- rale . Allo stesso modo possiamo calcolare la variabilità delle medie di gruppo at- torno alla loro media, che è ancora la media generale; chiamereiro q,r.rr" quantità devianza tra Ie medie: K Devy = È, 0u-ù, Abbiamo ancora una possibilità, valutare la variabilità delle osservazioni at- torno alla loro media di gruppo; chiameremo quesra quantità devianza parziale tra le osservazioni: Devn =/ - \. (Iit.-Ir./-:i libertà (n - r) e in sr 'rrenendo lavarianza e Calcolo de[[a varianza tra i gruppi Calcolo de[[a varianza entro i gruppi
K nj, (tu - ì,
vAR\r = *,
Kl \\ / k=ri.
=t
Se l'ipotesi nulla è vera v' arianza della popolazic Ítanza tra i gruppi sarà varianza delle medie del Si dice allora che la val uno stimatore distorto < il rapporto rra lavarianz re atteso r se I'ipotesi nu Siamo così giunti alla st: la cui distribuzione cam con (K-r) e (N-K) gra Tenendo conro del livell cettata quando il valore , F.,, dove F., è il valore ot N-K gradi di libertà. È buona norma affrancar sura della súettezza della che la differenza nella ca1 vamenre influenzata dal influenza spiega una quo pacità di rievocazione. O, stiche indesiderate dei tes praticamenre sempre al ri servazioni è elevato. Per valutare la strerrezza incontrato nel cap. 3, rratn i=r che esprime la variabilità presenre in ciascun gruppo. Possiamo sfruttare queste due ultime quantit;p.r giungere a due stime in- dipendenti della varianzadella popol"rione da cui ,i suppone provengano i K gruppi. Per trasformare la Devv in una varianzacorretta non bisogna fare altro che dividerla per il numero dei gradi di libertà (pari a K-r), ott.r,.ndo in que_ sto modo una stima della varianzadella distribuzione della media campio- naria; per passare dalla varianzadella distribuzione della media campiona- ria a quella della popolazione è sufficiente moltiplicare la prima p.,. il ,u- mero di osservazioni (n). Effettuando entrambe l'. op.r"rioni otteniamo la prima stima della varianzadella popolazione che chiamiam o varianza tra i gruppi: VARB = Attraverso la devia nza parziale tra le osserva zioniperveniamo invece alla se- conda srima della varianza della popolazione. Dapprima, nel|ambito di ciascun gruppo' trasformiamo la devianza in varianz" di,rid..rdo per i gradi 256
K-r
Page 5 of 23 Fondamenti e metodi per l'analisi empirica nelle scienze sociali a.a. 2012-2013
Líz
z1
rper8 I red opuePl^lP vzueur
rp orlgrue,ilou 'eurlrddeq ' -es BIIB afe^ul otueluJ^-Ied ru
:euorzeurwJarap rp rJoleJado r13ep opueueJl 'f 'det leu oleJtuorur zE eroleJado,l arczzr.lr.ln ouerssod euorzeleJ BIIep EZZenJJls EI eJetnle^ Jed'ol?^ala e IuoIzE^Jas -so allep orerunu y opuenb EIInu rsarodr.llap ornglr p ardruas atuatuectterd a.retrod rp ouEJ leu elsrsuol eleJeua8 ur rfnsnets tsJr rep aleJaprsepul al{flts -rJall?JBf ellap Eun Jqf oluof JJeual aJllour eJJoffo 'euoIZEfo^eIJ rP qrrced rlrqpue^ -Ef EIIeu eluatsrsa RrrlrqerJe^ ellap Erulssllroprr eronb eun e8alds Bzuangur erl auorzeler pun etsanb es 'euorzeuJoJur,ilap euolzeJoqela lp odrr lvP erczuangul eluerue^rp pzzaÌlarls ellep -rrergru8rs ? ruorzeruroJur allap erero^alr rp qrrcedel BIIeu ezueralJrP EI aql prnslu e e)rlsrlels oldruasa pe arades rueJul etrodtut olod 'auoIZEIeJ BIIep ezzetlaJfs EIIaP EJns glrnrlergru8r5 -rru Eun EfnsnBls Rtr^nef5ru8rs apnrua^a Eun pB eJEfu?gJB EIuJou ?uonq E
'RueqII ry rper8 )-N
e r -) rad g euolzngurslp EIIep EIo^El EIIEP otnuello aJole^ II ? 'C anop 'Dgrp aror88"tu ? Brsso 'otngrr Ip Euoz "ileu ePBl C rP arole^ p opuenb slsller -f,t ? uou "11 'ttolrd e olessg 'D qtt,rtlecgluSrs IP olla^Il IoP oruof oPUeuaI'RuaqII rp rper8 (X-X) a (r-y) uor'rocapaug-reqsrg lp C '?'^ EIIep e11enb q erreuordruer euolznqlrtslp rnr EI
:lsel Brllslrers BIIE rtunr8 {sof oluerS'EJe^ ? EIInu rsalodl.l as r oseue eJ -ole^ eruor ug rddru8 r ortua e11anb e rddnr8 r.ert vzueue^ BI e.n otrodder p'ezuan8asuor rC[ '(auorzelodod e11ap ezueue^ EIIep olrolsrp rrotetults oun g) ocrreuetsrs arorre ep eúeJJe q rddnr8 r. en ezuelrr^ EI eql Erolle ellP IS'ouo8uarredde lddnr8 lsre^rp I Inr E luorzelodod a11ap erpau JIIJP ezuelre^
EIIap e auorzelodod ?llep Ezueue^ ellap Eruruos EI Rres lddnrS r. En ezue\t -E^ BIIap osaue arole^ II ESIBJ ? EIInu rsarodr.l es lauorzelodod eilep ezue\te^
r1p rred 'oselle aJole^ ossels ol ouu?q erutls anp JI EJa^ a ellnu lsarodl,l ag
)-N (X-")X "
I Ett EzueIJE^ OIUEITUBTT{f aq
PI orueluetto luolzt;ado a1 a -rr U rad eturrd e1 a.recqdn -euordruer EIPoru EIIaP auol -ordruec Blperu EIIaP auolzn -anb ut opueuallo '(r-;1 e t er{l onle are3 euSoslq uou ? r oueSuanord auoddns ts ln:
-uI erulls onp E e.la8unt8 ra<'oddn
z
Bzrrel^ap e,uruenb etsanb -te ruorze rasso ellaP qllllqr
-(ìl - ìrl)
c\ - /
(r - t)x
-1>t1 - )ttd1L\ - t
I-U
I=l
z(ìt - ìr1) 3
u etsanb oruaJaruerqr ÍaPrau-re oddnr8 rp arpaur alleP ( -aua8 Elpetu orol EIIE ourc
/
z(:elelol "zrrEI^aP qrlruenb
opurrou8l À IP Irole^ IaP r=r r=ì
3T
u)r='t )3-
11I r=t I=ìs-\
u)= lNuv^
:rddnr8 r oJtue ezuarJe^?l opuauauo'rpco1 eruns atsanb Ip Elpatu eun oruellorlel otln8as ur a (r - u) qrraql IP
ltteorema di scomposizione detla devianza non si applica alle varianze corrette r12 ed E2 I'informazione più sr visiva il livello più prr La variabile indipenc zione", una variabil mento; la variabile conteggio che può i calcoli, immaginiam< formato da 3 studen L'ipotesi nulla formt si alternativa è Hr: a risce che diversi livel ferenze nella rievoca numero medio di pa si afferma invece ch numero di parole rir 10.
lntroduzione alla statistica per [a ricerca sociale Nel contesto inferenziale, quando si ricorre alla formula corretta per il cal- colo delle varianze, non è più possibile parlare in modo equivalente di quo- ta di devianza della variabile dipendente riprodotta dalla variabile indipen- dente o di quota di varianza riprodotta, in quanto i gradi di libertà del nu- meratore e del numeratore sono differenti; il teorema di scomposizione della devianza, presentato nel cap. J, non può più essere esteso alle varianze corrette. Per ottenere una misura della súettezza della relazione, nei termi- ni di quota di varianza (corretta per i gradi di libertà) riprodotta possiamo ricorrere all'operatore eta quadro :
r'='-ffit
Questo operatore non è altro che la controparte inferenziale del coefficien- te di determinazioneE'; a differenza di quest'ultimo, consente di tenere conto dell'ampiezza del campione e del numero di modalità della variabile indipendente. î1' assume come valore massimo r, nel caso la variabile indi- pendente sia in grado di riprodurre perfettamente la variabile dipendente; se le variabili sono indipendenti in media il suo valore sarà un numero non troppo distante da zero. Per facilitare la comprensione dell'utilizzo dell'analisi della varranza viene di seguito riportato un esempio, ispirato a una ricerca sulla memoria real- mente condotta da Eysenck (come risulta dal suo saggio Age Dffirences in Incidental Learning, in "Developmental PsycholoW", ro, 1974, pp. %6- 4r). Eysenck era interessato alla verifica empirica del modello teorico di Craik e Lockhart, secondo il quale per la capacità di rievocare e riconoscere l'informazione è di fondamentale importanza il livello di elaborazione del- I'informazione stessa. A questo scopo suddivise casualmente un gruppo di 5o studenti in 5 gruppi, ognuno assegnato ad una condizione sperimentale differente. Data una lista di zo parole, le 5 condizioni consistevano nei se- guenti compiti: o contare il numero di lettere contenute in ogni parola; o cercare una rima per ogni parola; o cercare un aggettivo che cambiasse il senso delia parola; . creare una immagine mentale; o memorizzarele parole per rievocarle in seguito. Dopo la presentazione della lista veniva richiesto ai 5o soggetti di rievocare quante più parole possibile. Delle cinque condizioni sperimentali in una soltanto I'apprendimento era intenzionale (l'ultima); inoltre, le altre quat- tro condiziom differivano tra loro per grado di profondità di elaborazione, richiedendo il contare il numero di lettere un livello di elaborazione del- 258TABELTA 10 Matrice di c: osservazion i 7 Somme Medie N. osservaz. I calcoli per verificare Deva = (6 - Devs = 3l( Devy = [(6 - 6)' * Possiamo osservare n scomposizione: Der
Page 7 of 23 Fondamenti e metodi per l'analisi empirica nelle scienze sociali a.a. 2012-2013
692
oZ = 9 + tt - atnaCl + B,raq - rnaCl
:auolzlsodruofs
rp EuaJoet I ale^'azuerrrap a1 rad 'aqr atuaruerrJJrunu aJe^Jasso oruerssod
9 = [.(5-l) + .(5 -9) * .(S-n)] + * [.(8 -L) *.(8-6) * .(8-8)] + l.(9-l) * .(9-L) * .(9-9)l - ,nnaCl It = l.(l€'9-l) * .(f€'9-g) +.(f.f.'9-9)l€ = srraq oz =.(ff'9-l) * "'+.(fl'9-L) +.((,1'9-9) = r^tq
:rtuan8as r ouos og arergrre,r rad rlolle] I
'zPAresso'N
€€'gelpeyll
auuros
I uo rzPAJess0
aìPloI ttz
9r
LS -leP euorzeroqele IP ol'auolzeloqele IP EllPuo:-renb aJlle el .eJllour :(Bun ur rleluJrurJads rur
erefo^erJ rp nraSSos ol
lelored r
:EIOJEC
-es reu ouE^elslsuof ruc elelue{uuads auorzrpuo: rp oddnr8 un etuerulenr -laP euorzErogBla IP ollr
EJEfSOUOfIJ E JJ?fOAJIJ I
rP ofuorr oilePol.u IeP -9f.6 'dd ,f16r .or .,.i.8,
ut satua.ralpe aBV ol88es -[EeJ Euorueru BIIns EJJa auer^ ezueue^ EIIeP rsrF
UOU OJATUNU UN BJES JJOÍaruapuedrp elrqeue^ EI-Pul elrqErJB^ el osef IrLelrqeuB^ EIIOP RlrlEPoru IaJaual rp etuesuof .orur.
-uerfgJeol IeP eFrzuere]r otuerssod enopordrr (e,lr:-nurel rau .euorzelal EIIoIJZIdBIJe1' elF oselsa eJessJ
auorzlsoduJofs rp Eruero-nu lap queqrl rp rpe:8 r <-uadlpur elrqerre^ EIIEp Er-onb rp rtur[B^rnba opou-lel I red euauof, Elnturc
€r
aluapuadrpur aìrqeup^ ellap plrlepoy1
o)lJeunu ogduasa :olo)le) !p e)ulery 0t ìnltsvr
'or
'qer ellau nunsserJ ouos unuauo nellnsrJ J 'atefo^alr alored rp oJerunu FS orrelJe unrle Erl uou auorztroqela Ip odn p erlr ara^ur EruJalJE rs EIInu rselodr.l uor :rddnr8 lsrartrp reu eleoo^orJ eloJed ry orparu oJe{unu elueralJrp un ur ouollegu rs er{f ezueJeJJrp 'euorztfo^arr EIIeU ezuereJ -Jrp ouornpo;d euorzeruroJul,llep euorzerogele Ip IIIa^ll rsre^rp eqr ersrr -esw 'g rsetodr,-I 'rlueJaJJlp ouos erpeu enp ouJrule :'H e E^neuJetp rs-erodr,1 a Ér1 = 'Tl = 'rl : "H g oSoloclsd olpp ErelnturoJ BIInu rsatodr,l'nuapnts É ep oreurog
ers oddnr8 ruSo eql e € oruerlos ouers lile^I I eql oruerur8eururl 'llorpc r eJnuesedde uou ra4 'oz e o eJl uo[e^ eJerunsse gnd agc orSSaruoc un ',,eJelo.Àer.r alored rp oJarunu,, I ? aruepuadrp alrqerJe^ EI loluaru-EllEJt rp Iila^ll o Rrrlepou anburf E alerroSater alrqerJp^ Bun ',.euorz -EruroJur,ilap euorzeroqele rp odlr,, 1l rpurnb ? atuapuadlpul elrqerre^ ?-I'opuoSord 1ld o11e,rrl Ir E^rsr^
aur8erurur Eun rp euorzeerr el e rrlle IISep apregredns nld euorzeruroJul,l
rlrqPue^ rlrd o anp ns Pzuarelul
Introduzione a[[a statistica per [a ricerca sociale Passiamo ora al calcolo dei gradi di libertà: gdlT = N-r = 8 gdlB = K-t = z Bdl* = (n-r)K = 6 e a quello delle varianze: VARr = zolS = 2.5 VARs=1412=7 VARw=616=t Infine, calcoliamo il valore della statistica test: o- vARu --
vARw /
Possiamo riassumere questi risultati nella tipica tabella ANovA (tab. rr). rABEttA 11 Tabella ANovA retativa all'esempio di tab. ro Fonte di variabitità Devianze gdtVarianze F Variabi[e indipendente Devu = 14K-l = 2Devs/(K-l) = 7 VAR'/VAR* = 7 Errore casualeDev* = 6N-K = 6 Devry/(N-K) = t TotateDev, = 20N-1= 8 Con un livello di significatività di cr pari a o,ot, il valore critico di F con z e 6 gradi di libertà, ricavato dalla tav. vII inAppendice,èF,,u = 5,r4. Il valore di F osservato cade nella regione di rifiuto, è infatti maggiore del va- lore critico e quindi non accettiamo I'ipotesi H.. Questo significa che il li- vello di elaborazione influenza significativamente la rievocazione: la diffe- renza tra almeno due delle medie che abbiamo osservato (6, 8, 5) non è im- putabile alla futtuazione casuale, ma riflette una differenza sistematica, esi- stente a livello delle popolazioni da cui abbiamo estratto i campioni. Possiamo chiederci se oltre ad essere statisticamente significativa l'influen- za della variabile indipendente sia anche forte, ricorrendo alla già menzio- nata misura'r1':L'esempio appena visro teoriche. In primo luol un conteggio; ciò può malità (il rischio è tant< che il conteggio effetti, anche dell'assunto di or riabili discrete media e binomiale E(Y) = np e ripercuoteranno anche e grande si può utilizza i fiuttare
I'approssi mazi< zioni discrete (per il te, ,.ienza tra medie e variar zioni dalla normale si p Jipendenre sressa, oper -autela, non essendo inr :.izione del problema de -onsultare Ercolani, Arr r,-'r--1(; per i rischi conn :e\'. 1983, trad. it. pp. z, ',.rriabile è comunque r .immetrica possibile e s( :rica in direzione opposr . n realtà è invalso un us -.rro solo in parte. È'u.rc :rado di produrre risult .unri, ma questo non sig .inorare. È buon" nor[ :ì:r una analisi della var :ci dati, testando I'omo .:irro di Levene). Come :., ) essere considerate sirr :: -1 r'olre quella più picc :r = pplicabilità dell'eNov .::errico (per esempio si ::rendente è ordinale: cl l-:ando le modalità dell ..: .lella varranza produ< :::za tra due medie per -' iue statistiche test esis. VARy l Tlt = 1- - 1- 1-O,4 = 0,6 VAR. L,5 In base a questa statistica la relazione sembra essere forte. 260
Page 9 of 23 Fondamenti e metodi per l'analisi empirica nelle scienze sociali a.a. 2012-2013
t97
vAoNV.llP
eqlrJlaureJPd uou
aArlPuJallP ouolsrsl
llelou8t ouueA
uou rlunsse r1E
eu'Plsnqoj e)rulal
eun a v^oNV.'l 'etJo
9'o=l
-orzueru gl3 e1p opurr-uenHuI,l e,rllergruBrs'luoldtuef r oll-lsa'elDeuJJlsls ezuep.-rul ? uou (l ,g ,9; orei-OJJIP EI :auorzBfo^err'-ll II eql ergru8ls olsen-E^ Iap arorSSeru rlreJur
'IVT(S - 9'z à
9 e z uo) c rP ofnut rr( .l=C
:euorzeleJ atuen8as EI Jlsrsa lsel aqfnsnels anp el EJt osef otsanb ur 'rue;ul 'rruapuadlptl ruoldtuBc rad arpatu enp EJr ezuer -elJlp EIIep tser lep r11enb E nuale^rnba lrerpsu arnpotd ezueue^ ellep rsrl -EuE(l 'orurllos anp ouos aruapuadrpur alrgerre^ EIIep Rrrleporu a1 opuen| '(L-ryn'dd'lrpen 'o96r '.ryolelg'Ur :eleurpro ? aruapuadrp elrqeue^ e1 opuenb slll?A1?4sn"tx lp $al lB arrorrr rs oldurasa rad) orrrleru -ercd uou rsel oSopur un pE erarJorrr ollSaru ? v^oNv,llap Ellllqerrlddeu -r.1 erradsos rs eS 'pprle^ ererlnsrr ond rsrpue,l 'eloorrd ltd e11enb ar1o.l, ù lp eradns uou epuer8 1rd ezrreue^El e BuJoJ BIIeu l[ruls eleJeprsuof eJesse ou -ossod ruorzelodod a1 as '(266r) IIa^.oH arslreSSns eruo3 '(eue,ra1 rp oltrp lset un ezz\Ir)n rs eug pr e) ezue\re^ eilep qrreueSoruo,l opuetsar'lrep lap euorznqursrp EI eluewer5er8 opuruorzadsr 'ezue\rv^ EIIep rsrleu? eun rad rren8ape ouos rlep ulsou r otuenb rsrepueuop eruJou Euonq g 'ererouSr
alueruellrnbue;t ouessod rs nunln rtsanb egf Bfgru8ls uou otsanb eru 'uuns -se lpap ruorzelor^ rp Ezueserd ur er1rue Iplle^ nBtlnsrr ar.rnpord rp oper8 ur Ersso 'etsnqor Bf,ruJel Eun e v^oNv,l eqf rueJur oJa^ E 'arred ur olos olel -gnsnrs 'ecrucar ersanb rp orto^ursrp EZuErsEgqE ;;ffiJjl"#îJ5r#l
-eurrurse prs uou rddnr8 rsJe^rp r rad aqc ottntterdos e elrqrssod erurarururslld I auorznqutsrp Bun BIqqB Essa aqr orressareu anbunruo] ? elrqEUE^
eilep Etarrsrp o Enunuor Ernleu EIIep q Ip H '$-llz'dd 'lrpen 'fg6r'leu -rngrry 'gr euorzelodrueru rp araua8 orsenb e rsseuuor rrlrsrJ r rad :9t-Lo€.'dd 'z66t '{lla,,\roH izz-6u'dd 'o66r 'ntauuey4l 'rualy 'ruelorrg aJetlnsuol gnd rs eruapuadrp elrqerre^ ellep ouorzeruroJsert EIIep euelqord Iep euorzer -tBJl EUn rad) vnoNv,llJp netlnsrJ rc ouedsrJ ?nfouur opuesse uou 'elarner uof Etlopuof eJessa anbunruof a^ap ar{f auorzendo 'essats aruapuadrp alrqeue^ ellep euorzer.uroJsert Bun pB JrerJorrr qnd rs epurou ell?p ruorz-ngulsrp ellep otueruersors rp ruolSer artle pE e ezuerre^ e erperu erf ezuep -uedrp EIIE erer^ o red '(eprruer etrurl lep eturroer Ir rad; eransrp ruorz
-nqrJlsrp ellep erlrue aleruJou euorzngrJlsrp EIIE ouorzerursso;dde,1 JJ?unUS
opuarod 'elnlosse EIErs EI eqru? qrrllrnbuerl uo) rrezzr.lr.tn gnd rs apuer8 g auorduel lap ezza\dute-l as otuerlos 'azuBrre^ alFS ar{fue ouuereloncradrr rs erpau elleu ozuerelJrp rpurnb e (bdu = G.)UV1 e du = G.)A eprruourq EIIau ordruasa pe) rruapuadrpul ouos uou EZuErrB^ a Erparu alarrsrp lllqelr-e^ eileu eqf eJePJofrJ aluarlgJns e :EtDnsBPeqlsouo rP olunssE,llaP ar{fuB euorzelor^ Eun pE ereuod gnd a (aunsse aluarue^rrraJJe orSSaruor II aql Rrrleporu rp orerunu II ? arounu oruenb arorSSeru otuel e orqrsu 1r) qlpu-rou rp olunsse(l alrqlsneldrur elueruesrrep erepuer gnd gn :orSSeruor un opuesse 'enunuol e uou eruepuadrp elrqeu?^ BI o3on1 ourrd uI 'eq)rJoel ruorzBJaprsuor uoualln eunfle aJBJ Ip attarured lc 'otsr,t euadde ordruasa,l
rìrqeue^ 4rd o anp ns ezueralul t = ()-
/=MUVA/eUVA L=(r
'(rrqer) v oNvelle
ANovA e test della differenza tra [e medie
possibilmente riconduc nota. Queste tre inform azion bili, considerate nel lor< La regressione lineare ; caratteristica è quella dì a livello di scala cardin espliciti: o una o più variabili ir almeno due valori disti dummy: cfr. Hardy, ry9: ve o regressori; o una componente erf riabilità non previste ne variabile Y. La regressione è una tecl si possa parlare dell'esis tuttavia, il fatto d.i aver '' necessariamente che tra di causa-effetto si pone s in quanto discende da u denza tra variabili è stab per ogni altra tecnica in indipendenti). Fatta que I'analisi della causalità e elettiva. La regressione lineare è r sociali ed economiche: i nucleo la strutturs. rn?r, (per esempio quelle citat regressione lineare si esp Yi=ct+ o anche, in forma piùr cc
Introduzione atta statistica per ta ricerca sociate Ci si potrebbe chiedere allora perché non utilizzare il test della diffe- Íenza tra le medie anche quando i gruppi sono piìi di due, semplice- mente replicandolo più volte. La risposta è connessa alla probabilità di commettere un errore di r" tipo: se in una ricerca si ricorre piìi volte al test della diflerenza tra le medie fissando ad esempio un livello di si- gnificatività dello o,oJ, la probabilità di rifiutare I'ipotesi nulla quando essa è vera, considerando non il singolo confronto ma tutti quelli ese- guiti, non è più pari a o,ot bensì superiore; di quanro cresce, dipende dal numero di test eseguiti. Detto in termini più discorsivi: posro alfa pari a o,ot, condotti loo test, e posto che per rutti i confronti I'ipotesi nulla sia vera, dobbiamo aspettarci di rifiutare erroneamente I'ipotesi nulla in 5 casi su 1oo; in 5 casi le medie risulteranno significativamente diverse tra di loro, per puro effetto del caso. Soffermiamoci non sul numero di errori che possiamo compiere, ma sulla probabilità di compiere almeno un errore del r" tipo in un insieme di test, probabilità che indicheremo con Fw \fo*ib wise error). Questa è data dalla seguente espressione: Fw = r-(r-cr)' dove c è il numero di confronti eseguiti. Si può così notare come quesra probabilità si discosti notevolmente dal valore prescelto per ogni singolo confronto quando il numero dei gruppi cresce, e coincide con a quando c = 1 (ossia nel caso vengano confrontati soltanto due gruppi). Con l'e- NovA effettuiamo invece un solo test e la sua probabilità di errore del pri- mo tipo coincide con il livello di significatività prescelto. A questo indub- bio vantaggio statistico si contrappone uno svantaggio legato allo scopo del test. Al ricercatore molto spesso non è sufficiente sapere che tra i gruppi esistono delle differenze significative, ma preme sapere quali sono in speci- fico i gruppi che differiscono. Per ottenere questa inform azione le strade possibili sono due: . soffermare, fin dalla progettazione dell'esperimento, I'attenzione su di un numero ridotto di confronti, eseguendo pochi test di differenza tra le medie (situazione detta "dei confronti a priori"); o una volta ottenuto un test F significativo, eseguire tutti i confronti pos- sibili, ma con delle procedure statistiche, definite test post hoc in grado di controllare la probabilità dell'errore di r" tipo. j. Regressione [ineare Quando studiamo le relazioni tra variabili cardinali, oltre alla forza e alla significatività dell'associazione, siamo interessati alla sua forma, 262 dove K rappresenta il nr lo. Se la variabile indipende plice, altrimenti di regre Page 11 of 23 Fondamenti e metodi per l'analisi empirica nelle scienze sociali a.a. 2012-2013
fge
'uldnpu ereeull auorssar8er Ip Ilueulrlle 'acr1d -ruas aJeaurl auorssar8er Ip elred ts 'e1os Bun ? aruapuadlPul elIqBIrE^ EI eS'ol -lapou Ieu asnpul Iluapuadlptl IIrqEIre^ rp orerunu II Eluesardder ) a^oP
Ia + nyrg
+D=1,À.:erteduol lld EruJoJ ul 'eqrue o
t3+txyxEf + *,4'€J *,Y'€f +D=r,^.
:auorzenba atuan8as el JluBrparu arurrdsa rs aJeeurl euotssar8ar EI Brneurateur euroJ u1 '(olorrder rp erntrade uI alellr a11anb ordruasa rad) euorzeJoqelJ Ens Eun o auorsser8eJ EIIap EfnerueleuJ ?JnllnJts el oelfnu etuor ouuerl rsrleue rp aqfrufrr JJIIE arlotu 'artlout laq:luouofe Pe IIEIros azuerfs alleu etezzllltn orlotu rsrleue rp Efrufer Eun Q eJEauII auorssar8al E-I'E^rltele qlrug3e,un etsrsr auorssar8ar el eruof ar{rrurel el a RtIIEsnEl EIIep ISrlBuE,l Bn eqr ere^resso rr{rue grad gnd rs 'euorzunsrp Etsanb eueg '(rruapuedlptl rlrqeue^ r nurpuedp tflqrtrr^ Er] an8unsrp IS Inr uI Erlurrl Erlle ruSo .lad ap^ oll?rad aqe rsoc) orrltelurs ouerd un ns ErIIIqEts ? rllq?ue^ en ezueP -uadrp EI eJtuau (ofneJoal-ocr3o1 oluerueuor8er un Ep apuefslp otuenb ut llpp lap rsr'lpup 'nep lap euorzetJrdrarul,llap o)rtueuras ouetd un ns auod IS ougJa-Bsnúl IP rp aq)ru)al erlle or-rodde-r II 'elrsner orroddeJ un etsISJ rllq?IJe^ al EJI aqo elueuelJesse)eu alloru rp aspq plle etroduor uou atsrse Ezuapuadrp epr eql otefglJe^ re^€ IP ouEJ 1t 'elleunl Q arpaurì auorssarEar Ír1rqer.re.n eJt ezuepuadrp rp ouoddeJ un Ip Ezuelslse,ilaP ere1rcd essod ls
rp ollapour ìl 'eJnsnu ar{f ur e 'as a-retnp,r red alnn eJnsllels Eflufel Eun e euoISSeJBar e1'À elIqEIrB^
oilapotu Ieu alsr^Jrd uou (rrllqelr aqr 'ecneJJa elueuodtuor eun o
irrosserSal o aA
-rrecrldse rlrqelre^ ruap aqlue ouos IIIqeITE^ tlvt :(f.66r',{preg 'ryt :,{rurunp rlrqeue^ eilep aresse eqruB rpumb ouossod; rlurtslP lrole^ anP ouarule .rad ereruasso e rFuIpJ?J assa(qrue ')y ttuapuedrpul IIIqeuE^ rlld o eun o
:rtrcrldsa
runuJet rtuan8as Iep arcaull euolzunJ Jruof 'apulprer EIBfs IP oila^rl B EleJnsrru 'tr atuepuadlp alrqerJe^ Eun eJarulrdsa rp e11enb ? ErItsIJeltErBr rnr el 'rreaurl rllepotu rap erlSnueJ BIIe euenredde arueull auorssar8er eT oltlstlpls ollepou 'of,rlsrluls oilepotu un ouorslntltsof 'ossaldurof oJol Iau ateJePlsuoc 't1lq lp euolzrusag -ErJe^ ert otrodder p JJezzlrelteJef ouossod aqc IuoIzEtuJoJuI eJt arsan|'Elou
atuatuefrlrleue al?uorzunJ auorzeleJ eun PE allqllnPuollJ alueurlrgrssod
rlrqerre^ 4td o anp ns ezuaJalul 'EruJoJ Ens BIIE rl
) ezroJ EIIB aDIo (
t:ì
\ ) rp oper8 ur ror{ lsol -sod rtuo5uoJ I rltn
al Err Ezuere#rP rP
Ip ns auorzuaue.l 'c
aPEJTS el euorzsruJ( -rcads ur ouos lpnb lddnr8 r El er{r rr:
1ap odocs oyp ore8e -qnpul otsanb V'o. -rrd yap erorre Ip Rl -v.l uo3 '(rddnr8 : opuenb D uor aprr olo8uls ruSo red ol ersanb eurof eJeror
ErBp ? etsen| '(tottrp auarsur un ul od
etu 'a.rerdurof oruer Iep ouol3e ornd r;
erpew el rsef 5 ur Í<
nrettadse ou"rqqo
e 'tsat oor ntopuof apuedrp 'alsa.tl olr
-esa rilanb lttnt eu
opuenb eilnu rsato-ls IP olle^rl un or IE arlo^ lrd errocrr
Ip Rrlllq?qord e1p -acrlduas 'enp Ip -3JJIP EIIaP ]sa] Ir EIIep auorzernslu Ip arorrr,llep o11anb a -E^ IP lluoJ al rlrnr rP ollelja(l ezzrlaluls
Introduzione alla statistica per [a ricerca sociale Il grado complessivo del polinomio che compare a destra dell'equazione è pari a uno; quando è maggiore di uno, come nel caso seguente: Y, = cr * l3,Lr * l3,Li * B, \,L, * FoI .]r + ... + 11 si entra nel campo della non linearità. Per analizzare le relazioni non lineari esistono diverse tecniche, alcune delle quali sono delle semplici estensioni del modello di regressione lineare multipla; tuttavia, dato il carattere introduttivo di questo manuale, tralasceremo queste complica- zioni (per un'introduzione ai modelli non lineari cfr. Bohrnstedt, Kno- ke, ry94). Per semplicità, considereremo ora il caso della regressione lineare semplice (quindi con una sola variabile indipendente), trascurando in un primo momento la componente erratica; ciò significa assumere che la relazione tra le due variabili sia completamente deterministica, cioè che il valore del- la Y si possa predire esattamente una volta noto il valore della X e quello dei parametri dell'equazione. Scriviamo pertanto: Y,=G*f3Xt Come si vede, questa è la formula generale di una retta avente come inter- cetta il valore ct, e come coefficiente d'inclinazione il valore B. Il significato di 13 pro essere facilmente compreso con una serie di esempi: o se f3 = o,5, un aumento di una unità della variabile X comporta una variazione positiva nella variabile Y di mezza unità; . se B = 1, a una variazione unitaria della variabile indipendente corri- sponde una variazione unitaria positiva della dipendente (come nel caso della retta rappresentata nella figura r); . se B = z, a unavariazione unitaria della variabile X corrisponde un in- cremento di due unità della Y; . se p = - o,f, I'entità della variazione è in modulo la stessa di quella del primo caso considerato, ma la variazione della variabile Y è di segno oppo- sto. Il termin. B è detto anche coefficiente angolare, in quanto è proprio dal valore che esso assume che dipende I'angolo che la retta forma con I'asse delle ascisse. U" 13 = 1 per esempio corrisponde a una inclinazione di 45" rispetto all'asse delle ascisse; più in generale: B = tg e, dove 0 è l'angolo formato dalla retta con l'asse delle ascisse. Il termine o rappresenta invece il valore che Y assume quando X è uguale a o; owiamente è possibile che cr sia uguale a zero, nel qual caso avremo una retta che passa per I'origine. 264
FrcuRA r Retta di regressio del['angolo 0 Significato geometrico dei parametri del modello di regressione
Con l'equazione di regr possibile predire il valo to valore di X. Si noti , relazione matematica e che X è una causa di ' quello empirico. Quando si passa dallo r zione empirica, per qui si può aspettare che i vi la retta. Anche se arrivi colarmente complessa, spiegare un fenomeno dentale (per esempio u Sotto particolari assunt una situazione del segu E(Y') = Si dice allora che la re punti (fig. ,). FTGURA z Nube di punti e rr Le coordinate tracciat< un certo valore x', il c Page 13 of 23 Fondamenti e metodi per l'analisi empirica nelle scienze sociali a.a. 2012-2013