• Non ci sono risultati.

View of Stimatori col metodo della regressione in caso di non rispondenti con un campionamento doppio

N/A
N/A
Protected

Academic year: 2021

Condividi "View of Stimatori col metodo della regressione in caso di non rispondenti con un campionamento doppio"

Copied!
8
0
0

Testo completo

(1)

STIMATORI C O L M E T O D O DELLA REGRESSIONE I N CASO D I N O N RISPONDENTI C O N UN CAMPIONAMENTO D O P P I O (") Angiola Pollastri

Effettuando indagini campionarie anche molto accurate, ci si imbatte spesso nel problema dei non rispondenti. Esso dipende dal tema dell'indagine, dalla struttura del questionario, dalle caratteristiche delle unità selezionate, dal modo di condurre l'indagine e da molti altri fattori.

In questa situazione il disegno campionario viene meno e le probabilità di se- lezione cambiano secondo uno schema ignoto al ricercatore. È facile da dimostrare (si veda, ad esempio, Pollastri, 1997) che la distorsione dello stimatore della media t. funzione della proporzione di non rispondenti e della differenza fra la media della variabile oggetto di studio fra i rispondenti e quella fra i non rispondenti. Pertanto la suddetta distorsione non diminuisce all'aumentare della numerositi del campione. Una via per ridurre la distorsione dello stimatore è quella di estrarre un campio- ne ridotto fra coloro che cono non rispondenti al primo tentativo e stimare uno o più parametri della popolazione tenendo conto sia dell'informazione sui rispondenti nella prima faie che sui rispondenti nella seconda fase. Spesso la procedura di rac- colta dei dati diversa nelle due fasi. Se, ad esempio, nella prima fase si è effettua- ta un'indagine postale, nella seconda fase si potrebbe optare per un'intervista diret- ta avvalendosi di intervistatori con provata esperienza.

Nel presente lavoro, dopo aver brevemente rivisto il metodo proposto nel 1946 da Hansen e IIurwitz, nel paragrafo 3 vengono analizzate le procedure per stimare la media dalle osservazioni ottenute nelle due fasi col metodo della regressione che si basa sulla conoscenza della media di una o piìl variabili ausiliarie. Relativamente a quest'ultima situazione si ricava la varianza dello stimatore. La dimostrazione vie- ne riportata in appendice.

Si mostra poi, nel paragrafo

4,

come la stima dei parametri (qualora non siano noti) del n~odello lineare che lega la variabile di cui si vuol stimare la media alle variabili ausiliarie, possa migliorare tenendo conto anche del campione effettuato ( ) Ricerca co-finanziata nell'ambito del progetto MURST ex-40% "Produzione e speri- mentazione di sistemi computer assisted per rilevare la qualità della didattica universitaria e l'inseritnento professionale dei laureati". Coordinatore Nazionale Prof Luigi Fabbris.

(2)

fra i non rispondenti della prima fase. Le stime in questione vengono poi utilizzate per stimare la media col metodo della regressione.

Data una popolazione formata da N unità statistiche, si indichi con p l la media della caratteristica

Y

che si intende stimare.

Si supponga che la popolazione sia suddivisa in due strati di cui il primo formato da N, soggetti rispondenti e il secondo formato da N, soggetti non rispondenti dir- rante la prima fase di campionamento.

Si indichi con

W',

= Nl/N e con

\V2

= N2/N rispettivamcntc l'ignota frazione dei

rispondenti e dei non rispondenti nella popolaiorie. I'rinia di effettuare il cainpio- ne non si sa se un individuo può essere identificato come rispondente o non rispon- dente e pertanto non si conosce la composizione dei duc strati.

Si supponga che 1:i media della caratteristica Y sia diversa nci due strati: si indi- chi con p , la media nello strato dei non rispondenti e p2 la inedia nello strato dei non rispondenti.

Si estragga un campione casuale semplice, indicato con s, di ampiezza n. Si sup- ponga che n, individui rispondano mentre n, non rispondano in questa fase dell'in- dagine. Si denoti con s, il gruppo di rispondenti e con s, il gruppo di non rispon- denti.

Le quantità

sono stime corrette rispettivamente di W, e di \V2.

Hansen e Hurwitz (1946) proposero di prelevare un sottocampione, indicato con si, fra i non rispondenti del primo campione di ampiezza n; = n, . k con O < k < 1 .

Assumendo che tutte le unità del sottocampione rispondano, una stima corretta per py è data da

dove è la stima della media p1 dello strato dei rispondenti basata su n, e y2 è la stima della media p2 dello strato dei non rispondenti al primo tentativo basata sulle n; osservazioni.

Si può dimostrare che (si veda Hedayat e Sinha, 1991) lo stimatore corrispon- dente

Y

ha varianza data da

o2

\V24), ( l - k ) Var(Y' ) = 2 +

,

è la varianza dove

o;

è la varianza della caratteristica nella popolazione mentre

della caratteristica fra i non rispondenti. I1 primo termine coinciderebbe con la varianza della stima se tutti rispondessero. I1 secondo termine è I'incren~ento di

(3)

.Stim~tori col metodo tlellii riyvaionc in cuso di non G.pondrnti con un cumpionumcnto doppio 139

varianza dovuto al fatto che si sono campionate fra i non rispondenti n; unità inve-

ce di n,.

Nel caso in cui il campionamento venga effettuato in blocco (Thompson, 1992) la varianza dello stirnatore è

In molte situazioni può accadere di essere in possesso di informazioni relative ad alcune variabili nella popolazione. Tenere conto di queste informazioni può miglio- rare notcvolniente I'efticienza degli stimatori ed ottenere l'effetto di compensare in qualche modo le di informazioni subite a causa dei non rispondenti.

3.1. N o t a la media della uaiiabilc audimia ed zl cocfficiente angobie

Si supponga di coriosccre la inedia p, di una variabile ausiliaria X e si supponga che sia ragiorievole assumere un legarne approssiniativ:tmente linczirc tra la variabile oggetto di stiidio Y e la variabile ausiliaria. Si ipotizzi che il coefficierite di regres- sione b d i

Y

su

X

sia moto da passate esperienze.

La stima di p , col metodo della regressionc nello strato dei rispondenti diventa

dove F1 è la stirna d i p, basata sulle n , osservazioni effettiiate sui rispondenti.

I,a stima di

,ul

col metodo della regressione

dove L, è la stima d i p, basata sulle n; osservazioni eifeltiiate fra i non rispondenti. 1.a stima della inedia d i ì' è data da

h" = x,W, + X Z I U Z

Si piib facilmente dimostrare che

~ i k ; , )

= p,

La variariza del siiddetto stimatore è data da

(4)

140 A. Pollastri

ove

oiy

è la varianza della variabile Y fra i non rispondenti.

3.2. Modello unico su tutta la popolazione note le medie di

p variabili ausiliare e il

vettore b

Si supponga di conoscere le medie ph di p variabili ausiliarie Xh (h = 1,

. . . ,

p).

Si ipotizzi che il legame fra la variabile oggetto di indagine Y e le variabili Xh sia del tipo:

Si supponga inoltre che i coefficienti bh (h = 1, ...,

p )

siano noti da passate espe-

rienze.

La stima col metodo della regressione della media dello strato dei rispondenti è

La stima col metodo della regressione della media dello strato dei non risponden- ti è

La stima della media complessiva p y è

dove

2; =

WiXkl

+

hpk2

Dopo alcuni passaggi (riportati in appendice 1) si può dimostrare che:

(5)

Stimatovi colmetodo delh vqressione in caso di non rispondenti con un campionamento doppio 141

4.

STIMA DI b NEI. CASO DI MODELLO CGUA1.F SUI DUE STRATI

Pur essendo valido il modello ("), in molte situazioni i parametri bi non sono noti e devono essere stimati dal campione. Se si hanno buone ragioni (ad es. verifi- ca su un campione doppio effettuato in una occasione precedente) per ritenere che il vettore dei parametri del modello nello strato dei rispondenti iniziali (indicato con

bl)

sia uguale a quello dello strato dei non rispondenti al primo tentativo (indi- cato con b,) allora lo stimatore BLUE usa le informazioni del primo e del secondo campione Soggette alla condizione che b l e

b2

siano uguali.

Questo stimatore (Vernizzi, 1987) è dato da

OLS

dove

La matrice di varianze e covarianze di

5pLS

è

ARLS

Var(b, ) =

o:$;'

-

o:s~'/J-'c$s~'

che è inferiore a quello di essendo

OLS

Var

(ol

) = o 1 -1

S-'

Utilizzando ora le stime contenute nel vettore

5PLS

nella (1) si può stimare pi.

5 . CONCLUSIONI

I1 presente lavoro ha messo in luce la possibilità di migliorare lo stimatore della media in caso di non rispondenti utilizzando sia informazioni assunte fra i non ri- spondenti iniziali che la conoscenza di medie di variabili correlate con la variabile oggetto di studio.

Si riesce inoltre a costruire uno stimatore più efficiente anche dei parametri del modello lineare se si tiene conto delle informazioni assunte neila prima fase e nella fase successiva in cui si va ad estrarre un campione fra chi non ha risposto al primo tentativo. Le stime dei suddetti parametri vengono poi utilizzate al fine di stimare la media col metodo della regressione.

Dipartimento Metodi Quantitatiui per L'Economia Uniuevsità degli Studi Mihno - Bicocca

(6)

142 A. Pollastri

La stima di p, coi dati ottenuti nelle dtie fasi di estrazione può essere scritta nel seguente modo:

- A -

= +

'2G2 = '13.'h, + ' > F / , 2 +

L ~ ( Y / ~ Z

-

Si/?>)

= YI, + ' 2 ( 7 / , 2 - Y / > 2 )

dove

Ylr2

sarebbe la stima della media col metodo della regressione sul campione se tutte le t ~ n i t à rispondessero al primo tentativo.

Partendo dalla relazione

-

F,?

- / L 2 =

(T,>

- l>r>)

+

(qp2

- / l 2 )

clevundo al quadrato entrarribi i n i e ~ d i r i e calcolandone il vr~lorc atteso, si ottiene

-

- / l 2 ) ? =

E(?,?

- l>,>))

+

E($)/ , - / L ) )) (2) -

esiendo il doppio prodotto - pari a O - in quanto, dato il campione r,,

1'1

v.c

E',,,

si

riduce ad m a costante C E ( Y / , > / J ~ )

-

Yli2 e pertarito - -

E I I : > 2 q > L -

k;:J

= EAL{r.[(ì::,(Yli) -

L : ' ; 2 ) / ~ 2 1 J

= E , ( O ) = O

Si consideri 151 varianzi dello stiinatorc dclla media col metodo della regresriorie

cluarido ci si avrale dclla conosceriaa delle riicdic di p variabili ausili,irie

Quindi la relazione ( 2 ) diventa:

(7)

T e n e n d o conto del [atto c h e prima d i effettuare la prima fasc di campionainento anche la proporzione di n o n rispondenti è una variabile casuale in q u a n t o n o n si sa q u a n t e unità i r a le n estratte non risponderanno, si può scrivere:

RIFERIMENTI BIBLIOC;KAFI(:I

(;. CIC(:III.I,EI.I.I, A , TTT:RZI:I., (.;.t. M O N T A N A R I (1997), llcampionamento statistico, Il Mdino, R<i- logna.

C . cecc:oN, G. nraw, ..i. SALYAN (1991), Approccio classico al canzpionamcnto da popolazioni finite: alcuni riszrltati recenti, CLIIIJP, Padova.

\yr.c. coc.~ i t c m (1 977), Sampling techniques, J. Wilcy & Sons, New York.

R . V . I.ROSINI, M. M~NTISAI<C), G . N K O I S N I (1994), Il campionamento du popolazioni finite,

IJTET, Torino.

M . I T . TIAMIIN, W . S . HI:R\XIITZ (1946), i'he problem ofnon-response in sanzple sumey, "Journal of Amcrican Statistica1 Association", 41, pp. 517-529.

,\.S. rIr.nAi-iw, U . K . S I N H A (1 99 l ) , Dcsing and infe~ence in finitc population sampling, J . Wiley &

Sons, New York.

j . ~ . I.F,SI.ES, WL. KALSIIEEK (1992), Non-sampling eimr in suiveys, J. Wiley 8( Sons, New York. A. I ~ ~ I . I . A S T R T (19971, Elementi di teoria dei campioni, CUSI-, Milano.

S . K . S . KAO (19861, Estimation par

k

quozient dans le cas d'un soas-échantillonage des Bon- réspondants, " T ' e c h n i ~ ~ ~ ~ e s d'enqucten, 12, 2, pp. 225-238.

(..I-. SAIINDAI. (1986), Estinzatio~ par la mkthode de régression cn situation de non-iésponsc,

"Techniq~ies d'enquete", 12, 2, pp. 2 15-223.

S.K. IIIOXIPSON (1992), Sampling, J. Wiley & Sons, Nem York.

A. VL:KNI~.ZI (1987), On the problem o/ cstimation with approximatiue limar restrictions,

(8)

RIASSUNTO

Stimatori col metodo della vegvessione in caso di non rispondenti con un campionamento doppio

Nel presente lavoro vengono studiate le procedure per stimare la media di una caratteri- stica in presenza d i non rispondenti in una prima fase sia avvalendosi delle informazioni desunte andando ad indagare su un piccolo campione estratto ira i non rispondenti sia te- nendo conto delle informazioni che si possono avere a disposizione relativamente a medie di variabili ausiliarie. Viene ricavata la varianza dello stimatore col metodo della regressione.

Si propone poi di stimare i parametri del modello lineare che lega la variabile oggetto di studio e le variabili ausiliarie tenendo conto delle informazioni desunte nelle due fasi di cam- pionamento.

The aim o l this paper is to study tlie procedures to cstimatc the nlean of a variablc in preseilcc of non-respondents in a first sanipling iisirig the inforniatioris of a seconde samplc among the non-respondcnts and the infortnations icgarding the rneans of one or more auxil- iaries variablcs. I t is shoum the variailce of the regression cstiniator.

Then it is proposcd thc estimation «f the paranieters of the lincar mode1 iising the infor- mation of the first and the second sample.

Riferimenti

Documenti correlati

Perseguire l’obiettivo di una progressiva decarbonizzazione dei trasporti im- pone la transizione verso una mobilità sempre più sostenibile, in cui è deter- minante favorire una

1 Se la funzione assume esattamente i valori rilevati, e quindi il suo grafico passa per tutti i punti del diagramma a dispersione, parliamo di interpolazione per punti noti

• Primo criterio di Lyapunov (metodo ridotto): L’analisi della stabilit`a di un punto di equilibrio x 0 viene ricondotta allo studio della stabilit`a del corrispondente

La parte non osservabile `e stabile (`e caratterizzata dall’autovalore λ = −1) per cui `e possi- bile procedere alla sintesi dell’osservatore di

Tra tutte quelle che si abbinano, il gruppo delle non rispondenti è relativamente più rappresentato dalle imprese più piccole e senza dipendenti (Tavola 4), come conseguenza sia

Nell’ambito di un’indagine campionaria, finalizzata alla stima di un ammontare medio od assoluto di una variabile quantitativa, il verificarsi di mancate risposte,

I 4 sieri discordanti sono risultati negativi per la ricerca del- l’antigene e positivi per HCV-RNA-PC; in particolare sono risultati tutti positivi al test PCR Realtime e

La serie dal 2006 sarebbe più omogenea, ma i dati sono davvero pochi e forse c’è un calo che può far pensare ad un ritorno verso il 2005, quindi prendiamo la prima (tutto