Il campionamento
CAMPIONAMENTO
È il procedimento logico in base al
quale l’insieme delle procedure per la costruzione del campione si salda alla teoria della stima e della verifica delle ipotesi.
DISEGNO DI CAMPIONAMENTO
È l’insieme delle regole seguite per la costruzione del campione.
Struttura del campione: insieme delle liste che si utilizzano per costruire il campione. La lista comprende
l’elenco di tutte le unità che compongono l’universo.
Se la struttura del campione è semplice: una lista.
Se la struttura del campione è complessa: più liste.
La popolazione è intesa come aggregato di unità statistiche.
Le caratteristiche e le proprietà della
popolazione che si intendono studiare sono definite variabili o caratteri.
Possiamo ottenere le informazioni sulle variabili attraverso due metodi:
- Rilevazione totale o censuaria (si analizzano tutte le unità che compongono l’universo)
- Rilevazione campionaria (studio per inferenza dell’universo)
Definizioni di base
Popolazione o universo: ogni insieme finito o infinito di unità (non
necessariamente esseri umani).
La numerosità si indica con N
Campione: insieme delle n (unità campionarie) selezionate tra le N che compongono la popolazione, detta popolazione di riferimento
Statistica descrittiva: è l’insieme delle procedure utili per organizzare i dati raccolti in forma conveniente e
comunicabile
Statistica inferenziale:è l’insieme delle procedure atte a raggiungere
conclusioni più ampie rispetto ai valori raccolti, tali da poter essere messi in relazione con l’universo.
Vogliamo studiare le variabili
(proprietà) X, Y, Z, di un certo campione.
Studiarle significa conoscere alcuni valori caratteristici assunti
dall’intera popolazione (cioè la loro DISTRIBUZIONE) o le relazioni fra le variabili stesse.
Chiamiamo queste conoscenze PARAMETRI
Esempi: se l’unità è l’individuo e la variabile X è il reddito e vogliamo
conoscere il reddito medio, il parametro della popolazione che vogliamo
conoscere è la MEDIA
Se la variabile Y è il voto e noi vogliamo conoscere la proporzione di persone che hanno votato il partito A, il parametro
della popolazione che vogliamo conoscere è una PROPORZIONE
Se vogliamo studiare la relazione fra le variabili X e Z, il parametro che
vogliamo conoscere è un coefficiente di CORRELAZIONE
Se conoscessimo la popolazione totale, avremmo il valore esatto del
parametro che stiamo studiando, ma questa è un’ipotesi che non si
verifica mai (se non nei casi di censimento)
L’indagine campionaria ci fornisce una STIMA, un valore approssimato
È sempre presente un ERRORE nelle stime che calcoliamo
V = v ± e
Parametro della
popolazione (incognito)
Stima del
campione Errore di
campionamen to
Quindi, se effettuiamo una rilevazione totale sul reddito degli italiani,
possiamo dire:
“il reddito medio degli italiani è € 1.350”.
Se effettuiamo un rilevazione campionaria, diciamo:
“c’è il 95% di probabilità che il reddito medio degli italiani sia di € 1.300 ± 50”
Nel secondo caso, il ricercatore non è certo del suo calcolo, c’è un 5% di probabilità che il reddito sia al di fuori dei valori indicati.
Il ricercatore calcola un intervallo di fiducia nel quale si colloca il valore della statistica della popolazione.
La stima del campione è sempre affetta da un ERRORE DI
CAMPIONAMENTO.
Determinazione della NUMEROSITÀ OTTIMALE del campione:
È la numerosità che permette alle
stime che compiamo di raggiungere il livello di attendibilità che ci
attendiamo.
5%5% 2%2% 1%1%
N n N n N n
100 80 100 96 100 99
300 170 300 270 300 296
500 220 500 415 500 475
1.000 285 1.000 715 1.000 910
5.000 370 5.000 1.660 5.000 3.330
>
8.000
400 >
50.000 2.500 >
200.000 10.00 0
Vantaggi del campionamento:
Riduzione dei costi
Rapidità
Scopi specifici
Accuratezza
3 concetti correlati al tema del campionamento:
1. Eterogeneità: presenza di caratteristiche e qualità diverse nel campione, collegate alla variabilità degli atteggiamenti e dei comportamenti
2. Rappresentatività: si dice
rappresentativo un campione che presenta alcune caratteristiche
dell’universo in proporzioni analoghe 3. Sufficienza: misura l’attendibilità dei
dati, ovvero la probabilità che essi siano validi per l’universo entro certi termini statisticamente determinabili
Regole seguite per identificare le unità da inserire nel campione
come si seleziona ogni singolo caso?
Criterio costante: uguale per tutte le unità della lista
Criterio variabile: se ad ogni unità viene assegnata una probabilità di selezione propria
Che cosa è possibile ottenere dai dati raccolti?
- Verifica delle ipotesi di contenuto (cioè le ipotesi di rapporti tra le variabili): si
rimane nell’ambito dei risultati disponibili e tale verifica è valida soltanto per le unità di analisi considerate.
valido per campioni NON PROBABILISTICI
- Inferenze: si generalizzano i risultati dal campione all’universo
valido per campioni PROBABILISTICI
CAMPIONI PROBABILISTICI CAMPIONI PROBABILISTICI Campioni casuali o probabilistici:
sono regolati dalla legge del CASO, cioè della probabilità
Si attribuisce ad ogni unità della
popolazione una probabilità positiva di essere selezionata
Si utilizzano tecniche per la
selezione casuale del campione
La probabilità di selezionare i casi è nota
Per costruire un campione
probabilistico è indispensabile la conoscenza dell’universo; devono
essere note e disponibili le fonti (es.
lista completa della popolazione)
Le fonti possono anche definire universi “settoriali”
Si possono costruire diversi
tipi di campioni probabilistici a seconda del metodo di
estrazione
1. Campione casuale semplice/sistematico
Può essere estratto per sorteggio o per
intervallo fisso (scegliendo un nominativo ogni tot da una lista e prevedendo
eventuali sostituti), fino a raggiungere la numerosità desiderata.
Il rapporto tra la numerosità dell’universo e quella del campione dà la misura
dell’intervallo fisso da rispettare.
È opportuno su popolazioni relativamente piccole, in un’area ristretta, dove si può disporre di liste complete.
Se non abbiamo liste della popolazione N, possiamo costruire un campione
sistematico?
Sì, in alcuni casi, ad es.: exit polls, ricerche di mercato
Regola: tutte le unità devono avere la
stessa probabilità di essere incluse nel campione, quindi l’estrazione deve
coinvolgere tutta la popolazione e non solo una parte.
Es. tutti i clienti di un negozio: la
rilevazione deve durare per tutto l’orario di apertura
2. Campione stratificato
La popolazione viene suddivisa in STRATI.
Si mantiene l’estrazione casuale, ma si utilizzano una o più variabili
stratificanti, tali da controllare
meglio la rappresentatività dei casi selezionati.
Es.: per il reddito, si suddivide la
popolazione per la professione svolta
Il campione può essere proporzionale o non proporzionale.
Il campione si dice stratificato
proporzionale se riproduce la stessa composizione degli strati della
popolazione
Es. se operai, impiegati, lav.autonomi e professionisti sono rispettiv. il 35, 40,
15 e 10% della popolazione, costruiremo un campione di 1000 casi composto da 350 operai, 400 impiegati, ecc…
Invece, se sovra o sotto-
rappresentiamo alcuni strati,
otteniamo un campione stratificato non proporzionale.
In questo caso, dovremo effettuare un’operazione di ponderazione.
3. Campione a stadi
Si utilizza ad es. quando manca la lista completa delle unità della
popolazione.
Viene definito sulla base di scelte e procedure successive, che passano per più stadi o fasi.
Si individuano diverse unità (primarie, secondarie…) e si procede con
estrazioni successive
Es. ricerca sui medici di medicina generale
Unità primaria: Ausl locale cui afferisce il medico
Unità secondarie: i medici stessi
Il campionamento si effettua in due
stadi, cioè in due estrazioni successive.
Primo: si estrae un campione di unità primarie (ad es. 100 aziende Ausl) Secondo: si estrae casualmente un
numero di unità secondarie, cioè un numero di medici
4. Campioni a grappolo
Si utilizza quando la popolazione è
naturalmente suddivisa in gruppi di unità contigue
Ad es. le famiglie, le classi scolastiche, i ricoverati in ospedale, ecc.
Campione a stadi e a grappolo si possono combinare:
Es. Indagine multiscopo dell’Istat sulle famiglie (a stadi: campione di comuni;
a grappolo: campione di famiglie)
CAMPIONI NON PROBABILISTICI CAMPIONI NON PROBABILISTICI Seguono l’orientamento di chi li
costruisce; vengono costruiti senza
conoscere la probabilità di estrazione dei casi.
Viene a mancare la conoscenza dell’universo
L’inferenza non si può applicare I risultati sono validi solo per il
campione
Campione di convenienza
Si reclutano preferenzialmente unità "particolari" rispetto alla popolazione.
Un campione così ottenuto è soggetto a distorsione (bias) che, essendo appunto dovuto al metodo di selezione,
viene detto bias di selezione. Ovviamente un campione di questo tipo fornisce dati poco affidabili e pregiudica il
processo di generalizzazione dei risultati
Basato su criteri di comodità Selezione non casuale Probabili errori sistematici
Crea un campione non rappresentativo
Campione “a casaccio”: costruito in modo accidentale, senza regole
A scelta ragionata: le unità sono scelte in modo da avvicinarsi
nell’insieme alle caratteristiche della popolazione
Di unità tipiche: formati da unità tratte da gruppi omogenei per
caratteristiche predefinite
Per quote: l’intervistato sceglie le unità da intervistare, ma deve
rispettare le quote di popolazione che rappresentano determinate
caratteristiche
Disegno fattoriale
A palla di neve (a valanga)
Campionamento telefonico
Campioni probabilistic
i
Campioni non
probabilistici
Semplicità No Sì
Rapidità No Sì
Economicità No Sì
Ipotesi di
contenuto Sì Sì
Analisi
dell’universo Sì No
Rappresentat
ività Sì No
Inferenza Sì No