• Non ci sono risultati.

STATISTICA INFERENZIALE

N/A
N/A
Protected

Academic year: 2021

Condividi "STATISTICA INFERENZIALE"

Copied!
3
0
0

Testo completo

(1)

STATISTICA INFERENZIALE

Andrea Prevete, 2010

Ogni qualvolta abbiamo necessità di studiare un carattere di una popolazione ampia (per esempio l’altezza dei diciottenni italiani) ricorriamo a delle metodologie che ci consentano di estendere i risultati ottenuti con un campione limitato (per esempio i diciottenni di 10 scuole selezionate in tutt’Italia) all’intera popolazione. L’insieme delle suddette metodologie costituisce il cuore della statistica inferenziale.

Cominciamo con alcune definizioni fondamentali.

In statistica chiamiamo popolazione (o universo statistico) l’insieme di cui vogliamo studiare un carattere. Per esempio la popolazione “città del mondo” potrebbe essere studiata rispetto al carattere “produzione di rifiuti solidi per abitante”, la popolazione “diplomandi” potrebbe essere studiata rispetto al carattere “credito scolastico”, etc. In realtà quando diciamo studiare un carattere di una popolazione, per esempio l’altezza dei diciottenni italiani, non intendiamo ottenere l’elenco delle altezze di tutti i diciottenni, bensì dei valori che possano fornirci delle indicazioni significative circa la tendenza e la dispersione della distribuzione di valori.

Il principale parametro di tendenza è la nota media aritmetica:

N

x x

x x N

x

x N

N

i

i    

1 1 2 3 ..

_

dove x1, x2, …, xN sono gli N valori che assume il carattere nella popolazione in esame.

Il più importante dei parametri di dispersione è invece il cosiddetto scarto quadratico medio:

N

x x x

x x x N

x x

s N

N

i i x

_ 2 _ 2

2 _ 2

1 2

1 _

) (

..

) ( ) ) (

(

Definiamo, invece, campione di una data popolazione semplicemente un suo sottoinsieme. In particolare si parlerà di tasso di campionamento per evidenziare la consistenza del campione rispetto alla popolazione. Ad esempio un tasso del 15% sta a significare che ogni 100 elementi della popolazione 15 fanno parte del campione che la rappresenta.

Non a caso abbiamo utilizzato il termine rappresenta! Una delle fasi più delicate nella scelta del campione è la valutazione della sua rappresentatività. In altre parole perché un campione possa essere significativo, cioè possa essere utilizzato in sostituzione dell’intera popolazione, deve avere le stesse caratteristiche della popolazione da cui è stato estratto. Sarebbe illusorio, per esempio,

(2)

pensare di studiare il reddito delle famiglie italiane concentrandosi su un campione certamente non rappresentativo come potrebbe essere quello delle famiglie degli operai di una certa azienda.

Una buona tecnica generale è quella del campionamento casuale semplice. Con tale tecnica ogni elemento della popolazione ha le stesse probabilità di essere estratto per far parte del campione.

Una tecnica più veloce ed economica, ma che può condurre a risultati fuorvianti, è la selezione ragionata o non probabilistica.

In quest’ultimo caso la scelta delle unità da includere nel campione è affidata al ricercatore (o al rilevatore) ed è operata il più delle volte cercando di cogliere certi aspetti strutturali della

popolazione.

A tale tipologia di campionamento appartiene, ad esempio, il cosiddetto campionamento per quote. La popolazione viene classificata in gruppi ed il rilevatore seleziona unità appartenenti a ciascun gruppo fino al raggiungimento di prestabilite quote, cioè dimensioni, in modo da riprodurre nel campione (relativamente ai gruppi formati) la struttura della popolazione.

Un altro tipo diffuso di selezione ragionata è quella basata sulle cosiddette unità tipo, unità cioè che a giudizio di un esperto, a cui è demandata la loro selezione, possiedono caratteristiche tipiche della popolazione.

Un importante presupposto teorico delle applicazioni di statistica inferenziale è certamente il cosiddetto teorema del limite centrale. In una versione molto semplificata questo assicura che – qualunque sia una certa popolazione di cui vogliamo studiare il carattere C – purchè valgano certe condizioni molto generali su cui non ci soffermiamo, il valore aspettato del carattere C (ossia la sua media aritmetica) può essere stimato al meglio utilizzando la media aritmetica di un campione significativo estratto dalla popolazione. In più è possibile definire un errore massimo per la stima effettuata e precisamente:

EMAX=2

) 1 (

) (

1 _ 2

k k

x

k x

i i

con k uguale alla dimensione del campione Vediamo un esempio:

Siano da valutare i risultati ottenuti in matematica in una certa scuola. Si sceglie un campione significativo composto dai voti ottenuti allo scrutinio intermedio da 20 studenti distribuiti a caso nelle varie classi.

C={5, 5, 7, 8, 8, 9, 4, 4, 8, 6, 5, 5, 6, 8, 8, 9, 4, 4, 9, 8}

Valutiamo la media aritmetica del campione:

5 , 20 6 130 20

8 9 4 4 9 8 8 6 5 5 6 8 4 4 9 8 8 7 5

5 _

_                      

x

(3)

Quindi l’errore massimo:

EMAX=2

) 1 20 ( 20

) 5 , 6 8 ( ....

) 5 , 6 7 ( ) 5 , 6 5 ( ) 5 , 6 5

( 2 2 2 2

 =2

380 67 =0,8

In conclusione il teorema del limite centrale ci assicura che la media aritmetica dei voti in matematica dell’intera popolazione di studenti è la stessa di quella calcolata utilizzando il campione di 20 studenti, con un’approssimazione max di  0,8. In altre parole possiamo con ragionevole certezza stabilire che la suddetta media è compresa nell’intervallo:

5,7 7,3

-0,8 6,5 +0,8

Riferimenti

Documenti correlati

¾ Formato da elementi fra di loro indipendenti (se, ad esempio, si estrae un campione da una popolazione umana per effettuare misurazioni sull’altezza non è opportuno avere

I precedenti risultati possono essere generalizzati al caso di un vettore di parametri.. Il limite inferiore di Rao-Cramer. ´ Dato un modello statistico Y ) , in questa sezione

Studiare il segno, i limiti agli estremi del dominio di definizione e determinare il codominio di f , motivando

Studiare il segno, i limiti agli estremi del dominio di definizione e determinare il codominio di f , motivando

In pratica, essendo l’estrazione del campione del tutto casuale, la conoscenza di tali valori sintetici permette di determinare una misura della variabilità della

Altre circostanze che mantengono alta in alcune provincie la cifra dei nati illegittimi riconosciuti, sono le difficoltà che talvolta s'incontrano nel procurarsi i

Analisi

questo parametro viene definito errore standard (E.S.) ed è una misura della precisione della stima campionaria della media aritmetica della popolazione (misura dell'errore