Elementi di Psicometria (con laboratorio software 1)
06-Dare un senso alla significatività statistica (v. 1.2, 27 marzo 2021)
Germano Rossi1 germano.rossi@unimib.it
1Dipartimento di Psicologia, Università di Milano-Bicocca
a.a. 2020-21
Sommario
1 Introduzione
2 Dimensione dell’effetto
3 Meta-analisi
4 Potenza statistica
Errore di I tipo
Abbiamo già visto che l’errore di I tipo (o alfa o 𝛼) è l’errore che commetteremmo nel rifiutare l’ipotesi nulla se fosse realmente vera.
Per questo motivo si utilizzano 𝛼 molto bassi (5%, 1% e 1‰).
Tuttavia, anche all’1‰ c’è la possibilità di aver sbagliato. Una possibilità molto piccola, ma c’è!
Nel caso in cui usassimo sempre un 𝛼 = .001, diminuirebbe l’errore di rifiutare H0 (quando è vera) ma aumenterebbe l’errore di accettare H0
(quando è falsa)
A questo punto entra in gioco l’errore di II tipo.
Errore di II tipo
L’errore di II tipo (o beta o 𝛽) è quello di accettare l’ipotesi nulla quando è falsa (nella realtà).
Esattamente come per 𝛼 non sappiamo quando e se, l’ipotesi nulla è veramente falsa.
Perciò dovremmo usare un livello 𝛽 abbastanza grande; ad es.
𝛽 = .10 o anche 𝛽 = .20
Ma com’è possibile avere un 𝛽 = .20 e un 𝛼 = .05?
Perché 𝛼 e 𝛽 non sono complementari ma soltanto legate fra loro in modo complesso (e attraverso altri concetti)
Attenzione: il simbolo 𝛽 viene usato anche nella procedura statistica chiamata
“regressione”, ma ha un significato diverso (studierete la regressione al II anno)
Relazioni fra errori e ipotesi
Realtà
H0 - Vera H0 - Falsa H1 - Falsa H1 - Vera Risultato
ricerca
Accetto H0; rifiuto H1 Corretta Errore II tipo
1 − 𝛼 𝛽
Rifiuto H0; accetto H1
Errore I tipo Corretta
𝛼 1 − 𝛽
Se 𝛼 è la probabilità di rifiutare H0quando è vera, 1 − 𝛼 sarà la probabilità di accettare H0 quando è vera
Analogamente se 𝛽 è la probabilità di accettare H0quando è falsa, 1 − 𝛽 sarà la probabilità di rifiutare H0quando è falsa
1 − 𝛽 è chiamata anchepotenza di un teste corrisponde alla probabilità di rilevare una relazione (H1) veramente esistente nella realtà
Relazione fra i due errori 1
In base alla logica, se diminuisco 𝛼 (ad es. 𝛼 = .001) diminuisco la possibilità di rifiutare un’ipotesi nulla veramente vera.
Ma se aumento 𝛽 (ad es. 𝛽 = .10) aumento anche la probabilità di incappare nell’errore di I tipo.
Quando mi avvicino alla possibilità di cadere nell’errore di I tipo?
Quando il risultato ottenuto ha poca probabilità di essere “veramente vero”.
Ricordate il lancio di 10 monete? (slide 22-23 di04-Introduzione alla verifica delle ipotesi)
La probabilità di 10 facce uguali era p = 0.00196 (1.96‰) È uno dei risultati possibili!
Relazione fra i due errori 2
Lanciando 10 volte una moneta, l’evento “ottenere 10 facce uguali”
ha p = 0.00196
Se lo faccio per 100 volte e una volta capitano 10 facce uguali, non mi preoccupo
Ma se capita la prima volta, tendo a preoccuparmi Nella verifica d’ipotesi è la stessa cosa
ho un solo campione (e non 100) e devo decidere se è “probabile”
oppure “non probabile”
Relazione fra i due errori 2
In riferimento alla media del QI in bambini che hanno animali domestici (slide 28 di 04-Introduzione)
Estraggo un campione di 30 bambini
Se il loro QI fosse 150 (anziché 100) vorrebbe dire che l’influenza dovuta agli animali domestici è grande
Se il loro QI fosse 102 (anziché 100) vorrebbe dire che l’effetto dovuto agli animali domestici è piccolo o nullo
Con una influenza grande è facile decidere per H1
Con una influenza piccola è difficile decidere per H1
Oltretutto stiamo valutando “a occhio”!
Dimensione dell’effetto 1
La nostra valutazione “a occhio” consisteva nel vedere se fra la media ottenuta nel campione e quella della popolazione di riferimento ci fosse una grossa differenza o meno
In pratica stavamo cercando di stimare la dimensione dell’effetto (o ampiezza dell’effetto o effect size)
Per effetto intendiamo l’influenza che la variabile indipendente (avere animali domestici) ha sulla variabile dipendente (QI)
Ladimensione dell’effetto indicaquanto l’effetto trovato sia piccolo, medio o grande
Quanto più grande l’effetto, tanto maggiore è l’inflenza che la VI esercita sulla VD
Dimensione dell’effetto 2
Il concetto di effect size è stato proposto da Cohen per la tecnica del t di Student (v. cap. 7 e 8)
l’idea di Cohen era di trovare un forma standard che esprimesse l’ampiezza dell’effetto
Tuttavia la sua formula non è standardizzata
Successivamente la dimensione dell’effetto è stata applicata a tutte (o quasi) le analisi dei dati possibili
Le formule cambiano in base alla tecnica d’analisi
ed esistono due modalità di esprimere il valore dell’effect size
Dimensione dell’effetto: modalità
Esistono due modalità di effect size, denominate d-family e r-family La prima (d-family) è espressa in termini non standardizzati (as es.
d di Cohen e g del t-test, v. capp. 7-8)
La seconda (r-family) è espressa in termini standardizzati come una correlazione (ad es. la 𝜑 del 𝜒2, v. cap. 13)
Le correlazioni sono anche un indice dell’ampiezza dell’effetto (v.
cap. 11)
L’interpretazione dell’effect size espresso come correlazione è simile all’interpretazione della correlazione (v. cap. 11)
Dimensioni convenzionali dell’effetto: d-family
Nel caso della d-family (espressa in modo non standardizzato) si usa l’interpretazione proposta da Cohen:
Valore dell’effetto interpretazione
≃ .20 piccolo
≃ .50 medio
≃ .80 grande
> 1 gigante
N.B. Uso ≃ per indicare “pressapoco, approssimativamente”, quindi da
“poco sotto” a “poco sopra”
Dimensioni convenzionali dell’effetto: r-family
r-family indica che l’ampiezza dell’effetto è “espresso” come una correlazione (v. cap. 13), indicato con r e che oscilla fra -1 e 1 L’ampiezza dell’effetto si può anche esprimere in termini di
correlazione, usando una formula che varia da statistica a statistica (la vedremo nei vari capitoli).
L’interpretazione è pressapoco la stessa della correlazione:
Valore di r Ampiezza dell’effetto
.10 Piccola
.30 Media
.50 Grande
.70 Molto grande / Gigante
Meta-analisi
Premessa
Quasi tutte le tecniche di analisi dei dati hanno modo di calcolare la dimensione dell’effetto
Esistono formule che
permettono di trasformare un effect size non standardizzato in uno standardizzato
Questo permette di usare gli effetti come se fossero delle misurazioni
È nata la metanalisi
La metanalisi è un’analisi statistica che usa i risultati (statistici) di altre ricerche per identificare i risultati più
“stabili”
ad es. calcolando la media degli effetti di una VD (emozioni provate dagli individui) prodotto da una VI (ad es., il genere o delle fasce d’età)
Se siete interessati, trovate 2 esempi sul libro di testo
Analisi della potenza
La potenza statistica di un test è la sua capacità di rifiutare una ipotesi nulla falsa, perché noi, in genere, verifichiamo un’ipotesi nulla rispetto ad una “gamma” di ipotesi alternative (ad es. H1 : 𝜇1̸= 𝜇2) Come ricercatori, facciamo molti sforzi per organizzare e fare una ricerca che ci dia conoscenze “sicure” e “affidabili”. Ma i nostri sforzi sono vani se non riusciamo a trovare i risultati che ci aspettiamo, o meglio, se non riusciamo a falsificare con maggior sicurezza la nostra ipotesi.
Per molti anni, i ricercatori si sono focalizzati su 𝛼, cioè sul rischio di rifiutare H0 quando è vera (atteggiamento conservatore)
Di recente ha acquisito importanza anche l’errore opposto (𝛽).
Potenza statistica 1
La potenza statistica è la probabilità di ottenere un risultato significativo se l’ipotesi di ricerca è veramente vera
Riprendiamo l’esempio del campione di N = 64 che ha M = 220 e della popolazione con 𝜎 = 48; l’errore standard (della distribuzione campionaria) è 6 (slide 15 di05-Verifica ipotesi)
Se usiamo un’ipotesi monodirezionale al 5%, il punto z sarà 1.64 (corrispondente a 209.84)
Se avessimo H1 : 𝜇 = 208, l’errore standard sarebbe sempre 6; il valore 209.84 starebbe a 0.30667 dev. st. da 𝜇 = 208
Se fosse vera H1: 𝜇 = 208, il punto z=0.31 delimiterebbe un’area del 37.83%
Potenza statistica 2
La curva nera è la distribuzione campionaria dell’ipotesi nulla
(H0: 𝜇 = 200) La curva rossa è la distribuzione campionaria dell’ipotesi di ricerca (H1: 𝜇 = 208)
La linea blu delimita l’area del 5% sulla curva nera (z=0.31)
e anche l’area del 37.83% su quella rossa (questa è la potenza) La potenza è 1 − 𝛽, per cui 𝛽 = 1 − .3783 = .6217 cioè 62.17%
Potenza statistica 3
Le procedure per il calcolo della potenza statistica dipendono da l’analisi dei dati che si sta usando
il livello 𝛼 utilizzato
l’ipotesi mono o bi-direzionale la numerosità del campione l’ampiezza dell’effetto Di solito si usano dei software:
software specifici per l’analisi della potenza (ad es. G*Power) pagine web con calcolatori online (ad es. Power and Sample Size) oppure software statistici generici cone R, SPSS, SAS, Stata, ...
SPSS riporta la potenza solo in alcune analisi dei dati Ma esistono anche delle tavole
Concetti chiave della potenza 1
Ricordiamo che la potenza statistica di un test è la sua capacità di rifiutare un’ipotesi nulla falsa e che è legata al test statistico usato.
Ci sono 3 concetti importanti legati alla potenza di un test:
1 Il livello di significatività cioè 𝛼:
più è severo (vicino a 0), più è difficile rifiutare l’ipotesi nulla (anche quando è falsa).
all’aumentare di 𝛼, aumenta la potenza del test. Tuttavia non possiamo usare 𝛼 molto grandi (> .05)
un buon criterio (non troppo basso, né troppo alto) è 𝛼 = 0.05 (per ricerche esplorative possiamo usare valori leggermente maggiori)
Concetti chiave della potenza 2
2 L’ampiezza del campione cioè N
quando un campione è grande, è meno probabile fare errori di campionamento
è meno probabile trovare dati che portino a stime inaffidabili dei parametri della popolazione.
L’errore standard diminuisce all’aumentare di N.
Quindi all’aumentare di N, aumenta la potenza
3 La dimensione dell’effetto
ovvero quanto grande è il risultato che abbiamo ottenuto;
ricordiamo che l’effect size ha senso solo se H0è falsa (ma nella realtà, non nella nostra ricerca);
quindi possiamo considerarlo come una misura di quanto è falsa l’ipotesi nulla;
tanto più è grande, tanto più H0 è falsa, tanto più aumenta la potenza
Concetti chiave della potenza 3
Riassumendo:
Potenza (1 − 𝛽)
aumenta diminuisce quando 𝛼 è alto (.5, .10) basso (.1, .001)
quando N è grande piccolo
quando l’effetto è grande piccolo
𝛼, N e la dimensione dell’effetto sono legati fra loro e con la potenza;
Possiamo considerare la potenza statistica (cioè 1 − 𝛽) come un quarto concetto chiave
conoscendo il valore dei primi tre, si può calcolare il valore del quarto La formula che lega i quattro indici è abbastanza complessa
e cambia in base alle tecniche statistiche
Uso dell’analisi di potenza
L’analisi di potenza viene usata, generalmente, per due obiettivi
1 a priori (prima della ricerca) per determinare la numerosità del campione. La domanda che ci poniamo è “se vogliamo fare una ricerca che abbia una determinata potenza, una volta stabilito un determinato 𝛼 e ipotizzato una determinata dimensione dell’effetto, quale dev’essere l’ampiezza del campione?”
2 a posteriori(dopo aver raccolto i dati e fatto le analisi) per
determinare la potenza di un test. La domanda che ci poniamo è
“dal momento che la ricerca viene effettuata su un certo campione (di ampiezza N conosciuta) e usando un certo livello 𝛼, e dai risultati ottenuti possiamo calcolare la dimensione dell’effetto, ne consegue la possibilità di stimare la potenza di un test, cioè la probabilità di aver fatto la scelta giusta?”
Pausa
La parte del cap. 6, da 6.6 a 6.8 (pp. 215-223) affronta alcuni argomenti molto teorici fra cui
la significatività statistica rispetto a quella pratica
la significatività statistica rispetto alla dimensione dell’effetto l’uso della dimensione dell’effetto e della potenza negli articoli La affronterò come parte finale del corso
La parte 6.9 riguarda il modo di calcolare l’analisi della potenza (manualmente e con l’uso di tavole pre-calcolate) che non è parte del programma
Nell’affrontare le varie tecniche, vedremo l’uso di un software gratuito (G*Power) per l’analisi della potenza (sia a priori sia a posteriori)