Calcolo della Numerosità
Binomiale 5 prove
0.031
0.156
0.313 0.313
0.156
0.031
0.000 0.050 0.100 0.150 0.200 0.250 0.300 0.350
0 1 2 3 4 5
successi
probabilità
Calcolo della Numerosità
Binomiale 6 prove
0.016
0.094
0.234
0.313
0.234
0.094
0.016
0.050 0.100 0.150 0.200 0.250 0.300 0.350
probabilità
Calcolo della Numerosità
Binomiale 12 prove
0,000 0,003
0,016
0,054
0,121
0,193
0,226
0,193
0,121
0,054
0,016
0,003 0,000
0,000 0,050 0,100 0,150 0,200 0,250
0 1 2 3 4 5 6 7 8 9 10 11 12
successi
probabilità
n s -
= x
t 2
o
T-Test
test sulla media di un gruppo
1. H0: = o
² nota viene utilizzata la distribuzione normale N(o,²/n)
² ignota si utilizza
T-Test
T-Test
T-Test T-Test
confronto fra le medie di due gruppi
2. H0:
1=
21² = 2² ignote si utilizza
n ) + 1 n
( 1 s
- x
= x t
2 1
2p
2 1
x )
x - ( ) +
- x ( x SSQ
+ SSQ
2 2 2j n
1 2 1 1j n
1 2
1 2
2
1
T-Test T-Test
osservazioni correlate
3. H0:
d= 0
• Si calcolano per ogni soggetto le differenze d
n s
= d
t 2
d
Analisi della Varianza
• Quando i gruppi sono più di due non è più
possibile applicare il t test per il confronto fra ‑ due medie
• Bisogna allora ricorrere all'analisi della varianza.
Il suo presupposto fondamentale è che, se è vera l'ipotesi nulla che non vi sia differenza fra i
gruppi, la variabilità all'interno dei gruppi è uguale alla variabilità fra i gruppi
Analisi della Varianza Analisi della Varianza Analisi della Varianza Analisi della Varianza
• Si tratta quindi di un confronto di varianze che può essere saggiato con la distribuzione F
• Per ciascun soggetto i del gruppo j lo scarto dalla media generale può essere scomposto in uno
scarto dalla media di gruppo più uno scarto della media di gruppo dalla media generale
Analisi della Varianza Analisi della Varianza Analisi della Varianza Analisi della Varianza
• Vale cioè la relazione:
xij - x.. = (xij - x.j) + (x.j - x..)
• La stessa scomposizione può essere fatta anche sulle somme degli scarti al quadrato (SSQ)
SSQtot = SSQintgr + SSQtragr
Analisi della Varianza Analisi della Varianza Analisi della Varianza Analisi della Varianza
• La somma dei quadrati degli scarti totali è
calcolata sui valori di tutti i soggetti del campione rispetto la media generale
• La somma dei quadrati degli scarti tra i gruppi si ottiene attribuendo a ciascun soggetto il valore medio del suo gruppo e calcolando gli scarti dei valori così modificati dalla media generale
• La somma dei quadrati degli scarti all'interno dei gruppi si ottiene per differenza
Analisi della Varianza Analisi della Varianza
• Le relative varianze si ottengono dividendo le somme dei quadrati degli scarti per i rispettivi
gradi di libertà. La varianza all'interno dei gruppi è nota anche come varianza residua
• La variabile statistica su cui viene effettuato il test è data dal rapporto:
GRUPPI INTERNO
VARIANZA
GRUPPI TRA
VARIANZA F
Analisi della Varianza Analisi della Varianza
Gruppo 1 Gruppo 2
16 12
14 14
17 11
13 13
14 14
16 12
15 15
17 12
14 11
15 13
N Mean Std.
Deviation Std. Error Mean
Gruppo 1 10 15.1 1.370 .433
Gruppo 2 10 12.7 1.337 .423
Analisi della Varianza Analisi della Varianza
Punteggi t df Sig (2-
tailed) Mean
Difference 95% Confidence Interval of the Difference Equal
variances
assumed 3.963 18 .001 2.4 1.28 3.672
Equal variances
not assumed 3.963 17.989 .001 2.4 1.28 3.672
t-test
Sum of
Squares df Mean
Square F Sig
Beteewn
Groups 28.8 1 28.800 15.709 .001
ANOVA
Analisi della Varianza Analisi della Varianza Analisi della Varianza Analisi della Varianza
• L'interazione rappresenta l'effetto di particolari combinazioni degli effetti principali non imputabili semplicemente alla somma degli effetti componenti.
• Essa può anche essere vista come una mancanza di parallelismo tra un fattore e l 'altro.
EFFETTI PRINCIPALI
EINTERAZIONE
Trattati M Controlli M Trattati F Controlli F
Trattati Controlli
DISEGNO SPERIMENTALE
Definisce il modo di dividere in gruppi il campione sperimentale
CRITERI DI CLASSIFICAZIONE
Definiscono i modi di raggruppamento e quindi gli effetti studiati
Trattati Controlli M
31 39
35 41
34 43
32 38
36 40
F
36 41
37 36
38 35
33 41
38 38
EFFETTI PRINCIPALI
EFFETTI PRINCIPALI
E EINTERAZIONE INTERAZIONE
Parametri descrittivi
EFFETTI PRINCIPALI
EFFETTI PRINCIPALI
E EINTERAZIONE INTERAZIONE
Mean Std.
deviation n
Trattati M 33.6 2.074 5
F 36.4 2.074 5
Controlli M 40.2 1.924 5
F 38.2 2.775 5
Totale 37.1 3.227 20
EFFETTI PRINCIPALI
EFFETTI PRINCIPALI
E EINTERAZIONE INTERAZIONE
Source SS df MS F Sig
constant 27528.2 1 27528.2 5505.64 .000
trattamento 88.2 1 88.2 17.64 .001
sesso .8 1 .8 .16 .694
Tratt x Sesso 28.8 1 28.8 5.76 .029
Within factor 80.0 16 5.0
Analisi della Varianza
Analisi della Varianza Analisi della Varianza Analisi della Varianza Analisi della Varianza
Calcolo dell’interazione
) y y
( )
y y
( y
= principali
effetti
M trattati
M
trattati
trattati trattati M
M -effetti principali y
= scarto
Valori Sperimentali
trattati controlli media
Maschi 33.6 40.2 36.9
Femmine 36.4 38.2 37.3
media 35.0 39.2 37.1
EFFETTI PRINCIPALI
EFFETTI PRINCIPALI
E EINTERAZIONE INTERAZIONE
Interazione
30 35 40 45
Trattati Controlli
M F
Analisi della Regressione Lineare
• Permette di analizzare la relazione fra due o più variabili quantitative gaussiane utilizzando un modello di riferimento costruito a partire dai dati sperimentali.
• Può essere Lineare semplice o Lineare Multipla
Analisi della Regressione Lineare Analisi della Regressione Lineare
Nel caso in cui la variabile indipendente sia una sola il modello utilizzato è di tipo lineare semplice e l’equazione che lo determina e l’equazione della retta:
y=a+bx
La determinazione dei parametri a e b è fatta con il metodo dei minimi quadrati
Analisi della Regressione Lineare Analisi della Regressione Lineare
s
= s b
x
b - y
=
a 2
x
xy
1 - n
) y y -
( ) x x -
( s =
i i n
xy 1
Dove:
Analisi della Regressione Lineare
Analisi della Regressione Lineare
• Coefficiente di Determinazione R
2SSQ modello R2 =
SSQ totale
• Coefficiente di Correlazione
• Parametro F
varianza modello F =
varianza residua
Analisi della Regressione Lineare Analisi della Regressione Lineare
s s
= s r
y x
xy
Analisi della Regressione Lineare Analisi della Regressione Lineare
44 46 48 50 52 54 56 58 60 62
25 26 27 28 29 30
Media Esami
Voto Maturità
SV
SH DE
Modello Lineare Generale (GLM)
dove yijk rappresenta la variabile dipendente misurata e e e rappresentano i parametri relativi agli effetti e all’interazione che influenzano la variabile dipendente. Il coefficiente b rappresenta la relazione fra x e y. Il parametro e rappresenta il termine errore dovuto alla variazione casuale dei dati.
y
ijk= +
i+
j+
ij+ b·x + e
ijk• Di ogni parametro viene data la significatività
• I parametri vengono calcolati eliminando gli effetti di tutti gli altri parametri
• Si possono calcolare contrasti multipli ortogonali
Modello Lineare Generale Modello Lineare Generale
(GLM)
(GLM)
Permette:
• l’uso di fattori qualitativi e quantitativi
• il confronto fra prove ripetute, di dati correlati
• l’uso di più variabili dipendenti (analisi multivariata)
Modello Lineare Generale Modello Lineare Generale
(GLM)
(GLM)
Modelli Non Parametrici
Accuracy and certainty are competitors:
The surer we want to be, the less we must demand.
Basic Ideas of Scientific Sampling di Alan Stuart, Griffin, London, 1968
Modelli Non Parametrici Modelli Non Parametrici
Una serie di dati
- binomiale - chi quadrato
- runs (numero di valori consecutivi superiori o inferiori a un valore soglia)
Due serie di dati correlati
- McNemar (proporzioni)
- Sign (distribuzione dei valori) - Wilcoxon
Più serie di dati correlati
- Friedman
Due serie di dati indipendenti
- Mann-Whitney
- Kolmogorov-Smirnov
Più serie di dati indipendenti
Modelli Non Parametrici Modelli Non Parametrici
Misure di associazione
Tavole di contingenza: associazione fra due variabili qualitative
Modelli Log-Lineari: associazione fra più variabili qualitative
Modelli Log-Lineari Gerarchici: associazione fra più variabili qualitative
Modelli Regressivi
Regressione Logistica: modello generale in cui è possibile esprimere una variabile qualitativa (dicotomica) come funzione di una o più
variabili sia qualitative che quantitative.
Tavole di Contingenza
Permettono di analizzare la relazione fra due variabili di tipo qualitativo.
L’ipotesi nulla (assenza di relazioni)
corrisponderà alla proporzionalità fra le
diverse condizioni delle variabili.
Un esempio…
Tavole di Contingenza Tavole di Contingenza
Soggetti Risultato negativo Risultato positivo Totale
Gruppo A 41 216 257
Gruppo B 64 180 244
Totale 105 396 501
Tavole di Contingenza Tavole di Contingenza
Per confrontare le frequenze sperimentali con l’ipotesi nulla si crea una corrispondente
tabella per l’H
0costituita dalle frequenze teoriche che rappresentano la condizione di proporzionalità.
In formule…
Tavole di Contingenza Tavole di Contingenza
Calcolo dei valori teorici Ti nell’ipotesi di
proporzionalità (Ho)
Valutazione della differenza fra i valori teorici e i valori sperimentali applicando la formula del
2T E ) T -
= (
i
2 i i i
2
totale tot tot
Ti = riga colonna
Tavole di Contingenza Tavole di Contingenza
Calcolo i valori teorici T nell’ipotesi di proporzionalità (Ho vera)
totale tot tot
Ti = riga colonna
Risultato negativo Risultato positivo Totale Gruppo A 41 53.9 216 203.1 257 Gruppo B 64 51.1 180 192.9 244
Totale 105 396 501
Valuto l’entità della differenza fra i valori
teorici e i valori sperimentali applicando la formula del
2.
2= (41-53.9)2 /53.9 + (64-51.1)2 /51.1 + (216-203.1)2 /203.1+
+ (180-192.9)2 /192.9 = 7.978
Tavole di Contingenza Tavole di Contingenza
T E ) T -
= (
i
2 i i i
2
• Valuto la significatività: se p<0.05 posso concludere che c’è differenza nei due gruppi rispetto ai risultati
positivi/negativi.
• Confronto il valore di 2 ottenuto con il limite di
falsificazione per (r 1)‑ (c 1) gradi di libertà che in questo ‑ caso corrisponde a 2.05,1=3.84 < 7.978
Posso Respingere H0
Tavole di Contingenza
Tavole di Contingenza
Test del Segno
• Utilizzato per confrontare due serie di dati correlati, ad esempio fra due prove misurate con punteggi che vanno da 1 a 10.
• Il confronto si effettua sulle differenze fra seconda e prima prova, applicando la
Distribuzione Binomiale per valutare la
diversità fra miglioramenti e peggioramenti.
Un esempio...
Soggetti Prova1 Prova2 Differenza
1 6 8 2
2 5 6 1
3 5 8 3
4 6 5 -1
5 4 7 3
6 7 7 =
7 6 8 2
8 7 6 -1
9 6 9 3
10 5 4 -1
11 4 7 3
12 6 6 =
Escludendo le
situazioni di assenza di differenze,
confronto i 7
miglioramenti sui 12 casi.
Attraverso il Test del Segno la differenza non è significativa in
Se avessimo applicato il t-test per prove ripetute...
t= 2.382 che, con 11 gradi di libertà, fornisce una significatività di 0.036. Il valore del
parametro t viene calcolato dalla media delle differenze e dalla loro deviazione standard.
Mean N Std. Deviation Std. Error Mean
PROVA1 5.58 12 0.996 0.288
PROVA2 6.75 12 1.422 0.411
PROVA2 - PROVA1 1.17 12 1.697 0.490
Una soluzione alternativa: il Test dei Ranghi di Wilcoxon
• Si basa sulla classificazione dei soggetti in base
alla differenza ottenuta nelle due prove e utilizza il numero d’ordine (rango) dei soggetti come nuova variabile da sottoporre a verifica statistica.
• Attraverso un’opportuna elaborazione di tale variabile si ottiene un parametro con una
distribuzione prossima ad una distribuzione
normale standard che viene utilizzata per eseguire il test.
Test dei Ranghi di Wilcoxon
• Per effettuare il test si parte mettendo i dati sia del primo che del secondo gruppo in ordine crescente in un unico elenco. Si associa a ogni dato il suo
numero d'ordine nella scala così ottenuta.
L'ipotesi nulla, come al solito, è che non vi sia
differenza fra i due gruppi. Se questo è verificato i dati del primo gruppo saranno dispersi in modo uniforme nella scala costruita. Se l'ipotesi nulla è falsa essi saranno concentrati nella parte alta o bassa della scala. Nel caso precedente p=0.039.
Test di McNemar
• Misura la concordanza fra due variabili.
14 8
2 6
METODO1 ottimisti
pessimisti
ottimisti pessimisti METODO2
METODO1 & METODO2
Test di McNemar Test di McNemar
• Questo test considera solo le risposte discordanti dei due metodi e formula l’ipotesi nulla che non vi sia differenza fra i due metodi, nel senso che si
possono avere indifferentemente soggetti
classificati ottimisti dal primo metodo ma non dal secondo o l’opposto di questo. Il test non
considera cioè quanto i due metodi sono concordi ma solo se le discordanze hanno una direzione
preferenziale.
Test di McNemar Test di McNemar
• Nell’esempio in corso abbiamo 10 soggetti
con risposta discorde. L’ipotesi nulla è che
di questi 5 siano ottimisti col primo metodo
ma non con il secondo e che 5 siano nella
situazione opposta. In realtà per questi due
gruppi abbiamo ottenuto 8 e 2.
Test di McNemar Test di McNemar
• Utilizzando la distribuzione binomiale, valutiamo se i valori ottenuti sono significativamente diversi dai valori attesi. La distribuzione binomiale ci permette di ottenere un test esatto e, data la bassa numerosità del campione, rappresenta il metodo idoneo. Per numerosità maggiori viene spesso utilizzata la distribuzione 2 che, pur essendo un test approssimato, necessita di calcoli più semplici.
• La significatività che si ottiene da questi dati è di 0.109 che non ci permette di falsificare l’ipotesi nulla e di sostenere una reale differenza fra i due metodi.
Regressione Logistica
• Trasforma la variabile qualitativa dicotomica (evento, non evento) in una variabile quantitativa utilizzando il
parametro odds
• 1.Variabile 0,1
• 2.Probabilità 0 1
• 3.Odds 0
) (
) (
evento non
p
evento odds p
Regressione Logistica Regressione Logistica
ODDS
) (
) (
)
| (
)
| (
event non
p
event p
exposure event
p
exposure event
odds p
odds p odds
odds p
odds p
p odds
p odds odds p
1
) 1
1 (
Regressione Logistica Regressione Logistica
Per poter utilizzare una equazione nel campo dei numeri reali si esegue una ulteriore trasformazione
logarimica che prende il nome di logit
Odds logit
(valore - --- 0 --- +)
) (
) log (
logit
nonevento p
evento
p
Regressione Logistica Regressione Logistica
La variabile può essere vista come funzione dei fattori in un modello regressivo:
logit (variabile)= b
0+ b
1 x
1+ b
2 x
2+ b
3 x
3….
e
b0e
b1x1odds
Regressione Logistica Regressione Logistica
Stima dei Parametri (b)
viene fatta con metodo a successive approssimazioni.
Il loro significato si può dedurre dall’odds ratio:
1 0
1 0
1 1
1
0
.
1.
b bb b
x
x
e
e e e
odds R odds
O
Odds Ratio e Rischio relativo
a b c d
Disease Non Disease Exposed
Non Exposed
OR= a/b c/d
RR= a/(a+b) c/(c+d)
Regressione Logistica Regressione Logistica
• La regressione logistica fornisce le significatività per:
il modello globale
i singoli parametri, togliendo gli effetti dei parametri già considerati
Analisi fattoriale
• ridurre il numero delle variabili in esame;
• trasformare le variabili in studio in variabili mutuamente indipendenti;
• individuare le fonti delle variabili sperimentali;
• assegnare ad esse un significato reale.
Analisi fattoriale
Il punto di partenza dell’analisi fattoriale è la matrice di correlazione delle variabili esaminate, attraverso la quale vengono calcolate nuove variabili, dette fattori, fra loro indipendenti. Vi sono diversi metodi matematici per ottenere queste nuove variabili. Un metodo, noto come metodo delle componenti principali, si avvale del calcolo degli autovalori e autovettori della matrice di correlazione.
Analisi fattoriale
• capacità argomentativa
• desiderabilità sociale
• coinvolgimento emotivo
• ricerca della certezza
• atteggiamento di intransigenza
Factor Eigenvalue Pct of Var Cum Pct 1 1.58165 31.6 31.6
2 1.31683 26.3 58.0 3 .87879 17.6 75.5 4 .65468 13.1 88.6 5 .56805 11.4 100.0
Analisi fattoriale
Variable Factor 1 Factor 2 argoment. .79211 -.03512 des.soc. -.06178 .82247 emotiv. .00558 .76485 certezza .63892 .21603
ND D
‘ND’
‘D’
‘D’ ‘ND’
TP/(TP+FN) TN/(TN+FP)
TP/(TP+FP)
TN/(TN+FN) (TN+TP)/ALL