Discrepanza
Nella stragrande maggioranza dei casi le conclusioni sperimentali implicano il confronto tra due o più valori. Questi valori possono essere delle misure (e quindi con un’incertezza), delle stime teoriche (con o senza incertezza) o grandezze note.
Nell’ipotesi che i dati sperimentali si distribuiscono su una gaussiana è possibile fare un confronto quantitativo.
Data una misura sperimentale x best ± s con deviazione dalla media pari a s m ed una stima teorica x teo della medesima quantità, definiamo:
z usa si
gaussiana una
per
m
teo best
teo best
x t x
x x
D
s
La quantità D è detta discrepanza, mentre la quantità t indica quanto è distante x best da x teo in unità di deviazione standard (lo abbiamo già incontrato (si chiama z) quando abbiamo parlato della gaussiana, e della ‘t di student’).
Ricordatevi che abbiamo definito un z gauss e t stud identici per N ∞ ma molto differenti se
relativi a poche misure.
Nel caso di molte misure e statistica gaussiana
Se z = 0.32 significa che x best dista da x teo di 0.32 deviazioni standard della media. Quindi:
- esiste il 75% di probabilità che x teo sia il valore medio della distribuzione statistica misurata - esiste il 75% di probabilità che la differenza tra x teo e x best sia di origine statistica.
Da questo si conclude che la misura sperimentale è compatibile con il valore atteso !
Se z = 3.5 significa che x best dista da x teo di 3.5 deviazioni standard della media. Quindi:
- esiste il 0.05 % di probabilità che x teo sia il valore medio della distribuzione statistica misurata - esiste il 0.05 % di probabilità che che la differenza tra x teo e x best sia di origine statistica
Da questo si conclude che la misura NON è compatibile con il valore atteso ! In altre parole:
• Lo strumento non funziona correttamente (poco probabile)
• La mia procedura di misura non è corretta
• Esistono degli effetti fisici che disturbano la misura
• Esiste un errore sistematico
• ………
• ………
• Ho fatto una scoperta !
Nota:
Quale è il significato ‘statistico’ di z ?
- Ho ottenuto una misura x
bestcon deviazione standard s deviazione standard dalla media s
m- Devo verificare se x
besto x
teosono statisticamente uguali
- Questo equivale a verificare con che probabilità D = | x
best- x
teo| sia zero
- Poiché x
bestè una misura allora con la propagazione degli errori posso ricavare l’errore su D
- Allora t non è altro che la distanza di D da zero in unità di sigma dalla media
m Dm
D teo
best
media dalla
deviazione alla
relazione la
estendo
x x
D
s s
s s
) variabile sola
una ho
(
m teo best
Dm
x D x
t s s
Cosa succede se devo confrontare due misure sperimentali o due osservabili, ciascuna con una incertezza ?
Data una misura sperimentale x best1 ± s 1 con deviazione dalla media pari a s m1 effettuata dallo studente A ed una misura una misura sperimentale x best2 ± s 2 con deviazione dalla media pari a s m2 effettuata dallo studente B
Il resto è esattamente lo stesso
Notate che si può dimostrare la formula sopra con la propagazione degli errori
2 2 2
1
2 1
2 1
m m
best best
best best
x t x
x x
D
s s
Il limite entro il quale stabilire la compatibilità è stabilito a priori e varia tra i diversi ambiti sperimentali. Nel caso di questo corso di laboratorio lo stabiliremo entro 2s oppure 2s m . Se è tra due o tre sigma allora l’esperimento non è conclusivo. Quindi:
• un dato sperimentale è compatibile con una stima teorica/attesa se z < 2
• una misura sperimentale con s e s m è compatibile con un’altra misura (con s e s m ) o con un valore noto se z < 2
• In pratica la probabilità che la differenza sia di origine statistica deve essere superiore al 5%
Abbiamo già visto in una gaussiana (non necessariamente per le altre distribuzioni statistiche) l’intervallo x best ± s corrisponde al 68 % dei dati
In altre parole, nel caso di una distribuzione gaussiana, le singole misure cadranno nell’intervallo <x> ± s con “livello di confidenza” pari al 68%
Analogamente per 2 s (95%) o 3s (99.7%) o Xs
Per distribuzioni non gaussiane, si dice [x o - xx, x o + xx] al 95% C.L.
Questo significa che il 95% delle misure cadono nell’intervallo [x o -xx x o +xx]
Quindi:
Quando devo confrontare due misure o una previsione teorica ed una misura devo:
1) Accertarmi se usare la gaussiana o l’approccio della ‘t di student’. In quest’ultimo caso a partire dalla t
studestraggo la t
gaussequivalente.
2) Sapere quali sono gli intervalli di confidenza (in altre parole la finestra entro quale intervallo ho il 68%, 95%, 99.7% degli eventi).
3) Decidere una soglia di probabilità oltre la quale ritengo la probabilità irragionevolmente piccola.
Cioè decidere ad esempio che "se l'evento è fuori da un intervallo di confidenza del 95%
allora è improbabile“.
4) Calcolare la discrepanza, t, P(t), (1-P(t)) - Lo so fare con la gaussiana - Non lo so fare con altre distribuzioni (ho bisogno di conoscere il C.L)
Esempio (vedi il file precedente o lucido successivo)
Cosa bisogna fare quando ho poche misure, una statistica gaussiana e voglio usare le regole per la compatibilita di z:
Esempio:
ho 4 Misure che mi hanno dato un valore medio di 5.32 ed una deviazione standard della media 0.17. Voglio verificare la compatibilità di questo risultato con un valore atteso di 4.92.
• La funzione ERF della gaussiana (‘z’), poiché costruita con la deviazione standard del campione non produce le corrette probabilità
• Estraggo l’osservabile ‘t’ usando la deviazione standard misurata
• t
stud= (5.32 – 4.92)/0.17 = 2.35
• Utilizzando la tabella della ‘t di Student’ trovo la probabilità associata alla ‘t’ ottenuta
• P(esterna,t
stud=2.35) = 1 – 0.90 = 0.1
• Ricavo la probabilità equivalente a 0.1 = 10% con la funzione ERF gaussiana
• P(gaussiana-esterna)= 10% -> t
gauss= 1.65
• Eseguo tutti i ragionamenti di compatibilità come se la ‘t’ ricavata dai miei dati sperimentali fosse 1.65
• Poiché t
gauss< 2 allora il dato sperimentale è compatibile con il valore atteso
• Ho il 10% di probabilità che la differenza tra la mia misura e il valore atteso sia di origine statistica e quindi lo accetto
• Se non avessi usato la distribuzione di ‘Student’ avrei concluso che la compatibilità tra il dato
sperimentale e quello atteso
ESEMPIO : Tiro due dadi ‘uguali’ in forma
Voglio sapere se statisticamente i due dadi sono uguali ?
media dalla
deviazione la
usare bisogna
x t x
errore a discrepanz
m m
2 2 2
1 2 1
s s
0 < t < 1 Le due misure sono certamente consistenti – i dadi sono uguali 1 < t < 2 Ho tra il 5 - 30% di probabilità che le due misure siano consistenti
Le due misure sono consistenti - i dadi sono uguali
2 < t < 3 Ho tra lo 0.3 - 5% di probabilità che le due misure siano consistenti Le due misure con molta probabilità non sono consistenti
- i dadi con molta probabilità NON sono uguali - sarebbe opportuno fare ulteriori misure
t > 3 Ho meno del 0.3 % di probabilità che le due misure siano consistenti Le due misure non sono consistenti - i dadi NON sono uguali
Misura sperimentale
11.10 11.15 11.20 11.25 11.30 11.35 11.40 11.45
0 0.5 1arb. units1.5 2 2.5
media dadi
Misura sperimentale
9.70 9.80 9.90 10.00 10.10 10.20
0 0.5 1arb. units1.5 2 2.5
Accelerazione di Gravità (m/s2)
Media Da di Media Da di
Dado 1 Dado 2 Dado 1 Dado 2
0 < t < 1 La teoria ed i dati sono consistenti
1 < t < 2 Ho tra il 5 - 30% di probabilità che la teoria ed i dati siano consistenti 2 < t < 3 Ho tra lo 0.3 - 5% di probabilità che la teoria ed i dati siano consistenti t > 3 Ho meno del 0.3 % di probabilità che la teoria ed i dati siano consistenti
media dalla
deviazione la
usare bisogna
x t x
m teo
1 1
s
10.00 10.25 10.50 10.75 11.00 11.25 11.50
0 1 arb. units 2 3 4
me d ia d a d i
Valore Atteso Misura sperimentale
10.00 10.25 10.50 10.75 11.00 11.25 11.50
0 1 arb. units 2 3 4
me d ia d a d i
Valore Atteso Misura sperimentale
ESEMPIO : Tiro un dado
Voglio sapere se il dato è truccato
Significatività Statistica
Supponiamo di avere una misura singola x
0e una distribuzione (per semplicità di tipo gaussiana con valor medio <x> e deviazione standard s).
Ci chiediamo se la differenza tra x
0e <x> sia di origine statistica o ‘reale’
Calcoliamo quindi la t
gauss(usando o meno la t
stud) Significatività
Se 1-P(t) < 5 % (oppure Z = t
gauss> 1.96) - si dice che ho evidenza significativa che x
0NON appartenga alla distribuzione statistica che ha generato <x> e s.
Ovvero la discrepanza è significativa .
Se 1-P(t) < 1 % (oppure t
gauss> 2.32) - si dice che ho evidenza altamente significativa che x
0NON appartenga alla distribuzione statistica che ha generato <x> e s .
Ovvero la discrepanza è altamente significativa .
HP : Distribuzione gaussiana e misure ripetibili ed indipendenti
Cosa significa scartare i dati la cui differenza dal valor medio sia significativa ?
- Significa scartare i dati per i quali t gauss > 1.96
- Significa che sono sicuro di eliminare circa il 5% di dati ‘buoni’
- Significa che avrò il 5% di probabilità di scartare un evento che in realtà è buono
Esempio:
Ho delle scatole con 1000 componenti elettrici che devono avere un valore di resistenza pari a 10 ± 1 Ohm. Poiché non posso misurare la resistenza di tutti i componenti elettrici della scatola ne piglio 20 e ne misuro la resistenza. Se il valor medio della resistenza è compreso tra 8.04 ed 11.96 Ohm (nota 1.96s = 1.96*1, quindi 10-1.96=8.04 e
10+1.96=11.96) allora la scatola viene avviata alla vendita. In caso contrario si butta via.
In questo caso, poichè il mio limite è 1.96 sigma, sono sicuro di buttare via il 5% di scatole
buone (con resistenza 10 ± 1 Ohm) insieme a quelle con resistenza diversa da 10 ± 1 Ohm
HP : Distribuzione gaussiana e misure ripetibili ed indipendenti
Cosa significa scartare i dati la cui differenza dal valor medio sia altamente significativa ?
- Significa scartare i dati per i quali t gauss > 2.56
- Significa che sono sicuro di eliminare l’1% di dati ‘buoni’
- Significa che avrò l’1% di probabilità di scartare un evento che in realtà è buono
Esempio:
Ho delle scatole con 1000 componenti elettrici che devono avere un valore di resistenza pari a 10 ± 1 Ohm. Poichè non posso misurare la resistenza di tutti i componenti elettrici della scatola ne piglio 20 e ne misuro la resistenza. Se il valor medio della resistenza è compreso tra 7.44 ed 12.56 Ohm allora la scatola viene avviata alla vendita. In caso contrario si butta via.
In questo caso, poichè il mio limite è 2.56 sigma, sono sicuro di buttare via solo l’1% di scatole buone insieme a quelle con materiale difettoso
Notate che in questo caso butto via meno scatole (solo l’1%) ma è più facile avviare alla
vendita scatole con materiale difettoso
Media Pesata
Può capitare che una grandezza sia stata misurata più volte da persone o con tecniche differenti Ciascuna di queste misure a sua volta è il risultato di molte misure e quindi è nella forma
Il calcolo del semplice valor medio potrebbe non essere conveniente se le incertezze non sono uguali o molto simili. E’ in generale più corretto usare la media pesata definita come
Attenzione: controllare che le misure siano consistenti, tra loro in pratica la z tra le diverse misure non deve essere associata ad una probabilità eccessivamente bassa
Nota:
Questa relazione vale per la deviazione standard e per quella della media
3 3 2 2 1 1
s s s
x x
x x
x x
2 / 1
2
1
i
i b est
i i
i
i i
i i b est
w w w x w x
s
s
Media Pesata
Nota:
E’ inutile fare una media pesata quando le deviazioni standard o deviazioni standard della media sono sostanzialmente uguali per tutte le misure. Fate la media delle misure e estraete la deviazione standard e/o della media dalle misure stesse (confrontando il risultato con l’errore minimo).
Sebbene sia corretto tenere conto dell’errore strumentale associato ad ogni misura, privilegiate sempre il dato sperimentale. Solo alla fine confrontatelo con l’errore minimo estratto sulla base delle incertezza strumentali:
Poiché l’errore minimo sul periodo non può essere di molto inferiore all’errore strumentale devo confrontare (alla fine dei conti) l’errore minimo con quello ricavato per il periodo medio
esempio:
Come vedete il valore medio calcolato con i due metodi è uguale.
Possono cambiare le deviazioni standard
Ottenuto dai solo dati sperimental
e, non dall’errore strumentale)
Ottenuto facendo la media pesata con la sigma strumentale
Esercizio:
Si supponga di voler verificare che due forniture di resistenze di valore nominale dichiarato (per esempio sia = 470 ) sia affidabile. Si supponga che ogni fornitura sia normalmente distribuita con deviazione standard s = 20 ma con valor medio differente. Per una stima rapida del valor medio si misuri un campione di N = 25 resistenze da ogni fornitura. Si e’ trovato:
1° campione x
1= 480 2° campione x
2= 475
Quale è la probabilità che la differenza tra il valore medio osservato e quello atteso sia solamente di origine statistica ? b) Quale valore di x, a livello di confidenza del 95 %, rappresenta una stima del valore vero ?
c) Quale valore di x, a livello di confidenza del 98 %, rappresenta una stima del valore vero ?
d) Quale deve essere il valore di N per essere sicuri, a livello di confidenza del 98%, che la stima x non differisca da per più di 5
?
Soluzione:
Sappiamo il valore medio ‘vero’ 470 Sappiamo la deviazione standard ‘vera’ 20
E fatto 1 ciclo di 25 misure da una ‘popolazione’ per due scatole di resistenze e si ottengono due valori medi
% 13 . 21 87
. 78 100 )
( 25
. 4 1
470 475
% 24 . 1 76 . 98 100 )
( 5
. 4 2
470 480
5 4 20
1 2
1 1
esterna x P
t
esterna x P
t
N
m m m
s
s
s s
9 4 470
32 470 . 2
% 98 )
interna (
8 4 470
96 470 . 1
% 95 )
interna (
x x t x
P
x x t x
P
s
s
9 . 28 86 5
32 20 . 4 2
32 5 . 2
5 20
/ 32
. 2
% 98 ) interna (
2
N N
N N
x sigma
N x N
x t x
P
m
s
s
s
T s sm
1.174 0.006 0.0019 1.184 0.012 0.0038 1.171 0.012 0.0038 1.172 0.006 0.0019 1.17 0.013 0.0041
d sm-tot d/sm-tot s-tot d/s-tot 1-2 0.01 0.004249 2.353756 0.013416 0.745356 3-2 0.013 0.005374 2.41905 0.016971 0.766032 4-2 0.012 0.004249 2.824507 0.013416 0.894427 5-2 0.014 0.00559 2.504396 0.017692 0.791327 1.15
1.155 1.16 1.165 1.17 1.175 1.18 1.185 1.19
1 2 3 4 5
Periodo [s]
La seconda misura risulta incompatibile con le altre in quanto valutando la discrepanza d= T
2-T
idella stessa da ogni altra e il corrispondente errore s
md= ((sm
2)
2+ (sm
i)
2)
1/2risulta (per ogni i=1,3,4,5) d/sm
d> 1.96
La seconda misura è incompatibile con le altre in quanto anche considerando la misura con la più alta deviazione standard.
La misura 2 non risulta essere compatibile con un C.L. del 95%
Se questa è la soglia ‘statistica’ allora la misura 2 non rappresenta la stessa osservabile fisica delle misure
1,3,4,5. Quindi, una volta evidenziata la NON compatibilità con ogni altra misura non va inserita nella media
pesata
Esercizio
Facendo 30 volte una misura ho ottenuto la tabella mostrata. In quale intervallo ho un livello di confidenza del 80% di trovare la prossima misura (non è scontata una distribuzione
gaussiana).
Ovviamente visto che non sto parlando di deviazione dalla media ne di una distribuzione gaussiana non posso usare le proprietà della t
gaussMetto in ordine crescente le misure fatte e verifico in che
intervallo intorno al valore medio raccolgo il 90% delle misure
1 1.1 16
2 1.1 15
3 1.3 14
4 1.4 13
5 1.4 12
6 1.5 11
7 2.2 10
8 2.2 9
9 2.3 8
10 3.1 7
11 3.2 6
12 3.3 5
13 3.3 4
14 3.3 3
15 3.4 2
16 3.5 1
17 4.3 1
18 4.4 2
19 4.4 3
20 5.1 4
21 5.1 5
22 5.1 6
23 5.2 7
24 5.2 8
25 5.3 9
26 5.3 10
27 5.3 11
28 5.4 12
29 6.4 13
30 6.4 14