2-Errori e statistica.pdf

(1)

Gli errori nell’analisi chimica

Ogni misura sperimentale presenta una qualche incertezza chiamata:

Errore sistematico

Errore casuale

Influenza la precisione di una misura, che descrive la riproducibilità delle

misurazioni.

Influenza l’accuratezza di una misura, che rappresenta lo scostamento tra il

valore ottenuto e il valore vero

(2)

Preciso ma non accurato

Preciso e accurato Non preciso

e non accurato Accurato

ma non preciso

Accuratezza e Precisione

La precisione descrive la riproducibilità delle misurazioni.

Viene determinata ripetendo le misurazioni, ed è espressa dagli

indici di dispersione (varianza, deviazione standard, ecc)

L’accuratezza rappresenta la concordanza tra la media aritmetica dei risultati ottenuti e il valore

vero,

o valore accettato come tale;

(3)

Errore relativo

L’errore relativo

E

r nella misura di una quantità xi è dato dall’Errore

assoluto diviso il valore vero

E

r = xi - xv

xv x 100

Errore grossolano

Si presenta occasionalmente, è spesso grande e fa sì che ogni singolo risultato si discosti in maniera rilevante dal resto dei dati.

Errore assoluto

L’errore assoluto

E

nella misura di una quantità xi è dato dalla differenza, compreso il segno tra il valore misurato e il valore vero

E

= xi - xv

xv rappresenta il valore vero o riconosciuto come tale. Il segno, positivo o negativo viene mantenuto.

(4)

Errori sistematici

Sono sempre attribuibili a una causa nota o individuabile e sono sempre di uno stesso segno, per eccesso o per difetto rispetto al valore vero

Se si conduce nuovamente l’esperimento, esattamente nello stesso modo, l’errore è riproducibile

Derivano da un qualche “problema“ presente nel metodo analitico, nello strumento di misura, nei reattivi utilizzati o nella matrice da analizzare.

(5)

-Errori di metodo

es: lentezza o incompletezza delle reazioni utilizzate nell’analisi

-Errori strumentali

es: misura di un volume mediante l’uso di vetreria starata

Tutti gli strumenti di misura sono sorgenti di errori sistematici!

-Errori legati ai reattivi

es.: uso di una soluzione titolante la cui concentrazione non è nota in modo sufficientemente accurato

-Errori legati alla matrice

es.: presenza nella matrice di sostanze interferenti

Errori sistematici

(6)

Effetto degli errori sistematici sui risultati analitici

Gli errori sistematici possono essere:

- costanti

Non dipendono dalla quantità misurata. Diventano seri al diminuire della quantità misurata.

Esempio: in una procedura analitica si perdono 0.50 mg di precipitato per lavaggio con 200 mL di acqua. Il precipitato pesa 500 mg.

L’errore relativo è: - (0.50/500) x 100 = - 0.1%

La perdita della stessa quantità in un precipitato di 50 mg provoca un errore relativo pari al - 1.0%

Quindi…

…l’errore relativo risultante da un errore assoluto (perdita di 0.50 mg di precipitato) aumenta al diminuire della quantità misurata

(7)

- proporzionali

Sono proporzionali alla quantità del campione analizzata. Sono dovuti ad es. alla presenza di contaminanti interferenti

2 Cu++ _{+ 5 I}- _{2 CuI}

(s) + I3

-Es:

(nelle reazione si forma I2 che è poco solubile in acqua ma la sua solubilità

può essere accresciuta dalla complessazione con I-₎

I2 (aq) + I- I3

-La percentuale di rame stimata è indipendente dalla grandezza del campione

Se nel campione è presente Fe

+++

come contaminante, questo darà

la stessa reazione per cui viene stimata una maggior quantità di

rame. L’entità dell’errore dipenderà dalla frazione di ferro presente.

Se il campione raddoppia, la quantità di iodio (dovuta al rame e al

ferro) raddoppierà.

(8)

Rivelazione di errori sistematici

• Determinare il bianco. Il bianco è una soluzione che contiene oltre al solvente tutti i reagenti dell’analisi escluso il campione. L’analisi del bianco può rivelare errori dovuti ad interferenze di contaminanti

• Analizzare campioni standard di riferimento che contengono una o più specie a concentrazione nota

• Utilizzare in parallelo un secondo metodo analitico indipendente ed affidabile

(9)

Errori casuali

L’errore casuale detto anche indeterminato o accidentale, deriva dall’effetto prodotto dalla presenza di variabili incontrollate nelle misure.

Ha pari probabilitá di essere positivo o negativo!

Errore casuale dovuto a…

…imperizia nell’eseguire un’operazione analitica

es. perdita di campione, portare a volume, agitazione della beuta, ecc

…non corretta manutenzione degli strumenti analitici

es. bilance starate, burette sporche, avvinamenti

...soggettività nella lettura di una scala

es. persone diverse leggono diversamente una stessa scala

(10)

Errori casuali

Gli errori accidentali, proprio per la loro natura casuale, sono probabilisticamente egualmente distribuiti a destra e a sinistra del valore vero.

Per abbattere questo tipo di errore, conviene eseguire alcune ripetizioni dell’analisi con lo stesso metodo analitico ed esprimere il risultato come la media aritmetica dei risultati di ogni singola ripetizione.

Se ripetendo una misura con lo stesso metodo analitico su di uno stesso campione si ottengono valori molto simili, allora la deviazione standard risulterà bassa e si potrà affermare che le misure effettuate risultano precise.

(11)

Gli errori nell’analisi chimica

I campioni analizzati esattamente nello stesso modo si chiamano

replicati

Poiché i risultati individuali di un insieme di misure sono

raramente

gli stessi, il valore centrale viene usato come rappresentativo di tutto l’insieme dei dati o “

popolazione

”

Il valore centrale di un set di dati dovrebbe essere più affidabile di ciascun dato individuale

La variazione dei dati dovrebbe fornire una misura dell’incertezza associata con il risultato centrale

(12)

La media e la mediana

La media aritmetica o semplicemente media ( x ) è la quantità ottenuta dividendo la somma delle misure replicate per il numero delle stesse. x =

S

N

x

i i = 1

N

Dove

x

i rappresenta le misure individuali di x che formano una serie

di

N

misure replicate

Per una serie infinita di dati, la media è detta µ _{media della} popolazione e corrisponde al valore vero

(13)

La mediana (m) è il risultato centrale quando i dati replicati sono ordinati secondo ordine crescente o decrescente. In tal caso vi sarà un ugual numero di dati più piccoli e di dati più grandi della mediana

Se il numero dei dati è dispari

La mediana è ottenuta dal valore centrale

La media e la mediana

15.5 16.5 16.6 17.8 18.5 19.2 19.4 18.5 16.5 17.8 15.5 19.2 19.4 16.6

Se il numero dei dati è pari

La mediana viene ottenuta come media della coppia centrale

15.5 15,9 16.5 16.6 17.8 18.5 19.2 19.4 18.5 16.5 17.8 15.5 19.2 19.4 16.6 15,9

(14)

Idealmente la media e la mediana sono identiche. Non lo sono quando il numero delle misure è limitato

Quando usare la media o la mediana?

La mediana è usata quando un set di dati contiene un

outlier

, cioè un valore che differisce significativamente dal resto dei dati.

Un

outlier

può avere un effetto molto marcato sulla media ma non sulla mediana

(15)

La media è X = 14.6 La mediana è: 17.8

Set di dati (

N

dispari)

10.5 outlier

16.5 16.6 17.8 18.5 19.2 19.4

Set di dati (

N

dispari)

La media è X = 17.6 La mediana è: 17.8 15.5 16.5 16.6 17.8 18.5 19.2 19.4

(16)

Trattamento dati sospetti

Q test: permette di escludere dati anomali. Si calcola dal rapporto tra il divario, cioè la differenza tra il dato incerto e quello più vicino, e l’intervallo dei dati, cioè la differenza tra il più grande e il più piccolo. Se Qosservato>Qtabulato il valore può essere scartato con un certo grado di fiducia.

ervallo intdivario Q = 10.5 outlier? 16.5 16.6 17.8 18.5 19.2 19.4

67 .

0

5 ,

10

4 ,

19

16 ,

5

10 ,

5 Q

=

-=

N dati ₃ ₄ ₅ ₆ ₇ ₈ ₉ ₁₀ Q90% _0,941 _0,765 _0,642 _0,560 _0,507 _0,468 _0,437 _0,412 Q95% 0,970 0,829 0,710 0,625 0,568 0,526 0,493 0,466 Q99% 0,994 0,926 0,821 0,740 0,680 0,634 0,598 0,568

Poiché 0.67>0.57, il valore in questione può essere scartato con una fiducia del 95%

(17)

Indici di dispersione

Media e mediana da sole non bastano per descrivere accuratamente una popolazione di dati:

Es.

In una titolazione di uno stesso campione tre studenti hanno ottenuto i seguenti risultati (mg/100ml):

X m

A 123 124 125 124 124

B 118 124 130 124 124

C 120 124 128 124 124

Quale dei tre ha lavorato meglio?

In tutti e tre i casi, abbiamo valore medio e mediana uguali.

Dobbiamo usare degli indici di dispersione per distinguere tra le tre serie di dati

(18)

Indici di dispersione

Una prima indicazione ce la da l’intervallo dei dati o

range

(R), dato dalla differenza tra il valore più alto e quello più basso:

R=x

_max

-x

_min

limite: è troppo influenzato dai valori estremi; tende a crescere con l’aumentare del numero di misurazioni

Occorre un indice che consideri tutti i dati, confrontandoli con il valore medio.

Tuttavia va ricordato che

Si potrebbe calcolare la somma dei valori assoluti

ma tale quantità è difficile da trattare matematicamente

å

=

-n 1 i

(

x

i

x

)

0 å

=

-n 1 i

x

i

x

(19)

Indici di dispersione

Si definisce devianza (SS) la somma degli scarti al quadrato:

La varianza (s2_{) è la media degli scarti al quadrato:}

La deviazione standard o scarto quadratico medio (s), è la radice quadrata della media degli scarti al quadrato, ovvero la radice quadrata della varianza. Rappresenta lo scostamento medio dei dati rispetto alla media.

å

=

µ

-=

N 1 i 2 i

)

X

(

SS

N

SS

)

X

(

N

1

N 1 i 2 i 2

₌

_-

_µ

₌

s

å

= 2 N 1 i 2 i

)

X

(

N

1 -

µ

=

s

=

s

å

=

(20)

Per una serie infinita di dati, la media è detta µ _{media della}

popolazione e la deviazione standard s _{deviazione standard della}

popolazione

Non possiamo mai misurare µ _e s _{ma i valori di x e di s si avvicinano}

a µ _e s _{man mano che aumenta in numero delle misure. Invece}

quando

N

è piccolo x differisce da µ _{in quanto un piccolo campione}

di dati non rappresenta esattamente la sua popolazione.

_

(21)

La deviazione standard,

s

, misura la tendenza dei dati a raccogliersi intorno al valore medio.

Tanto più bassa è la deviazione standard tanto più i dati tendono ad addensarsi intorno alla media.

Si calcola dalla seguente formula:

la quantità (N-1) prende il nome di gradi di libertà del sistema

La deviazione standard

)

1 N

(

)

X

(

s

N 1 i 2 i

-=

å

=

N

)

X

(

N 1 i 2 i

å

=

µ

-=

s

(22)

Coefficiente di Variazione

Il coefficiente di variazione CV (o RSD, Relative Standard Deviation ) per un campione viene definito dal rapporto tra la sua SD e il valore assoluto della media aritmetica:

Il CV è un numero puro, in quanto rapporto tra grandezze

omogenee e permette di valutare la dispersione dei dati attorno alla media indipendentemente dall’unità di misura e di confrontare

serie espresse con unità di misura diverse

Es. confronto tra variabilità dell’altezza e del peso;

(23)

Indici di dispersione

Es.

In una titolazione di uno stesso campione tre studenti hanno ottenuto i seguenti risultati (mg/100ml):

X m R SS s2 _s _CV

A 123 124 125 124 124 2 2 0.67 1 0.8%

B 118 124 130 124 124 12 72 24 6 4.8%

C 120 124 128 124 124 8 32 10.7 4 3.2%

Quale dei tre ha lavorato meglio?

Tutti gli indici risultano minori per A, che ha prodotto quindi i dati più precisi

(24)

Se si ripete un esperimento per un numero molto elevato di volte e se gli errori sono puramente di tipo casuale, allora i risultati tendono a raggrupparsi attorno ad un valore medio.

Distribuzione Gaussiana

µ_=m Quantità misurata (x) fr eq ue nz a (y ) s La media ci dà il valore

centrale della distribuzione, la deviazione standard (s) misura l’ampiezza della distribuzione

Tanto piú si ripete un esperimento tanto piú i risultati si avvicinano ad una curva ideale chiamata distribuzione gaussiana

(25)

Distribuzione Gaussiana

µ=m=7.8 Quantità misurata (x) fr eq ue nz a (y ) µ=m=7.8 Quantità misurata (x) fr eq ue nz a (y ) µ=m=7.8 Quantità misurata (x) fr eq ue nz a (y ) s_=0.79 s_=1.48 s_=0.52 Una tecnica sperimentale che

produce una piccola SD è più affidabile di una che da luogo ad una SD più elevata, a parità di accuratezza

(26)

Distribuzione Gaussiana

Z σ σ σ σ σ σ σ σ Errore µ µ=m Quantità misurata (x) fr eq ue nz a (y ) s

È possibile ricondurre una distribuzione gaussiana di dati in una

curva normale dell’errore:

s

µ

-= x

Z

(27)

Caratteristiche della curva normale dell’errore: ØPicco coincidente col valore vero

ØAndamento decrescente simmetrico ai due lati del massimo ØGli errori più piccoli sono più frequenti, mentre diventano più rari quanto più aumenta la loro grandezza

Distribuzione Gaussiana

Z σ σ σ σ σ σ σ σ Errore

y

=

1 s

₂

p

e

-

( )

x-µ 2 2s2 µ = media σ = deviazione standard µ

(28)

Distribuzione Gaussiana

Z σ σ σ σ σ σ σ σ 68,3% 95,5% 99,7%

La probabilità di misurare il valore x in un certo intervallo è proporzionale all’area di quell’intervallo. In una curva normale dell’errore (µ=0 e s=1) l’area dell’intera curva è pari a 1

(29)

Set di dati

Il risultato si esprime come: 16.6±0.9

15.5 16.5 16.6 17.8 (15.5 – 16.6)2 _{+ (16.5 – 16.6)}2 _{+ (16.6 – 16.6)}2 _{+ (17.8 – 16.6)}2 (4 – 1) s = _{= 0.9} 6 . 16 416.6 17.8 5 . 16 5 . 15 x = + + + =

Per misurare una grandezza fisica, si effettua un certo numero

n

di misurazioni, si calcolano la media x e la deviazione standard s e si scrive che la grandezza in gioco vale

x±s

(30)

In realtà, quando calcoliamo x e s su

n

misure, il nostro interesse è puntato più che a quelle

n

misure, al valore vero (sconosciuto) della grandezza in esame. Fino a che punto possiamo ritenere che x da noi calcolata sia prossima al valore vero µ_?

n

s

x ±

=

µ

INTERVALLI DI CONFIDENZA:

Il valore vero µ avrà una probabilità:

•Del 68% circa di rientrare nell’intervallo •Del 95% circa di rientrare nel’intervallo •Del 99.7% circa di rientrare nell’intervallo

La quantità prende il nome di

Errore Standard dalla Media

s

n

(SEM)

SEM

x ±

=

µ

SEM

2 x

±

×

=

µ

SEM

3 x

±

×

=

µ

Errore Standard

(31)

Errore Standard e Deviazione Standard

SEM e SD non devono essere confusi!

• SEM ci da una STIMA DELLA MEDIA INCOGNITA, ossia valuta con quale probabilità un dato intervallo attorno alla media

campionaria contenga la media dell’intera popolazione

•SD invece quantifica la DISPERSIONE delle rilevazioni NEL MIO CAMPIONE, che potrà essere esteso all’intera popolazione se il

campione prescelto rappresenta fedelmente la popolazione intera

(32)

Set di dati

Il risultato si esprime come: 16.6±0.47

15.5 16.5 16.6 17.8 s =0.94 n=4 6 . 16 x =

Per misurare una grandezza fisica, si effettua un certo numero

n

di misurazioni, si calcolano la media x e la deviazione standard s e si scrive che la grandezza in gioco vale

x±s

Se il numero di misurazioni è limitato, è meglio

x±SEM

Attenzione alle cifre significative!!!

47 . 0 4 94 . 0 n s SEM = = =

(33)

}

Il numero di cifre significative è il numero minimo

di cifre richiesto per scrivere un dato un notazione

scientifica senza comprometterne la precisione.

Es. 0,001050 = 1,050.₁₀-3 _{4 cifre significative} _0,00₁₀₅₀

}

Nell’esprimere un risultato numerico di un

procedimento analitico la regola che deve essere

sempre seguita è che l’indeterminazione associata

a tale risultato non può essere minore di quella del

più indeterminato dei dati utilizzati per calcolare il

risultato medesimo.

(34)

}

All’ultima cifra si associa un’imprecisione pari

almeno a ±1.

0.2350<0.2351<0.2352

}

Se il risultato è frutto della somma, sottrazione,

moltiplicazione o divisione di dati, ognuno

caratterizzato da una propria indeterminazione,

l’indeterminazione globale è la somma di ciascuna

di queste. Il numero di cifre significative con il

quale esprimere il risultato sarà stabilito di

conseguenza.

(35)

}

Addizione e sottrazione

: esprimere tutti i numeri con lo

stesso esponente e allinearli secondo il punto decimale.

Arrotondare il risultato secondo il numero di cifre

decimali del numero che ne presenta di meno.

◦

_Es.

CIFRE SIGNIFICATIVE

1,204.₁₀-1 _1,204 .₁₀-1 ₊ _12,04 .₁₀-2 ₊ 2,158.₁₀-3 _0,0₂₁₅₈ .₁₀-1 ₊ _0,₂₁₅₈ .₁₀-2 ₊ 3,540.₁₀-2 _0,₃₅₄₀ .₁₀-1 ₌ _3,540 .₁₀-2 ₌ 1,57958 .10-1 15,7958 .10-2 4 cifre significative

(36)

}

moltiplicazione e divisione

: arrotondare il risultato al

numero di cifre decimali del numero con meno cifre

significative. La potenza del dieci non ha nessuna

importanza ai fini del numero di cifre da mantenere.

◦

_Es.

CIFRE SIGNIFICATIVE

2,158 .₁₀-11 _X _0,₂₁₅₈ _:

3,540 .₁₀13 ₌ _35,4 ₌

(37)

} logaritmi: il numero di cifre della mantissa di log x deve essere

uguale al numero di cifre significative di x

◦ _Es.

} Log 0,001237=-2,9076 log 339=2,530

CIFRE SIGNIFICATIVE

4 cifre 4 cifre 3 cifre 3 cifre

}104,37=2,3.104 10-2,600=2,51.10-3

(38)

38

Esercizio:

Quattro operatori eseguono un’analisi spettrofotometrica di un preparato iniettabile contenente l’anestetico locale bupivacaina. Il contenuto dichiarato di principio attivo nella formulazione è dello 0,25% peso volume (p/v)e i risultati ottenuti sono i seguenti (% p/V):

Calcolare la percentuale media del contenuto dichiarato e il valore di RSD per ciascuna serie di risultati. Partendo dal presupposto che il valore reale di principio attivo sia quello riportato in etichetta, commentare l’accuratezza e la precisione di ciascuna serie di risultati e, in fine, calcolare la precisione di ciascuna analisi, considerando il 95% come livello fiduciale.

Operatore 1 0,245% 0,234% 0,263% 0,261% 0,233%

Operatore 2 0,268% 0,236% 0,247% 0,275% 0,285%

Operatore 3 0,247% 0,248% 0,248% 0,249% 0,253%