• Non ci sono risultati.

Esercitazioni di Metodi Statistici per la Biologia

N/A
N/A
Protected

Academic year: 2021

Condividi "Esercitazioni di Metodi Statistici per la Biologia"

Copied!
7
0
0

Testo completo

(1)

Francesco Caravenna

E-mail: francesco.caravenna@math.unipd.it

Web: http://www.math.unipd.it/fcaraven/didattica Indirizzo: Dipartimento di Matematica, Torre Archimede

studio 527 (V piano corridoio A-D)

Ricevimento: mercoled`ı ore 16.30–17.30 o su appuntamento

1 / 13

Statistica descrittiva: i concetti di base

Gli oggetti fondamentali sono:

Variabile: quantit`a che possiamo “misurare” (es.: reddito, durata della vita, tempo di guarigione da una malattia, . . . )

Campione: sequenza x1, . . . , xn di valori misurati

Il campione di dati viene organizzato secondo i valori assunti (eventualmente raggruppati in classi).

Le frequenze (assolute, relative o percentuali) vengono rappresentate mediante:

Tabella delle frequenze

Grafico

istogramma delle frequenze

istogramma delle frequenze cumulative

2 / 13

(2)

Un esempio concreto: le eruzioni di un geyser

Abbiamo a disposizione un campione di misurazioni su due grandezze:

la durata dell’eruzione (D) di un geyser

il tempo di attesa (T) per l’eruzione successiva.

Ampiezza del campione: n = 222.

(dati analizzabili con software come Excel, R, ...) Per il momento ci interessiamo solo alla variabile T:

cominciamo calcolando la tabella delle frequenze prendendo come classi i singoli valori della variabile.

D(min) T(min)

4,4 78

3,9 74

4 68

4 76

3,5 80

4,1 84

2,3 50

4,7 93

1,7 55

4,9 76

1,7 58

4,6 74

3,4 75

4,3 80

1,7 56

3,9 80

3,7 69

3,1 57

4 90

1,8 42

4,1 91

1,8 51

3,2 79

1,9 53

. . . . . .

3 / 13

Un esempio concreto: le eruzioni di un geyser

Tabella delle frequenze (classi = singoli valori della variabile T).

Un esempio concreto: le eruzioni di un geyser

Tabella delle frequenze (classi = singoli valori della variabile

T).

Classe Frequenza

42 1

43 1

44 1

45 2

46 0

47 1

48 2

49 3

50 2

51 14

52 3

53 5

54 4

55 4

56 3

57 4

58 3

59 1

Classe Frequenza

60 4

61 5

62 3

63 1

64 0

65 0

66 3

67 3

68 2

69 3

70 5

71 5

72 5

73 9

74 5

75 15

76 10

77 8

Classe Frequenza

78 7

79 4

80 13

81 9

82 10

83 8

84 9

85 1

86 6

87 1

88 3

89 2

90 3

91 3

92 0

93 1

94 1

95 1

(3)

Istogramma delle frequenze e grafico delle frequenze cumulative

CLASSI DI AMPIEZZA 1

0 2 4 6 8 10 12 14 16

42 44 46 48 50 52 54 56 58 60 62 64 66 68 70 72 74 76 78 80 82 84 86 88 90 92 94

,00%

10,00%

20,00%

30,00%

40,00%

50,00%

60,00%

70,00%

80,00%

90,00%

100,00%

Frequenza % cumulativa

5 / 13

Un esempio concreto: le eruzioni di un geyser

Aspetto dell’istogramma un po’ disordinato (frequenza varia molto tra classi contigue)

Aumentare ampiezza delle classi (1 → 3)

CLASSI Frequenza Frequenza % cumulativa

42-44 3 1,35%

45-47 3 2,70%

48-50 7 5,86%

51-53 22 15,77%

54-56 11 20,72%

57-59 8 24,32%

60-62 12 29,73%

63-65 1 30,18%

66-68 8 33,78%

69-71 13 39,64%

72-74 19 48,20%

75-77 33 63,06%

78-80 24 73,87%

81-83 27 86,04%

84-86 16 93,24%

87-89 6 95,95%

90-92 6 98,65%

93-95 3 100,00%

6 / 13

(4)

Un esempio concreto: le eruzioni di un geyser

Istogramma delle frequenze e grafico delle frequenze cumulative

CLASSI DI AMPIEZZA ,

- . 1- 1.

0- 0.

,- ,.

11 12 .- ., .3 .4 30 3. 35 21 21 22 5- 5, 53 54 40 4.

6--7 1-6--7 0-6--7 ,-6--7 1-6--7 .-6--7 3-6--7 2-6--7 5-6--7 4-6--7 1--6--7

89:;<:=>? 7 @<A<B?CDE?

7 / 13

Gli indici numerici

Per sintetizzare le informazioni salienti di un campione di dati x1, . . . , xn si calcolano gli indici numerici.

INDICI DI POSIZIONE

Media campionaria: x := 1 n

n

X

i =1

xi

Mediana campionaria: disposti i dati in ordine crescente, `e il dato in posizione centrale.

Percentili campionari: dato k ∈ [0, 100] e disposti i dati in ordine crescente, il k-esimo percentile e’ quel dato tale che:

ci sono k% dati alla sua sinistra

ci sono (100 − k)% dati alla sua destra Si noti che mediana = 50 percentile.

(5)

INDICI DI DISPERSIONE

Varianza campionaria:

sx2 := 1 n − 1

n

X

i =1

(xi − x)2

Una misura della “larghezza” dell’istogramma `e data dalla deviazione standard campionaria sx := psx2.

Differenza interquartile:

Q3 − Q1 Q1 `e il primo quartile = 25 percentile Q3 `e il terzo quartile = 75 percentile.

9 / 13

Calcolo degli indici per la variabile T

Con l’ausilio della tabella delle frequenze si calcolano:

Media campionaria x = 71, 009

x = 1

222

95

X

j =42

j · fj (fj = frequenza ass. del valore j )

Mediana campionaria (= Q2) = 75

Q1 = 60 Q3 = 81

Q3 − Q1 = 21

Varianza campionaria sx2 = 163, 819 Dev. standard campionaria sx = 12, 799

10 / 13

(6)

Correlazione tra due variabili

In presenza di due campioni di dati x1, . . . , xn y1, . . . , yn

vogliamo evidenziare un’eventuale correlazione tra le due variabili.

Qualitativamente: diagramma di dispersione:

disegnare i punti (xi, yi) in un piano cartesiano e osservare se tendono ad allinearsi lungo una retta (non orizzontale)

Quantitativamente: coefficiente di correlazione campionaria

r :=

1 n−1

Pn

i =1(xi − x) · (yi − y ) sx · sy

11 / 13

Diagramma di dispersione per le variabili (D,T)

D"#$%#&&# (" (")*+%)",-+

25 35 45 55 65 75 85 95 105

0 1 2 3 4 5 6

D.%#/# +%.0",-+ D 1&"-2

3+&*, #//+)# 3 1&"-2

(7)

Utilizzando la serie completa di dati si ottiene r = 0, 877

Dunque le variabili sono positivamente correlate e la correlazione `e abbastanza forte (|r | vicino a 1).

Osservazione finale: il diagramma di dispersione mostra che i dati sono all’incirca concentrati in due blocchi.

Un’indice di questo fatto si poteva gi`a leggere

nell’istogramma della variabile T analizzato in precedenza (distribuzione non unimodale).

13 / 13

Riferimenti

Documenti correlati

Un mio amico ha acquistato quel modello di auto, e ha fatto 20000 Km senza che alcuna manutenzione straordinaria sia stata necessaria. Sulla base di questa informazione calcolare

Dopo il trattamento, si misura il livello di depressione degli individui nei due gruppi, usando la scala di Hamilton (che fornisce un valore tanto pi` u elevato quanto maggiore ` e

Dopo il trattamento, si misura il livello di depressione degli individui nei due gruppi, usando la scala di Hamilton (che fornisce un valore tanto pi` u elevato quanto maggiore ` e

Si misura la concentrazione nell’aria di una certa sostanza in 50 punti diversi di una citt` a, ottenendo un valore medio x = 6.35 (espresso in opportune unit` a di misura).

Il numero di telefonate giornaliere effettuate a Padova in cui il numero di telefono viene composto in modo errato si pu` o descrivere con una variabile di Poisson di media 17.5.. `

Si sa che i libri prodotti da una certa casa editrice contengono in media 5 pagine con refusi.. In una fabbrica di circuiti stampati vengono prodotti 10000 pezzi

Si sa che nei libri prodotti da una certa casa editrice ciascuna pagina pu` o contenere refusi con probabilit` a 20 1 , indipendentemente dalle

Una volta effet- tuata la scelta, io guardo di nascosto il contenuto delle due buste rimaste e ve ne mostro una vuota (tra le mie due buste ce n’` e almeno una vuota, dunque lo