• Non ci sono risultati.

uesto capitolo descrive la statistica, l’arte di imparare dai dati. Vengono descritte le due branche della statistica, la statistica descrittiva e la statistica inferenziale.

N/A
N/A
Protected

Academic year: 2021

Condividi "uesto capitolo descrive la statistica, l’arte di imparare dai dati. Vengono descritte le due branche della statistica, la statistica descrittiva e la statistica inferenziale."

Copied!
134
0
0

Testo completo

(1)

uesto capitolo descrive la statistica, l’arte di imparare dai dati. Vengono descritte le due branche della statistica, la statistica descrittiva e la statistica inferenziale.

Viene discussa l’idea di conoscere una popolazione attraverso il campionamento e lo studio di certe quantità numeriche, con alcuni cenni storici.

1.1 Introduzione

È meglio che i bambini comincino la scuola prima, o più tardi? Si tratta di una que- stione importante sia per i genitori che per i legislatori. Come possiamo rispondere?

È ragionevole cominciare a riflettere sul problema, correlandolo alla nostra espe- rienza personale e a quella dei nostri conoscenti. Tuttavia, per convincere gli altri e ottenere consenso, ci servono informazioni oggettive. Per esempio, in molti stati ame- ricani, i bambini del primo anno di scuola devono affrontare una prova scritta di fine anno. I risultati si potrebbero raccogliere e analizzare per capire se c’è una correla- zione tra l’età a cui un bambino comincia la scuola e il risultato della prova. Studi di questo tipo sono stati effettivamente realizzati, di solito con la conclusione che gli stu- denti che cominciano più tardi, considerati come un gruppo, riescono meglio nella prova dei compagni più giovani.Tuttavia, è stato anche osservato che il motivo di que- sto risultato potrebbe essere semplicemente che i bambini che cominciano la scuola più tardi sono più grandi al momento della prova, e che questo fatto potrebbe bastare a giustificare i loro voti più alti. Per esempio, supponiamo che alcuni genitori non man- dino i loro figli a scuola a 6 anni, ma che aspettino l’anno successivo. Questi bambini probabilmente impareranno molto nell’anno in più che trascorreranno a casa, e quindi

1

Introduzione alla statistica

Gli statistici hanno già invaso ogni branca della scienza con una rapidità di conquista

paragonabile solo ad Attila, a Maometto e alle cavallette.

Maurice Kendall (statistico inglese)

Q

(2)

alla fine del primo anno di scuola potrebbero avere risultati più alti di quelli che avreb- bero ottenuto cominciando la scuola a 6 anni.

Un recente studio (Tabella 1.1) ha tentato di migliorare i lavori precedenti esami- nando l’effetto dell’età a cui un bambino comincia la scuola sul numero totale di anni di scuola che egli porterà a termine. Questi autori sostengono che il numero totale di anni spesi a scuola è un indicatore del successo scolastico migliore del punteggio otte- nuto in una prova effettuata nei primi anni. Usando i dati dei censimenti del 1960 e del 1980, hanno concluso che l’età in cui i bambini iniziano la scuola ha ben poco effetto sul numero totale di anni di istruzione portati a termine. La Tabella 1.1 è adattata da una di quelle presentate nel lavoro in questione. La tabella indica che, sul totale dei bambini che hanno cominciato la scuola nel 1949, la metà più giovane (che ha comin- ciato a una media di 6.29 anni di età) ha continuato a studiare per una media di 13.77 anni, rispetto ai 13.78 relativi alla metà che ha cominciato più tardi.

Si noti che non abbiamo affrontato questo discorso per affermare che l’età in cui si comincia la scuola non influenza il rendimento scolastico. Piuttosto, usiamo questa discussione per dare un esempio dell’approccio moderno a un problema complicato, approccio che consiste nel raccogliere informazioni rilevanti, o dati, che poi vanno descritti e analizzati. Questo è il compito della statistica.

1.2 La natura della statistica

Al giorno d’oggi si dà per scontato che, per conoscere qualcosa, bisogna prima di tutto raccogliere dati. Per esempio, il primo passo per affrontare questioni come:

1. lo stato attuale dell’economia;

2. la percentuale dell’elettorato che condivide una certa affermazione;

3. i consumi di un nuovo modello di automobile;

4. l’efficacia di un nuovo medicinale;

Metà più giovane Metà più anziana

Età media all’inizio Numero medio Età media all’inizio Numero medio Anno della scuola di anni completati della scuola di anni completati

1946 6.38 13.84 6.62 13.67

1947 6.34 13.80 6.59 13.86

1948 6.31 13.78 6.56 13.79

1949 6.29 13.77 6.54 13.78

1950 6.24 13.68 6.53 13.68

1951 6.18 13.63 6.45 13.65

1952 6.08 13.49 6.37 13.53

Fonte: J. Angrist e A. Krueger, “The Effect of Age at School Entry on Educational Attainment: An Application of Instrumental Variables with Moments from Two Samples,” Journal of the American Statistical Association, vol. 87, no. 18, 1992, pp. 328–336.

Tabella 1.1 Anni totali di scolarizzazione relativi all’età iniziale

(3)

5. l’utilità di un nuovo sistema per insegnare a leggere ai bambini della scuola ele- mentare;

consiste nel raccogliere dati.

Definizione

La statistica è l’arte di apprendere dai dati. La statistica si occupa della raccolta, della descrizione e dell’analisi dei dati, possibilmente permettendo di trarne delle conclu- sioni.

1.2.1 Raccolta dei dati

Talvolta un’analisi statistica comincia con un insieme di dati prestabilito; per esempio, lo stato raccoglie e pubblica regolarmente dati su quantità come il tasso di disoccupa- zione e il prodotto interno lordo. In queste situazioni si usa la statistica per descrivere, riassumere e analizzare i dati.

In altre situazioni, i dati non sono ancora disponibili, e possiamo utilizzare la stati- stica per progettare un esperimento che li generi. La scelta di un esperimento dovrebbe dipendere dall’uso che si vuole fare dei dati. Per esempio, per verificare l’ef- ficacia di un farmaco per ridurre il colesterolo, si possono trovare dei volontari a cui misurare il livello di colesterolo. Poi si somministra il farmaco per un certo periodo di tempo, e si misura il livello di nuovo. Tuttavia, l’esperimento non sarebbe efficace se il medicinale fosse somministrato a tutti i volontari. In tal caso, infatti, anche se il livello di colesterolo di tutti i volontari fosse sceso in modo significativo, non saremmo comunque autorizzati a concludere che il miglioramento sia dovuto al farmaco e non a qualche altro fattore. Per esempio, è un fatto molto ben documentato che se un paziente si sottopone a un trattamento, anche non correlato con la sua malattia, spesso ottiene comunque un miglioramento della sua condizione. Si tratta dell’effetto pla-

cebo, che non è poi così sorprendente come potrebbe sembrare all’inizio, visto che la

convinzione di essere sottoposti a un adeguato trattamento medico spesso riduce lo stress, il che può bastare a migliorare lo stato di salute. Inoltre altri fattori – spesso sco- nosciuti – possono contribuire a ridurre il livello di colesterolo. Per esempio, potrebbe capitare un periodo particolarmente caldo (o freddo) che spinga i volontari a passare più o meno tempo all’aria aperta, il che sarebbe un fattore importante. Quindi pos- siamo concludere che somministrare il medicinale a tutti i volontari non è un metodo adeguato per raccogliere dati che ci facciano capire se il farmaco è efficace.

Possiamo migliorare l’esperimento cercando di neutralizzare tutti i fattori che pos-

sono influenzare il livello del colesterolo a eccezione del farmaco stesso. Il metodo

universalmente accettato per ottenere questo risultato consiste nel suddividere i

volontari in due gruppi; al primo gruppo viene somministrato il farmaco in questione,

mentre all’altro vengono somministrate delle pastiglie (chiamate placebo) con lo

stesso aspetto e gusto del farmaco, ma senza alcun effetto fisiologico. I candidati non

dovrebbero sapere se hanno ricevuto il vero farmaco o il placebo, e non dovrebbe

saperlo neanche il personale medico, in modo che le loro convinzioni personali non

giochino alcun ruolo. Inoltre, vogliamo che la suddivisione dei volontari in due gruppi

sia eseguita in modo da non privilegiare in nessun modo un gruppo rispetto all’altro.

(4)

Si ritiene che il metodo migliore per ottenere questo risultato sia di suddividere i volontari “a caso,” il che per noi significa che la suddivisione viene effettuata in modo che tutte le possibili scelte di persone che assumeranno il farmaco siano ugualmente probabili. Il gruppo che non riceve alcun trattamento (costituito in questo caso dai volontari a cui somministriamo il placebo) si chiama gruppo di controllo.

Alla fine dell’esperimento bisogna descrivere i dati raccolti. Per esempio, bisogne- rebbe riportare i livelli di colesterolo di ciascun volontario all’inizio e alla fine dell’e- sperimento, indicando se è stato somministrato il farmaco o il placebo. Inoltre, bisognerebbe determinare anche delle quantità riassuntive, come la riduzione media del livello di colesterolo nei pazienti del gruppo di controllo e nei pazienti che assu- mono il farmaco.

Definizione

La parte della statistica che si occupa di descrivere e riassumere i dati si chiama stati-

stica descrittiva.

1.2.2 Statistica inferenziale e modelli probabilistici

Non appena l’esperimento è stato concluso e i dati sono stati raccolti e descritti, vor- remmo giungere a una conclusione sull’efficacia del farmaco. Per esempio, possiamo affermare che sia efficace per ridurre il livello di colesterolo nel sangue?

Definizione

La parte della statistica che si occupa di trarre conclusioni dai dati si chiama statistica

inferenziale.

Per poter trarre conclusioni dai dati, dobbiamo tenere conto del ruolo che può gio- care il caso. Per esempio, supponiamo che la riduzione media del colesterolo sia più marcata per il gruppo che assume il farmaco rispetto al gruppo di controllo. Possiamo concludere che questo risultato dipenda dal farmaco? E se il farmaco fosse inefficace, e il miglioramento fosse semplicemente dovuto al caso? Per esempio, il fatto che lan- ciando una moneta otteniamo testa 7 volte su 10 non significa necessariamente che continueremo a ottenere più teste che croci nei prossimi lanci. Infatti, potrebbe trat- tarsi di una moneta normalissima che, per puro caso, ha mostrato testa 7 volte in 10 lanci. (D’altra parte, se otteniamo 47 teste su 50 lanci, possiamo essere abbastanza sicuri che la moneta sia truccata.)

Per poter trarre conclusioni sensate dai dati, spesso serve fare delle assunzioni sulle

probabilità

di ottenere ciascun valore. L’insieme di queste assunzioni prende il nome di modello probabilistico per i dati. Talvolta la natura stessa dei dati ci suggerisce un modello probabilistico.

Per esempio, supponiamo di chiedere a un gruppo selezionato di persone se sono

in accordo con una proposta di riforma sociale presentata da un senatore; in questo

caso le risposte che otteniamo costituiscono i dati. Supponendo che il gruppo sia stato

scelto in modo casuale, è ragionevole supporre che ciascun soggetto intervistato abbia

(5)

probabilità p di essere a favore, dove p è la proporzione ignota di tutti i cittadini favo- revoli alla proposta rispetto al totale. I dati raccolti possono essere utilizzati per sti- mare p.

In altre situazioni, il modello probabilistico da usare per i dati a disposizione non è evidente. Tuttavia, un’accurata descrizione e presentazione dei dati a volte ci indirizza verso un modello ragionevole, che possiamo poi cercare di verificare usando nuovi dati.

Visto che il fondamento dell’inferenza statistica consiste nel formulare un modello probabilistico atto a descrivere i dati, è necessaria una certa conoscenza di teoria della probabilità. In altre parole, l’inferenza statistica si basa sull’assunzione che importanti aspetti del fenomeno in analisi si possano rappresentare in termini di probabilità, e giunge a conclusioni usando i dati per fare inferenza su queste probabilità.

1.3 Popolazioni e campioni

In statistica, ci interessa ottenere informazioni su tutto un insieme di elementi, che definiamo popolazione. Spesso la popolazione è troppo numerosa per poter analiz- zare ciascuno dei suoi membri. Per esempio, potrebbe trattarsi di tutti i residenti di uno stato, o di tutti i televisori fabbricati l’anno scorso da una certa impresa, o di tutte le abitazioni di una regione. In casi di questo tipo, cerchiamo di conoscere la popola- zione scegliendo ed esaminando un sottoinsieme dei suoi elementi. Questo sottoin- sieme di una popolazione si chiama campione.

Definizione

L’insieme di tutti gli elementi che ci interessano si chiama popolazione.

Un sottoinsieme della popolazione che viene studiato in dettaglio si chiama campione.

Affinché il campione ci dia informazioni su tutta la popolazione, esso deve essere scelto in modo da essere, in un certo senso, rappresentativo di tutta la popolazione. Per esempio, supponiamo di voler conoscere la distribuzione dell’età dei residenti di una certa città, e di conoscere l’età delle prime 100 persone che entrano nella biblioteca civica. Se l’età media di queste 100 persone è 46.2 anni, siamo autorizzati a concludere che quella è l’età media dell’intera popolazione? Probabilmente no, perché potremmo certamente sostenere che in questo caso il campione scelto non è rappresentativo della popolazione in quanto di solito i giovani studenti e gli anziani frequentano la biblioteca più dei cittadini lavoratori. Notiamo che rappresentativo non significa che la distribuzione dell’età delle persone del campione deve essere la stessa di quella della popolazione totale, ma piuttosto che il campione deve essere scelto in modo che tutte le parti della popolazione abbiano uguale probabilità di fare parte del campione.

In alcune situazioni, come l’esempio della biblioteca, disponiamo di un campione e

dobbiamo valutare se esso è abbastanza rappresentativo dell’intera popolazione. In

pratica, un campione dato di solito non si può considerare rappresentativo di una

popolazione a meno che il campione non sia stato scelto in modo casuale. Il motivo di

ciò è che una regola non casuale per scegliere il campione spesso privilegia certi valori

dei dati piuttosto che altri.

(6)

Definizione

Un campione di k membri di una popolazione si dice campione casuale, o talvolta

campione casuale semplice

se i membri sono scelti in modo che tutte le possibili scelte dei k membri siano ugualmente probabili.

Di conseguenza, per quanto possa sembrare paradossale, abbiamo più possibilità di ottenere un campione rappresentativo se scegliamo i membri in modo completamente casuale senza alcuna considerazione su quali elementi verranno scelti. In altre parole, non è necessario cercare intenzionalmente di scegliere un campione in modo che esso contenga, per esempio, la stessa percentuale di uomini e di donne, o di giovani e di anziani, della popolazione totale. Piuttosto, dobbiamo semplicemente affidarci al

“caso” di ottenere all’incirca le giuste percentuali. I metodi pratici per scegliere un campione casuale richiedono l’uso di numeri casuali e saranno presentati nell’Appendice C.

Una volta scelto un campione casuale, possiamo usare l’inferenza statistica per giungere a conclusioni sull’intera popolazione studiando gli elementi del campione.

*1.3.1 Campionamento casuale stratificato

Un metodo più sofisticato del campionamento casuale semplice è il campionamento

casuale stratificato. Questo sistema, che richiede di avere più informazioni iniziali

sulla popolazione rispetto al campionamento casuale semplice, si può spiegare con l’esempio che segue. Consideriamo una scuola superiore che abbia 300 studenti del primo anno, 500 del secondo, 600 del terzo e 600 del quarto. Supponiamo che per sapere le opinioni degli studenti su un’iniziativa di reclutamento dell’esercito, ven- gano condotte 100 interviste approfondite. Invece di scegliere a caso 100 persone sul totale di 2000 studenti, per ottenere un campione stratificato calcoliamo quanti stu- denti dobbiamo scegliere da ogni classe. Visto che la frazione di studenti del primo anno è 300/2000 = 0.15, in un campione stratificato la frazione deve essere la stessa, e quindi ci sono 100 × 0.15 = 15 studenti del primo anno nel campione. Allo stesso modo, scegliamo 100 × 0.25 = 25 studenti del secondo, 100 × 0.30 = 30 del terzo e 30 del quarto anno. Per ogni anno, poi, gli studenti sono scelti a caso.

In altre parole, in un campione di questo tipo, dapprima si stratifica la popolazione in sottopopolazioni, e poi si sceglie casualmente il giusto numero di elementi da ogni sottopopolazione. Di conseguenza, le proporzioni del campione che appartengono a ciascuna delle sottopopolazioni sono esattamente le stesse delle proporzioni per la popolazione totale. La stratificazione è particolarmente efficace per conoscere il membro “medio” della popolazione totale quando ci sono differenze tra le sottopopo- lazioni rispetto alla questione studiata. Per esempio, nel sondaggio di cui sopra, gli stu- denti delle ultime classi sono più direttamente interessati dalle operazioni di reclutamento rispetto ai compagni più giovani. Di conseguenza gli studenti di ciascun anno potrebbero avere opinioni uniformemente differenti sul reclutamento, e la stra- tificazione sarebbe efficace per conoscere i sentimenti dello studente medio.

* L’asterisco indica materiale facoltativo, che non sarà utilizzato nel seguito.

(7)

1.4 Cenni storici

Una raccolta di dati sistematica sulla popolazione e l’economia fu introdotta per la prima volta nelle città-stato di Venezia e Firenze durante il Rinascimento. Il termine

statistica, che deriva dalla parola stato, si usava per indicare una raccolta di informa-

zioni che interessavano allo stato. L’idea di raccogliere dati si diffuse poi dall’Italia agli altri Paesi dell’Europa occidentale. Nella prima metà del XVI secolo era ormai diven- tato abituale che gli stati europei richiedessero alle parrocchie di registrare nascite, matrimoni e decessi.A causa del basso livello di salute pubblica, quest’ultima statistica era di particolare interesse.

L’alto tasso di mortalità in Europa prima del XIX secolo era dovuto principal- mente alle epidemie, alle guerre e alle carestie. Tra le epidemie, le più funeste furono le pestilenze.A partire dalla Peste Nera del 1348, la peste tormentò l’Europa per quasi 400 anni. Nel 1562, per suggerire alla corte del re di trasferirsi in campagna, la città di Londra cominciò a pubblicare dei bollettini settimanali sui decessi. Inizialmente que- sti bollettini indicavano il luogo del decesso, e se questo era dovuto alla peste. A par- tire dal 1625, i bollettini indicavano anche tutte le altre cause dei decessi.

Nel 1662 il commerciante inglese John Graunt pubblicò un libro intitolato

Osservazioni naturali e politiche fatte sui bollettini di mortalità. La Tabella 1.2, che

riporta il numero totale di decessi in Inghilterra e il numero di quelli causati dalla peste per cinque diversi anni colpiti da pestilenza, proviene da questo libro.

Graunt usò i bollettini di mortalità di Londra per stimare la popolazione della città.

Per esempio, per stimare la popolazione di Londra nel 1660, Graunt intervistò gli abi- tanti di alcuni quartieri della città e scoprì che, in media, in un anno avvenivano circa 3 decessi ogni 88 persone. Dividendo per 3 si ottiene che si verificava circa 1 decesso ogni 88/3 persone.Visto che i bollettini di quell’anno indicavano 13 200 decessi Graunt stimò che la popolazione di Londra fosse di circa

Graunt usò questa stima per stimare la popolazione dell’intera Inghilterra. Nel suo libro suggerì che queste cifre potessero essere utilizzate dai governanti per calcolare quanti uomini si potessero chiamare alle armi o tassare.

Graunt inoltre usò i bollettini di Londra per calcolare l’età a cui le persone mori- vano, utilizzando delle ingegnose ipotesi su quali fossero le malattie letali, e a che età si manifestassero. (Ricordiamo che i bollettini indicavano solo la causa e il luogo dei decessi, ma non l’età di chi moriva.) Graunt utilizzò queste informazioni per compilare

13 200 ⋅ 88

3 = 387 200

Anno Decessi Dovuti alla peste

1592 25 886 11 503

1593 17 844 10 662

1603 37 294 30 561

1625 51 758 35 417

1636 23 359 10 400

Tabella 1.2 Numero totale di decessi in Inghilterra

(8)

delle tabelle che fornivano le proporzioni della popolazione che moriva alle varie età.

La Tabella 1.3 è una delle tabelle di mortalità di Graunt. Essa afferma, per esempio, che su 100 nati, 36 morivano prima di raggiungere i 6 anni, 24 tra l’età di 6 e 15, e così via.

Le stime di Gaunt sull’età a cui le persone morivano erano di grande interesse per chi lavorava nella vendita dei vitalizi. Un vitalizio è l’opposto dell’assicurazione sulla vita: chi sottoscrive un vitalizio versa una cospicua somma per poi ricevere pagamenti regolari per tutta la vita.

Il lavoro di Graunt sulle tabelle di mortalità ispirò il lavoro di Edmund Halley nel 1693. Halley, lo scopritore della cometa che porta il suo nome (e anche il principale responsabile, sia per l’incoraggiamento che per l’appoggio economico, della pubblica- zione dei famosi Principia Mathematica di Isaac Newton), usò le tabelle di mortalità per calcolare la probabilità che una persona di qualunque età vivesse fino a raggiun- gere un’altra età. Il lavoro di Halley fu fondamentale per convincere gli assicuratori di allora che il premio annuale per un’assicurazione sulla vita dovesse dipendere dall’età della persona assicurata.

Dopo Graunt e Halley, le raccolte di dati si intensificarono per tutto il resto del XVII e del XVIII secolo. Per esempio, Parigi cominciò a registrare i decessi nel 1667, mentre entro il 1730 era diventato abituale in tutta Europa registrare l’età dei morti.

Il termine statistica, che fino alla fine delle XVIII secolo indicava la scienza descrit- tiva degli stati, nel XIX secolo fu sempre più associato ai numeri. Già negli anni ’30 dell’Ottocento, sia in Inghilterra che in Francia, il termine era sinonimo di scienza

numerica

della società. Questa variazione di significato era dovuta all’abbondanza di dati prodotti dai censimenti e da altre indagini condotte sistematicamente dai governi dell’Europa occidentale e degli Stati Uniti a partire dal 1800.

Nel corso del XIX secolo, nonostante la teoria della probabilità fosse già stata svi- luppata da matematici come Jacob Bernoulli, Karl Friedrich Gauss e Pierre Simon Laplace, il suo uso nella statistica era quasi inesistente, perché molti statistici del tempo si contentavano di lasciare che i dati parlassero da sé. In particolare, in quel periodo gli statistici non erano interessati a fare infererenze sugli individui, ma piutto- sto si occupavano della società nel suo insieme. Quindi, non si preoccupavano di cam-

Età al decesso Decessi per ogni 100 nascite

0-6 36

6-16 24

16-26 15

26-36 9

36-46 6

46-56 4

56-66 3

66-76 2

!76 1

Nota: ogni categoria arriva fino all’estremo superiore escluso, quindi per esempio 0-6 significa da 0 a 5 anni.

Tabella 1.3 Tabella di mortalità di Graunt

(9)

pionare, ma piuttosto di censire l’intera popolazione. Di conseguenza, l’inferenza sta- tistica dai campioni alle popolazioni era quasi sconosciuta agli statistici del XIX secolo.

Fu solo verso la fine dell’Ottocento che gli statistici cominciarono a trarre conclu- sioni inferenziali dai dati numerici. Il movimento cominciò con il lavoro di Francis Galton nell’analisi dell’ereditarietà attraverso quella che oggi chiamiamo regressione e correlazione (si veda il Capitolo 12) e si rafforzò soprattutto grazie al lavoro di Karl Pearson. Pearson, che sviluppò il test del chi-quadrato (si veda il Capitolo 13), fu il primo direttore del laboratorio Galton, fondato da Francis Galton nel 1904. Pearson stabilì un programma di ricerca dedicato allo sviluppo di nuovi metodi per utilizzare la statistica nell’inferenza. Il laboratorio invitava i ricercatori in ambito scientifico e industriale ad apprendere metodi statistici da applicare nei rispettivi settori. Uno dei primi ricercatori che si presentarono fu W. S. Gosset, un chimico che mostrò la sua devozione a Pearson pubblicando i propri lavori sotto lo pseudonimo Student. (Un famoso aneddoto narra che Gosset non volle pubblicare con il suo vero nome per timore che i suoi datori di lavoro al birrificio Guinness non gradissero di venire a sapere che uno dei loro chimici stava conducendo ricerche in statistica.) Gosset è famoso per il suo sviluppo del test t di Student (si veda Capitolo 9).

All’inizio del XX secolo, due delle più importanti aree di applicazione della stati- stica erano la biologia delle popolazioni e l’agricoltura. Ciò era dovuto all’interesse in proposito di Pearson e di altri del suo laboratorio, e ai notevoli risultati ottenuti dallo scienziato inglese Ronald A. Fisher. La teoria dell’inferenza sviluppata da questi pio- nieri, tra cui c’erano anche il figlio di Karl Pearson, Egon, e il matematico e statistico polacco Jerzy Neyman, era abbastanza generale da poter trattare un’ampia gamma di problemi quantitativi e pratici. Di conseguenza, passati i primi anni del secolo, un numero sempre maggiore di scienziati, di uomini d’affari e di politici cominciarono a considerare la statistica come un sistema in grado di fornire soluzioni quantitative a vari problemi sia scientifici che pratici.

Oggigiorno le idee della statistica si trovano ovunque. La statistica descrittiva com- pare in ogni quotidiano e in ogni rivista. L’inferenza statistica è diventata indispensa- bile per la sanità e la ricerca medica, per il marketing e il controllo di qualità, per l’istruzione, la contabilità, l’economia, le previsioni del tempo, i sondaggi, lo sport, le assicurazioni, il gioco d’azzardo, e per tutta la ricerca che si possa definire scientifica.

La statistica è ormai entrata a far parte della nostra tradizione intellettuale.

Problemi

1. Questo problema si riferisce alla Tabella 1.1.

(a) In che anno c’è stata la più grande discrepanza tra il numero di anni di scuola portati a termine dagli studenti che hanno cominciato prima e da quelli che hanno cominciato più tardi?

(b) Gli anni in cui chi ha cominciato presto la scuola ha studiato più a lungo sono la maggior parte, o viceversa?

2. Il grafico che segue rappresenta il consumo di latte e derivati negli Stati Uniti dal

1909 al 2000. Che cosa possiamo concludere in generale?

(10)

3. I dati che seguono indicano le percentuali di fumatori negli Stati Uniti, suddivisi per sesso e livello di istruzione, dal 1999 al 2002.

(a) Per quale gruppo c’è stata una diminuzione costante?

(b) Possiamo affermare che ci sia un una tendenza generale?

4. Un ricercatore medico, per stabilire l’efficacia di un farmaco, ha cominciato a somministrare il farmaco e un placebo. Per assicurarsi che i due gruppi di pazienti – quello che assume il farmaco e quello che assume il placebo – siano più simili possibile, il ricercatore ha deciso di non affidarsi al caso ma di analizzare i volon- tari per poi dividerli lui stesso in gruppi. Questo sistema è consigliabile? Perché?

5. Spiega perché è importante che un ricercatore che voglia scoprire se un nuovo farmaco è efficace non sappia quali pazienti stiano assumendo il farmaco e quali il placebo.

6. La settimana prossima si terranno delle elezioni, e mediante un sondaggio su un campione degli elettori stiamo cercando di prevedere se vincerà il candidato di destra o quello di sinistra. Quale dei seguenti metodi produrrà un campione rap- presentativo?

(a) Intervistare tutti i maggiorenni che assistono a una partita universitaria di pallacanestro.

Fumatori negli U.S.A. (% di tutti gli adulti)

1999 2000 2001 2002

Totale 25.8 24.9 24.9 26.0

Sesso

Uomini 28.3 26.9 27.1 28.7

Donne 23.4 23.1 23.0 23.4

Livello di istruzione Non diplomato

alla scuola superiore 39.9 32.4 33.8 35.2 Diplomato

alla scuola superiore 36.4 31.1 32.1 32.3 Frequentato il college 32.5 27.7 26.7 29.0

Diplomato al college 18.2 13.9 13.8 14.5

1909 16 23 30 37 44 51 58 65 72 79 86 93 2000

0 10 20 30 40

Galloni pro-capite

Latticello

Latte intero

Altro latte scremato

(11)

(b) Intervistare tutti i maggiorenni che escono da un ristorante alla moda in centro.

(c) Procurarsi una copia della lista degli elettori registrati, scegliere 100 nomi a caso e intervistarli.

(d) Utilizzare i risultati di un sondaggio televisivo in cui si chiede agli spettatori di telefonare dando una preferenza.

(e) Scegliere dei nomi dall’elenco telefonico e intervistare quelle persone per telefono.

7. L’approccio usato nel Problema 6(e) ha portato a un disastroso errore di previ- sione durante le elezioni presidenziali del 1936 negli Stati Uniti, in cui Franklin Roosevelt sconfisse pesantemente Alfred Landon. Il Literary Digest aveva previ- sto invece una vittoria di Landon. Il giornale aveva basato il suo risultato sulle preferenze di un campione di elettori scelti dalle liste dei proprietari di automo- bili e di apparecchi telefonici.

(a) Quale potrebbe essere il motivo di questo clamoroso errore?

(b) È cambiato qualcosa dal 1936 ad ora che farebbe pensare che oggi l’approc- cio del Literary Digest potrebbe essere più efficace?

8. Un ricercatore sta cercando di determinare l’età media di morte oggi negli Stati Uniti. Per ottenere i dati, egli legge i necrologi del New York Times per 30 giorni, annotando l’età dei deceduti negli Stati Uniti. Pensi che questo sistema produca un campione rappresentativo?

9. Se, nel Problema 8, l’età media dei deceduti risultasse essere di 82.4 anni, cosa potremmo concludere?

10. Per determinare la percentuale di fumatori nella tua città, si è deciso di intervi- stare persone nei seguenti luoghi:

(a) La piscina (b) La bocciofila (c) Il centro commerciale (d) La biblioteca

Quale di questi luoghi ha migliori possibilità di produrre una buona approssima- zione della percentuale richiesta, e perché?

11. Una certa università vuole condurre un’indagine sui suoi recenti laureati per determinare l’entità dei loro stipendi.Vengono scelti a caso 200 laureati a cui ven- gono inviati questionari che chiedono informazioni sul loro lavoro attuale.

Tuttavia, su 200, vengono compilati solo 86 questionari. Supponiamo che la media degli stipendi annuali dichiarati sia di $ 75 000.

(a) L’università potrebbe a questo punto sostenere correttamente che $ 75 000 sia una buona approssimazione dello stipendio medio dei suoi laureati?

Perché?

(b) Se la tua risposta al punto (a) è no, puoi immaginare delle caratteristiche del

gruppo di persone che compilano questionari per cui $ 75 000 sarebbe una

buona approssimazione?

(12)

12. Un articolo ha riportato i risultati di un’indagine sull’abbigliamento dei pedoni investiti e uccisi durante la notte secondo la quale l’80% delle vittime indossava vestiti scuri e il 20% vestiti chiari. L’articolo conclude che di notte è più sicuro indossare abiti chiari.

(a) La conclusione è giustificata? Perché?

(b) Se hai risposto no, quali altre informazioni sarebbero necessarie per giungere a una conclusione significativa?

13. Analizza il metodo di Graunt per determinare la popolazione di Londra. Quali sono le sue assunzioni implicite?

14. I bollettini di mortalità di Londra indicano 12 246 decessi nel 1658. Supponendo che un’indagine nelle parrocchie londinesi abbia indicato che il 2% della popola- zione morì quell’anno, usa il metodo di Graunt per stimare la popolazione di Londra nel 1658.

15. Supponi di essere un venditore di vitalizi nel 1662, quando Graunt pubblicò il suo libro. Spiega come potresti usare i suoi dati sull’età dei deceduti.

16. In base alla Tabella 1.2, quale dei cinque anni di pestilenza riportati sembra essere il più grave? Perché?

17. Sulla base della tabella di mortalità di Graunt:

(a) Quale proporzione dei bambini ha raggiunto i 6 anni?

(b) Quale proporzione ha raggiunto i 46 anni?

(c) Quale proporzione è morta tra l’età di 6 e l’età di 36 anni?

18. In che modo pensi che la statistica sia utile nel tuo indirizzo di studi? Come pensi di utilizzarla nel tuo lavoro?

19. Il grafico a barre nella pagina seguente riporta le caratteristiche demografiche e socio-economiche di un gruppo di fumatori adulti dello stato di New York nel 2006. Usa il grafico per rispondere sì o no alle seguenti affermazioni:

(a) una proporzione maggiore di maschi rispetto alle femmine sono fumatori;

(b) più a lungo una persona è stata senza lavoro, più è probabile che essa sia un fumatore;

(c) più alto è il titolo di studio di una persona, più è probabile che essa sia un fumatore;

(d) l’appartenenza etnica non sembra correlata all’abitudine di fumare.

Si noti che, anche se qualcuna delle risposte precedenti è sì, questo non significa necessariamente che la caratteristica in questione sia una causa del fumare, ma solo che esiste una associazione positiva tra quella caratteristica e il fumare. Il concetto di associazione, o correlazione, sarà trattato nel Capitolo 3.

he er

re;

es- te ne,

lo

(13)
(14)

Varie definizioni di statistica

• La statistica dunque si occupa di dare una fedele rappresentazione di uno stato in una determinata epoca. (Quetelet, 1849)

• La statistica è l’unico metodo con cui possiamo farci strada attraverso l’impene- trabile giungla di difficoltà che blocca il cammino di chi si dedica alle scienze umane. (Galton, 1889)

• La statistica si può considerare come (i) lo studio delle popolazioni, (ii) lo studio delle variazioni, o (iii) lo studio dei metodi per la sintesi dei dati. (Fisher, 1925)

• La statistica è una disciplina scientifica che si occupa della raccolta, dell’analisi e dell’interpretazione dei dati ottenuti da osservazioni o esperimenti. La materia ha una impostazione logica che si basa sulla teoria della probabilità, e include molte diverse procedure che contribuiscono alla ricerca e allo sviluppo in tutta la scienza e la tecnologia. (E. Pearson, 1936)

• Statistica è il nome della scienza e arte che si occupa delle inferenze incerte – che usa i numeri per capire la natura e l’esperienza. (Weaver, 1952)

• La statistica nel XX secolo è diventata lo strumento matematico per analizzare i dati sperimentali e osservazionali. (Porter, 1986)

• La statistica è l’arte di apprendere dai dati. (Ross, 2005)

Parole chiave

Statistica L’arte di apprendere dai dati.

Statistica descrittiva La parte della statistica che si occupa di descrivere e riassumere i dati.

Statistica inferenziale La parte della statistica che si occupa di trarre conclusioni dai dati.

Modello probabilistico Le assunzioni matematiche relative alle probabilità di otte- nere ciascun valore.

Popolazione Un insieme di elementi di interesse.

Campione Un sottoinsieme della popolazione che viene analizzato.

Campione casuale di dimensione k Un campione scelto in modo che qualunque sot- toinsieme di dimensione k abbia la stessa probabilità di essere scelto.

Campione casale stratificato Un campione ottenuto suddividendo la popolazione in

sottopopolazioni distinte e poi scegliendo campioni casuali da ogni sottopopolazione.

(15)

n questo capitolo apprendiamo metodi per rappresentare e descrivere gli insiemi di dati. Introduciamo varie tipologie di tabelle e grafici, che ci permettono di identifi- care facilmente le caratteristiche chiave di un insieme di dati.

2.1 Introduzione

È molto importante che i risultati numerici di uno studio siano presentati in modo chiaro e conciso, in modo che il lettore possa notare facilmente le caratteristiche essenziali dei dati. Questo diventa particolarmente importante quando si devono trat- tare molti dati, il che capita spesso quando si eseguono sondaggi o esperimenti con- trollati. Infatti, un’efficace presentazione dei dati spesso ne evidenzia immedia- tamente caratteristiche come l’intervallo di variazione, la simmetria, la concentrazione e così via. In questo capitolo ci occuperemo delle tecniche per presentare i dati mediante tabelle e grafici.

Le tabelle e i grafici di frequenza sono presentati nel Paragrafo 2.2. Includono vari tipi di tabelle e grafici – a bastoncini, a barre e poligonali – che servono a descrivere insiemi di dati che hanno un numero relativamente basso di valori distinti. Se il numero di valori distinti diventa troppo grande, rendendo questi grafici inefficaci, è utile suddividere i dati in classi disgiunte e considerare quanti valori cadono in ogni classe. Questo sistema è analizzato nel Paragrafo 2.3, in cui studiamo l’istogramma, un grafico a barre che rappresenta le frequenze nelle varie classi. Una variante dell’isto- gramma, il diagramma ramo-foglia, che usa i valori effettivi per rappresentare le dimensioni di una classe, è studiato nel Paragrafo 2.4. Nel Paragrafo 2.5 prendiamo in

2

Descrivere insiemi di dati

I numeri sono l’unico linguaggio universale.

Nathaniel West Chi non conta, non conta.

Anatole France

I

(16)

considerazione il caso in cui i dati consistono di valori accoppiati, come per esempio la popolazione e il livello di criminalità di varie città, e introduciamo il diagramma di dispersione, un metodo efficace per rappresentare una tale situazione. Il Paragrafo 2.6 offre alcuni commenti storici.

2.2 Tabelle e grafici di frequenza

I dati seguenti rappresentano il numero di giorni in cui ciascuno dei 50 lavoratori di una certa azienda si è assentato dal lavoro per malattia nelle ultime 6 settimane:

2, 2, 0, 0, 5, 8, 3, 4, 1, 0, 0, 7, 1, 7, 1, 5, 4, 0, 4, 0, 1, 8, 9, 7, 0, 1, 7, 2, 5, 5, 4, 3, 3, 0, 0, 2, 5, 1, 3, 0, 1, 0, 2, 4, 5, 0, 5, 7, 5, 1

Visto che questo insieme di dati contiene un numero ridotto di valori distinti, con- viene rappresentarli in una tabella delle frequenze che affianchi a ogni valore distinto la rispettiva frequenza di occorrenza. La Tabella 2.1 è una tabella di frequenza per i dati riportati sopra.

In Tabella 2.1 la colonna della frequenza rappresenta il numero di occorrenze di ogni valore distinto dell’insieme di dati. Si noti che la somma di tutte le frequenze è 50, il numero totale delle osservazioni.

ESEMPIO 2.1 Utilizzare la Tabella 2.1 per rispondere alle domande seguenti:

(a) Quanti lavoratori hanno preso almeno 1 giorno di malattia?

(b) Quanti lavoratori hanno preso da 3 a 5 giorni di malattia?

(c) Quanti lavoratori hanno preso più di 5 giorni di malattia?

Soluzione

(a) Dato che 12 lavoratori su 50 non hanno preso giorni di malattia, la risposta è 50 – 12 = 38.

(b) La risposta è la somma delle frequenze per i valori 3, 4 e 5, cioè 4 + 5 + 8 = 17.

(c) La risposta è la somma delle frequenze per i valori 6, 7, 8, e 9. quindi, la risposta è

0 +5 + 2 + 1 = 8.

!

Valore Frequenza Valore Frequenza

0 12 5 8

1 8 6 0

2 5 7 5

3 4 8 2

4 5 9 1

Tabella 2.1 Una tabella delle frequenze dei giorni di malattia

(17)

2.2.1 Grafici a bastoncini, a barre e poligonali

I dati di una tabella di frequenze possono essere rappresentati graficamente come un

grafico a bastoncini, che indica i valori sull’asse orizzontale e rappresenta la frequenza

corrispondente con l’altezza di un segmento verticale. La Figura 2.1 mostra un grafico a bastoncini relativo alla Tabella 2.1.

Talvolta le frequenze non sono rappresentate da linee, ma da barre dotate di un certo spessore. Questi grafici vengono usati spesso, e sono chiamati grafici a barre. La Figura 2.2 mostra un grafico a barre per i dati in Tabella 2.1.

Un altro tipo di grafico usato per rappresentare una tabella di frequenza è il gra-

fico poligonale, in cui le frequenze dei vari valori sono rappresentate da punti connessi

da segmenti. La Figura 2.3 mostra un grafico poligonale per i dati in Tabella 2.1.

12 11 10 9 8 7 6 5 4 3 2 1

0 0 1 2 3 4

Frequenza

Giorni di malattia

5 6 7 8 9

Figura 2.1 Un grafico a bastoncini.

12 11 10 9 8 7 6 5 4 3 2 1

0 0 1 2 3 4

Frequenza

Giorni di malattia

5 6 7 8 9

Figura 2.2 Un grafico a barre.

(18)

Un insieme di dati si dice simmetrico intorno al valore x

0

se le frequenze dei valori

x0

– c e x

0

+ c sono le stesse per ogni c. In altre parole, per ogni costante c, i valori che eccedono x

0

di una quantità c sono tanti quanti i valori che sono inferiori a x

0

di una quantità c. L’insieme di dati presentato in Tabella 2.2 è simmetrico intorno al valore

x0

= 3.

I dati che sono approssimativamente simmetrici si dicono quasi simmetrici. Il modo più semplice di decidere se un insieme di dati è quasi simmetrico è di rappresentarlo graficamente. La Figura 2.4 mostra tre grafici a barre: il primo di un insieme di dati simmetrico, il secondo di un insieme quasi simmetrico, e il terzo di un insieme che non mostra nessuna simmetria.

2.2.2 Grafici delle frequenze relative

A volte conviene considerare e rappresentare le frequenze relative piuttosto che quelle assolute. Se f è la frequenza di occorrenza del valore x di un dato, allora pos- siamo rappresentare in un grafico la frequenza relativa f/n rispetto a x, dove n è il numero totale di osservazioni nell’insieme di dati. Nel caso dei dati nella Tabella 2.1,

n = 50 e le frequenze relative sono quelle in Tabella 2.3. Notiamo che la somma della

colonna delle frequenze è il numero totale delle osservazioni nell’insieme di dati, men- tre la somma della colonna delle frequenze relative è 1.

Figura 2.3 Un grafico poligonale.

12 11 10 9 8 7 6 5 4 3 2 1

0 1 2 3 4

Frequenza

Giorni di malattia

5 6 7 8 9

Valore Frequenza Valore Frequenza

0 1 4 2

2 2 6 1

3 3

Tabella 2.2 Tabella delle frequenze di insieme di dati simmetrico

(19)

Un diagramma poligonale delle frequenze relative compare in Figura 2.5. Il grafico delle frequenze relative ha esattamente lo stesso aspetto del grafico delle frequenze assolute, tranne per il fatto che i valori sull’asse verticale sono quelli precedenti divisi per il numero delle osservazioni nell’insieme di dati.

Come costruire una tabella delle frequenze relative da un insieme di dati

Disporre i valori dei dati in ordine crescente. Determinare i valori distinti e quante volte ciascuno di essi compare. Elencare questi valori distinti affiancati dalla loro fre- quenza f e dalla loro frequenza relativa f/n, dove n è il numero totale di osservazioni nell’insieme di dati.

Simmetrico Quasi simmetrico Nessuna simmetria

Figura 2.4 Grafici a barre e simmetria.

Valore x Frequenza f Frequenza relativa f/n

0 12

1 8

2 5

3 4

4 5

5 8

6 0

7 5

8 2

9 1 1

50 = 0.02 2

50 = 0.04 5

50 = 0.10 0

50 = 0.00 8

50 = 0.16 5

50 = 0.10 4

50 = 0.08 5

50 = 0.10 8

50 = 0.16 12

50 = 0.24

Tabella 2.3 Frequenze relative per i giorni di assenza, n = 50

(20)

ESEMPIO 2.2 Ogni anno al National Golf Club di Augusta, Georgia, si tiene il Torneo Masters di golf. Per scoprire il punteggio necessario per vincere il torneo, abbiamo raccolto i punteggi dei vincitori dal 1968 al 2004.

(a) Disponi i dati sui punteggi vincenti in una tabella delle frequenze relative.

(b) Rappresenta questi dati in un grafico delle frequenze relative.

0.3

0.2

0.1

0.0

0 1 2 3 4

Frequenza relativa

5 6 7 8 9

Giorni di malattia

Figura 2.5 Grafico poligonale delle frequenze relative.

I vincitori del Torneo Masters di golf

Anno Vincitore Punteggio Anno Vincitore Punteggio

1968 Bob Goalby 277 1987 Larry Mize 285

1969 George Archer 281 1988 Sandy Lyle 281

1970 Billy Casper 279 1989 Nick Faldo 283

1971 Charles Coody 279 1990 Nick Faldo 278

1972 Jack Nicklaus 286 1991 Ian Woosnam 277

1973 Tommy Aaron 283 1992 Fred Couples 275

1974 Gary Player 278 1993 Bernhard Langer 277

1975 Jack Nicklaus 276 1994 J.M. Olazabal 279

1976 Ray Floyd 271 1995 Ben Crenshaw 274

1977 Tom Watson 276 1996 Nick Faldo 276

1978 Gary Player 277 1997 Tiger Woods 270

1979 Fuzzy Zoeller 280 1998 Mark O’Meara 279

1980 Severiano Ballesteros 275 1999 J.M. Olazabal 280

1981 Tom Watson 280 2000 Vijay Singh 278

1982 Craig Stadler 284 2001 Tiger Woods 272

1983 Severiano Ballesteros 280 2002 Tiger Woods 276

1984 Ben Crenshaw 277 2003 Mike Weir 281

1985 Bernhard Langer 282 2004 Phil Nickelson 279

1986 Jack Nicklaus 279

(21)

Soluzione

(a) I 37 punteggi vincenti vanno da un minimo di 270 a un massimo di 289. La tabella delle frequenze relative è la seguente:

(b) Il seguente è un grafico a barre delle frequenze relative.

Punteggio vincente Frequenza f Frequenza relativa f/37

270 1 0.027

271 1 0.027

272 1 0.027

274 1 0.027

275 2 0.054

276 4 0.108

277 5 0.135

278 3 0.081

279 6 0.162

280 4 0.108

281 3 0.081

282 1 0.027

283 2 0.054

284 1 0.027

285 1 0.027

286 1 0.027

0.18 0.16 0.14 0.12 0.10 0.08 0.06 0.04 0.02 0

Frequenza relativa

Punteggio vincente

271

270 272 273 274 275 276 277 278 279 280 281 282 283 284 285 286

!

(22)

2.2.3 Grafici a torta

Spesso quando i dati non sono numerici si usa un grafico a torta per rappresentare le frequenze relative. Si costruisce un cerchio e poi lo si suddivide in settori, uno per ogni valore distinto dei dati. L’area di ciascun settore, che rappresenta la frequenza del set- tore corrispondente, si determina come segue. Se la frequenza relativa del valore è f/n, allora l’area del settore è la frazione f/n dell’area totale del cerchio. Per esempio, i dati in Tabella 2.4 indicano le frequenze relative dei tipi di armi usate negli omicidi com- messi in una grande città americana nel 1985. Questi dati sono rappresentati in un dia- gramma a torta in Figura 2.6.

Se un valore ha frequenza relativa f/n, allora il relativo settore è delimitato da due rette che formano un angolo di 360 f/n gradi. Per esempio, in Figura 2.6, l’angolo tra le rette che delimitano il settore del coltello è di 360(0.18) = 64.8°.

Problemi

1. I seguenti dati rappresentano le dimensioni di 30 famiglie che risiedono in un vil- laggio in Guatemala.

5, 13, 9, 12, 7, 4, 8, 6, 6, 10, 7, 11, 10, 8, 15, 8, 6, 9, 12, 10, 7, 11, 10, 8, 12, 9, 7, 10, 7, 8

Percentuale di omicidi Tipo di arma causati dal tipo di arma

Pistola 52

Coltello 18

Fucile a pallettoni 7

Fucile a proiettili 4

Arma personale 6

Altro 13

Tabella 2.4 Armi usate negli omicidi

Altro Arma personale Fucile a proiettili

Fucile a pallettoni

Coltello

Pistola

Figura 2.6 Un grafico a torta.

(23)

(a) Costruisci una tabella delle frequenze per questi dati.

(b) Rappresenta i dati con un grafico a bastoncini.

(c) Rappresenta i dati con un grafico poligonale.

2. La tabella delle frequenze che segue indica le vendite settimanali di biciclette in un certo negozio in un periodo di 42 settimane.

(a) In quante settimane si sono vendute almeno 2 biciclette?

(b) In quante settimane si sono vendute almeno 5 biciclette?

(c) In quante settimane si sono vendute un numero pari di biciclette?

3. A quindici studenti di quarta elementare è stato chiesto a quanti isolati di distanza abitano rispetto alla scuola. Le loro risposte sono rappresentate nel gra- fico seguente.

(a) Qual è il numero massimo di isolati di distanza tra le case degli studenti e la scuola?

(b) Qual è il numero minimo?

(c) Quanti studenti vivono a meno di 5 isolati dalla scuola?

(d) Quanti studenti vivono a più di 4 isolati dalla scuola?

4. Indica se ciascuno dei seguenti insiemi di dati è simmetrico, approssimativamente simmetrico, o decisamente non simmetrico.

A: 6, 0, 2, 1, 8, 3, 5 B: 4, 0, 4, 0, 2, 1, 3, 2 C: 1, 1, 0, 1, 0, 3, 3, 2, 2, 2 D: 9, 9, 1, 2, 3, 9, 8, 4, 5

5. La seguente tabella indica tutti i valori, ma solo alcune frequenze, per un insieme di dati simmetrico. Completa i numeri mancanti.

Valore Frequenza

10 8

20

30 7

40

50 3

60

Valore 0 1 2 3 4 5 6 7

Frequenza 3 6 7 10 8 5 2 1

0 1 2 3 4 5 6 7 8 9 10 11 12

(24)

6. I seguenti sono i punteggi di 32 studenti che hanno sostenuto un esame di stati- stica.

55, 70, 80, 75, 90, 80, 60, 100, 95, 70, 75, 85, 80, 80, 70, 95, 100, 80, 85, 70, 85, 90, 80, 75, 85, 70, 90, 60, 80, 70, 85, 80

Rappresenta questi dati in una tabella delle frequenze e traccia un grafico a barre.

7. Costruisci una tabella delle frequenze relative per i dati del Problema 1.

Rappresenta queste frequenze relative in un grafico a bastoncini.

8. I seguenti dati rappresentano il tempo di progressione del tumore, misurato in mesi, per 65 pazienti affetti da un particolare tipo di tumore al cervello chiamato

glioblastoma:

6, 5, 37, 10, 22, 9, 2, 16, 3, 3, 11, 9, 5, 14, 11, 3, 1, 4, 6, 2, 7, 3, 7, 5, 4, 8, 2, 7, 13, 16, 15, 9, 4, 4, 2, 3, 9, 5, 11, 3, 7, 5, 9, 3, 8, 9, 4, 10, 3, 2, 7, 6, 9, 3, 5, 4, 6, 4, 14, 3, 12, 6, 8, 12, 7

(a) Costruisci una tabella delle frequenze relative per questo insieme di dati.

(b) Rappresenta le frequenze relative con un diagramma poligonale.

(c) L’insieme dei dati è approssimativamente simmetrico?

9. La seguente tabella delle frequenze relative è stata ricavata dai dati sul numero di appendicectomie effettuate d’emergenza ogni mese in un certo ospedale.

(a) Quale frazione dei mesi ha meno di 2 appendicectomie d’emergenza?

(b) Quale frazione dei mesi ne ha più di 5?

(c) L’insieme dei dati è simmetrico?

10. Le tabelle e i grafici delle frequenze relative sono particolarmente utili quando vogliamo confrontare diversi insiemi di dati. I seguenti due insiemi di dati riguar- dano il numero di mesi che trascorrono tra la diagnosi e la morte di pazienti affetti da AIDS per due campioni di malati di sesso maschile e femminile nei primi anni di epidemia.

Maschi 15 13 16 10 8 20 14 19 9 12 16 18 20 12 14 14

Femmine 8 12 10 8 14 12 13 11 9 8 9 10 14 9 10

Rappresenta questi due insiemi di dati in un unico diagramma poligonale delle frequenze relative. Usa un colore diverso per ogni insieme. Che conclusioni puoi trarre su quale insieme di dati ha i valori maggiori?

11. Usando i dati dell’Esempio 2.2, determina la frazione dei punteggi vincenti al Torneo Masters di golf che sono

(a) Inferiori a 280.

Valore 0 1 2 3 4 5 6 7

Frequenze relative 0.05 0.08 0.12 0.14 0.16 0.20 0.15 0.10

(25)

(b) 282 o superiori.

(c) Compresi tra 278 e 284, estremi inclusi.

La tabella seguente fornisce il numero medio di giorni per ciascun mese in cui in varie città americane cadono almeno 0.01 pollici di precipitazioni. I Problemi da 12 a 14 si riferiscono a questa tabella

Numero medio di giorni con precipitazioni di almeno 0.01 pollici Durata delle

Stato Città misurazioni

(anni) Gen. Feb. Mar. Apr. Mag. Giu. Lug. Ago. Set. Ott. Nov. Dic. Annuale

AL Mobile 46 11 10 11 7 8 11 16 14 10 6 8 10 123

AK Juneau 43 18 17 18 17 17 16 17 18 20 24 19 21 220

AZ Phoenix 48 4 4 4 2 1 1 4 5 3 3 3 4 36

AR Little Rock 45 9 9 10 10 10 8 8 7 7 7 8 9 103

CA Los Angeles 52 6 6 6 3 1 1 1 0 1 2 4 5 36

Sacramento 48 10 9 9 5 3 1 0 0 1 3 7 9 58

San Diego 47 7 6 7 5 2 1 0 1 1 3 5 6 43

San Francisco 60 11 10 10 6 3 1 0 0 1 4 7 10 62

CO Denver 53 6 6 9 9 11 9 9 9 6 5 5 5 89

CT Hartford 33 11 10 11 11 12 11 10 10 9 8 11 12 127

DE Wilmington 40 11 10 11 11 11 10 9 9 8 8 10 10 117

DC Washington 46 10 9 11 10 11 10 10 9 8 7 8 9 111

FL Jacksonville 46 8 8 8 6 8 12 15 14 13 9 6 8 116

Miami 45 6 6 6 6 10 15 16 17 17 14 9 7 129

GA Atlanta 53 11 10 11 9 9 10 12 9 8 6 8 10 115

HI Honolulu 38 10 9 9 9 7 6 8 6 7 9 9 10 100

ID Boise 48 12 10 10 8 8 6 2 3 4 6 10 11 91

IL Chicago 29 11 10 12 12 11 10 10 9 10 9 10 12 127

Peoria 48 9 8 11 12 11 10 9 8 9 8 9 10 114

IN Indianapolis 48 12 10 13 12 12 10 9 9 8 8 10 12 125

IA Des Moines 48 7 7 10 11 11 11 9 9 9 8 7 8 107

KS Wichita 34 6 5 8 8 11 9 7 8 8 6 5 6 86

KY Louisville 40 11 11 13 12 12 10 11 8 8 8 10 11 125

LA New Orleans 39 10 9 9 7 8 11 15 13 10 6 7 10 114

ME Portland 47 11 10 11 12 13 11 10 9 8 9 12 12 128

MD Baltimore 37 10 9 11 11 11 9 9 10 7 7 9 9 113

MA Boston 36 12 10 12 11 12 11 9 10 9 9 11 12 126

MI Detroit 29 13 11 13 12 11 11 9 9 10 9 12 14 135

Sault Ste. Marie 46 19 15 13 11 11 12 10 11 13 13 17 20 165

MN Duluth 46 12 10 11 10 12 13 11 11 12 10 11 12 134

Minneapolis-

St. Paul 49 9 7 10 10 11 12 10 10 10 8 8 9 115

MS Jackson 24 11 9 10 8 10 8 10 10 8 6 8 10 109

MO Kansas City 15 7 7 11 11 11 11 7 9 8 8 8 8 107

St. Louis 30 8 8 11 11 11 10 8 8 8 8 10 9 111

MT Great Falls 50 9 8 9 9 12 12 7 8 7 6 7 8 101

(segue)

Riferimenti

Documenti correlati

Per ogni singola classe (intervallo di valori di X) è possibile determinare la probabilità teorica per il modello proposto (distribuzione normale in questo

Per ogni singola classe (intervallo di valori di X) è possibile determinare la probabilità teorica per il modello proposto (distribuzione normale in questo

In pratica, essendo l’estrazione del campione del tutto casuale, la conoscenza di tali valori sintetici permette di determinare una misura della variabilità della

Portogallo Spagna Regno Unito Paesi Bassi Grecia Italia Danimarca Irlanda Germania Belgio Francia... Peso dei neonati

Si calcolino i percentili di ordine 25 e 75 di una variabile quantitativa a scelta rispetto ai livelli di una variabile qualitativa che si ritiene possa influenzare i valori di

Il dataset è tratta dal libro "Statistical Analysis: A Computer Oriented Approach" by A.A. Afifi and S.P. I dati sono stati raccolti alla Shock Research Unit della University

[r]

Ogni qualvolta abbiamo necessità di studiare un carattere di una popolazione ampia (per esempio l’altezza dei diciottenni italiani) ricorriamo a delle metodologie che ci consentano