Moduli di dati: Entità

(1)

Parte 5

L’ambiente di sviluppo ARENA

^®

(2)

Caratteristiche Arena

^®

• distributore: Rockwell Software

• applicazioni: Manufacturing, supply chain, business process, military, warehousing e logistics improvement

• sistemi operativi: Windows 95, 98, ME, NT, 2000 e XP

• caratteristiche:

ambiente grafico, run-time debugger,

fitting delle distribuzioni di input, supporto all’analisi dell’output, riusabilità (oggetti e template), animazione,

esecuzione e visualizzazione real-time

(3)

Moduli di dati: Entità

Principali proprietà

• Entity Type: nome (unico) del tipo di entità

• Initial Picture: rappresentazione grafica

• Holding Cost/Hour: costo orario di attraversamento del sistema da parte dell’entità

• Costi iniziali: costo che l’entità ha prima ancora di entrare nel sistema. I costi sono classificati in:

• Initial VA Cost: costo delle attività a valore aggiunto

• Initial NVA Cost: costo delle attività non a valore aggiunto

• Initial Waiting Cost: costo dei tempi di attesa

• Initial Transfer Cost: costo dei trasferimenti

• Initial Other Cost: altri costi

(4)

Moduli di dati: Code

• Name: Nome (unico) della coda

• Type: disciplina di attesa:

First In First Out, Last In First Out,

Lowest Attribute Value (first) Highest Attribute Value (first)

• Attribute Name: Se la disciplina di attesa è del tipo Lowest Attribute Value oppure Highest Attribute Value, l’ordinamento viene fatto rispetto a questo attributo.

• Shared: indica se la coda è condivisa da più risorse

(5)

Moduli di dati: Risorse

• Name: nome (unico) della risorsa

• Type: indica se la risorsa è a capacità fissa o variabile

• Capacity: numero di entità processabili simultaneamente

• Costi:

time-dependent: costi orari di utilizzo (Busy/Hour) e di fermo (Idle/Hour) time-independent: costo per unità processata (Per Use)

• StateSet Name: insieme che definisce i possibili stati della risorsa

• Initial State: stato iniziale

• Failures: failures associate alla risorsa

• Failure Rule: comportamento della risorsa nei confronti dell’entità se si verifica una failure durante un processamento (Ignore, Wait, Preempt)

(6)

Moduli di dati: Variabili e Sets

Principali proprietà delle variabili

• Name: nome (unico) della variabile

• Rows: numero di righe (se la variabile è un vettore o tabella)

• Columns: numero di colonne (se la variabile è un vettore o tabella)

• Clear Option: le variabili sono inizializzate

ogni volta che lo sono le statistiche (Statistics) ogni volta che lo è il sistema (System)

mai (None)

• Initial Values: valori iniziali

Principali proprietà degli insiemi

• Name: nome (unico) dell’insieme

• Type: Tipo di insieme (Resource, Entity Type, …)

• Members: Lista degli elementi dell’insieme

(7)

Moduli di Flowchart (1)

Create

0

• Name: identificatore del modulo

• Entity Type: tipo di entità generata

• Type: modalità di generazione (con tempi di interarrivo esponenziali, costanti o distribuiti secondo una funzione di probabilità)

• Entities per Arrival: numerosità del gruppo di arrivo

• Max Arrivals: numero totale di entità generate

• First Creation: istante di arrivo della prima entità

Creazione di un’entità

rappresenta il punto di ingresso delle entità nel sistema

(8)

Moduli di Flowchart (2)

Dispose

0

Distruzione di un’entità

rappresenta il punto di uscita delle entità dal sistema

• Name: Identificatore del modulo

• Record Entity Statistics: vero se le statistiche delle entità in arrivo vanno

memorizzate (wait time, transfer time, total time, value added cost, …)

(9)

Moduli di Flowchart (3)

Process

0

Processamento di un’entità

rappresenta un attività svolta dalle entità che lo attraversano.

Serve anche per definire sottomodelli

Esempi: lavorazione di una parte, servizio di un cliente, ...

• Name: identificativo del modulo

• Type: standard processing oppure subModel.

• Action: tipo di processamento:

Delay: è richiesto un tempo di processamento ma nessuna risorsa Seize Delay: è richiesto un tempo di processamento e una risorsa che viene

allocata ma non rilasciata

Seize Delay Release: è richiesto un tempo di processamento e una risorsa che viene allocata e rilasciata

Delay Release: è richiesto un tempo di processamento, trascorso il quale una risorsa precedentemente allocata è rilasciata.

(10)

Moduli di Flowchart (3)

Process

0

Processamento di un’entità

rappresenta un attività svolta dalle entità che lo attraversano.

Serve anche per definire sottomodelli

• Priority: livello di priorità delle entità che attraversano il modulo

• Resources: risorsa o insieme di risorse usate per il processamento

• Delay Type: distribuzione utilizzata per generare i tempi di processamento

• Units: unità di misura del tempo

• Allocation: indica in quali categorie vanno conteggiati i tempi e costi di processamento

(11)

Moduli di Flowchart (4)

Assign

Assegnamento di variabili e attributi

L’operazione avviene quando una entità attraversa il modulo

• Name: Identificatore unico del modulo

• Assignments: specifica l’assegnamento da effettuare ogni volta che un’entità attraversa il modulo.

• Type: Per modificare variabili di sistema utilizzare Other.

(12)

Moduli di Flowchart (5)

True

False

Decide

0

Instradamento logico di un’entità

Permette di implementare processi che decidono. In base alla condizione l’entità viene instradata su uno dei 2 rami di uscita del modulo.

Esempi: rilavorazione di parti difettose, selezione di diversi tipi di clienti, regole di dispatching, selezione del server in stadi multi-processore

• Name: identificativo del modulo

•Type: decisione su condizione (es: Entity.WaitTime >= 2) oppure su base probabilistica (es: 50% true)

(13)

Moduli di Flowchart (6)

Record

Salvataggio di dati e/o statistiche

Permette di collezionare statistiche

• Type: Tipo di statistica

Count: incremento/decremento di una statistica

Entity statistics: statistiche generali sulle entità (informazioni su tempi e costi) Time Interval: differenza tra il valore di un attributo e il tempo corrente di

simulazione

Time Between: tempi di interarrivo delle entità nel modulo Expression: espressione specifica

(14)

Moduli di Flowchart (7)

Batch

0

Raggruppamento di più entità

Le entità che raggiungono il modulo attendono in una coda fino a quando il lotto non è completato. A quel punto viene generata una entità rappresentativa del lotto.

• Name: Identificativo del modulo

• Type: Tipo di raggruppamento (Temporaneo o Permanente)

• Batch Size: Dimensione del lotto

• Save Criterion: Criterio per assegnare il valore all’attributo rappresentante (First, Last, Sum, Product)

• Rule: Regola di batching: tutte le entità (any Entity) o solo quelle con caratteristiche date (by Attribute)

(15)

Moduli di Flowchart (8)

Original

Duplicate

Separate

0

Separazione di più entità

Permette di duplicare entità singole o di separare lotti precedentemente creati con il modulo Batch.

Esempi: separare i singoli oggetti di un container, avviare diverse pratiche da un ordine di produzione (e.g., ordine e fattura), ...

•Type: Tipo di separazione (Duplicate Original, Split Existing Batch)

•Percent Cost to Duplicates: Allocazione dei tempi e costi delle entità entranti nei duplicati uscenti.

•# of Duplicates: Numero di duplicati

(16)

Esempi (basic Process)

Moduli

• Modulo Process (Smart007)

• Modulo Assign (Smart022)

• Modulo Decide (Smart005)

• Modulo Record (Smart163)

• Moduli Batch e Separate (Smart002)

• Batching by Attribute (Smart057)

• Uso delle espressioni (Smart026)

Animazione

• Animazione nei flowcharts (Smart035)

• Animazione delle entità (Smart023)

• Animazione dello stato delle risorse (Smart010)

(17)

Esempi (basic Process)

Code

• Numero di clienti in coda (Smart058)

• Tempo trascorso nel sistema (Smart043)

• Abbandono della coda (Smarts154)

• Disciplina di attesa per priorità (Smarts158)

• Gestione di code miste (Smarts115)

• Gestione dinamica delle priorità (Smarts085)

Risorse

• Schedulazione di risorse (Smarts114)

• Risorse a capacità multipla (Smarts004)

• Report sui costi delle risorse (Smarts019)

• Seizing multiplo (Smarts118)

(18)

Advanced Transfer (1)

Station

Stazione fisica

Definisce una stazione corrispondente ad una locazione fisica o logica dove avviene il processamento di una entità

• Station Type: Stazione singola o insieme di stazioni

• Station Name: Identificativo della stazione

Esempi: isole di lavorazione, punti di carico o scarico merce, …

(19)

Advanced Transfer (2)

Enter

Stazione fisica (advanced)

E’ una versione avanzata del modulo Station. Una entità può raggiungere il modulo anche attraverso una connessione grafica

• Station Type: Stazione singola o insieme di stazioni

• Station Name: Identificativo della stazione

• Delay: Ritardo che subisce l’entità che arriva e che tipicamente rappresenta il tempo di scarico da un transfer device

• Allocation: categorie di tempo e costo in cui verrà contabilizzato il ritardo

• Transfer In: indica la risorsa (eventualmente) da liberare quando l’entità entra nel modulo. La risorsa può essere un trasportatore, un conveyor o una risorsa generica

(20)

Advanced Transfer (3)

Route

Trasferimento di una entità

Smista l’entità alla sua stazione di destinazione

• Route Time: Tempo di trasferimento alla stazione di destinazione

• Destination Type: Station oppure Sequential

Le entità trasferite con il modulo Route possono essere animate associando opportune stazioni grafiche alle stazioni corrispondenti ai punti di partenza e di arrivo delle entità.

(21)

Advanced Transfer (4)

Leave

Trasferimento di un’entità (advanced)

E’ una versione avanzata del modulo Route

• Allocation: categorie di tempo e costo in cui verrà contabilizzato il ritardo

• Transfer Out: Indica il tipo di risorsa necessaria per il trasferimento (request transporter, access conveyor, seize resource o none)

• Queue Type: Indica la disciplina di attesa per il trasferimento

• Connect Type: Indica qual è la modalità di trasferimento dell’entità (Connect, Convey, Route, Transport)

Tipicamente Transfer Out e Connect Type concordano sul mezzo di trasporto; per esempio Transfer Out = Request Transporter implica Connect Type = Transport

(22)

Advanced Transfer (5)

Request

Assegnamento di transporter a entità

L’entità attende nel modulo fino a quando il transporter selezionato non arriva nella locazione dell’entità.

• Transporter Name: indica il transporter richiesto

• Selection Rule: regola si selezione del transporter (Cyclical, Random, Preferred Order, Specific Member, Largest Distance, e Smallest Distance)

• Velocity: specifica la velocità con la quale il transporter specificato si muoverà verso la stazione richiedente

• Queue Type: disciplina adottata per l’attesa di un transporter

(23)

Advanced Transfer (6)

Transport

Spostamento di transporter e entità

Il trasferimento avviene tra 2 stazioni ed è possibile solo se l’entità ha già acquisito il controllo del transporter con il modulo Request.

• Transporter Name: Indica in transporter da utilizzare

• Destination Type: Sequential oppure Station

• Station Name: Stazione di destinazione

• Velocity: specifica la velocità con la quale il transporter specificato si muoverà verso la stazione di destinazione

(24)

Advanced Transfer (7)

Free

Rilascio di un transporter

Se non richiesto da altre entità, il transporter attenderà inattivo presso la stazione di destinazione dell’entità.

•Transporter Name: nome del transporter che sarà liberato. Se non specificato sarà l’ultimo transporter allocato all’entità in ordine di tempo

(25)

Esempi (advanced Transfer)

Moduli

• Modulo Route (Smarts073)

• Routing delle entità (Smarts169)

• Moduli Request Transport Free (Smarts146)

• Moduli Leave Transport Free (Smarts148)

Altri Esempi

• PickStation tra stazioni singole (Smarts113)

• PickStation in un set di Stazioni (Smarts138)

(26)

Esempi (Advanced)

• Sottomodelli (Smarts008)

• Scrittura su file e Lettura da file (Smarts154 e Smarts162)

• Variabili di Sistema (Smarts144)

• Variabili associate alle code (Smarts141)

• Variabili associate alle risorse (Smarts139)

• Entità che fungono da logica di controllo (Smarts018)

• Condizioni avanzate di terminazione (Smarts130)

• Automation (Smarts182)

• Lettura da Excel con Automation (Smarts100)

• User Function in Automation (Smarts161)

• Animazione (Smarts074)

(27)

Esempi (sistemi di produzione)

• Blocking Flow Line (Smart125)

• Flow Line con buffer limitati (Smarts082)

• Parallel machine (Smarts173)

• Job Shop A (Smarts172)

• Job Shop B (Smarts168)

(28)

Parte 6

Scelta delle distribuzioni di input

(29)

Motivazioni

• Per eseguire simulazioni che comprendono sorgenti di incertezza si devono selezionare le loro distribuzioni di probabilità

• la simulazione procede generando valori (realizzazioni) dalle distribuzioni scelte

Esempio: La simulazione di un lancio di un dado si ottiene scegliendo una legge di probabilità con 6 valori equiprobabili.

• Dati reali (se possono essere collezionati) sulla v.a. di interesse guidano la scelta della distribuzione

(30)

Metodi basati su dati reali

1. I dati collezionati sono utilizzati direttamente per alimentare la simulazione (Trace-driven simulation)

2. I dati collezionati sono utilizzati per definire una distribuzione empirica che li descriva

3. I dati collezionati sono utilizzati per individuare una distribuzione teorica che li rappresenti

• (1) è consigliato nella validazione del modello, ma non permette una analisi previsionale

• (2) preferibile a (1)

• (3) preferibile a (2) quando possibile

(31)

Distribuzione Teorica vs. Distribuzione Empirica

• una DE può presentare irregolarità dipendenti dai dati (particolarmente se i dati sono scarsi), mentre una DT rappresenta meglio il comportamento generale.

• una DE non permette la generazione di realizzazioni al di fuori degli intervalli osservati (i.e., può escludere eventi

“eccezionali”)

• le DT possono essere modificate più semplicemente delle DE, in quanto è sufficiente modificare i suoi parametri.

Esempio: variazione nella frequenza media degli arrivi

(32)

• anche in casi in cui esistono motivi fisici per scegliere una DT, è consigliabile l’utilizzo di serie storiche come supporto empirico (validazione)

• in numerosi casi pratici non esiste una DT che presenta un buon “fitting” con i dati osservati.

• Una DT può generare valori molto grandi (anche se con probabilità molto basse) che non corrispondono a realizzazioni praticamente significative

Distribuzione Teorica vs. Distribuzione Empirica

(33)

Distribuzioni empiriche

• osservazioni X₁, …, X_n ordinate per valori crescenti

• Distribuzione continua lineare a tratti:

F x

se x X

i n

x X

n X X se X x X per i n

se x X

i

i i i i

n

( ) = ( )( ) , ,...,

− <

− + −

− − ≤ < = −

≥







 ⁺

+ 0

1

1 1 1 1

1

1 1

3/5

1/5 2/5 4/5 1

X₁ X₂ X₃ X₄ X₅ X₆

(34)

Esempio

• Valori osservati: 0.4, 1, 2, 2.5, 3, 3.6, 4

F x

se x X

i n

x X

n X X se X x X per i n

se x X

i

i i i i

n

( ) = ( )( ) , ,...,

− <

− + −

− − ≤ < = −

≥







 ⁺

+ 0

1

1 1 1 1

1

1 1

1/2

1/6 1/3 2/3 5/6 1

(35)

Scelta di una distribuzione teorica

Step 2: Identificazione di una famiglia candidata di distribuzioni

Step 3: Stima dei parametri

Step 4: Verifica sui dati reali

della rappresentatività della distribuzione Step 1: Verifica dell’indipendenza

delle osservazioni

(36)

Step 1: Indipendenza delle osservazioni

Molte tecniche per la scelta di una distribuzione teorica richiedono che le osservazioni X₁, X₂, …, X_n siano indipendenti.

In certi casi le osservazioni collezionate in un intervallo di tempo possono essere dipendenti.

Esempio. X₁, X₂, …, X_n rappresentano le temperature misurate ogni ora in una certa città, a partire dalla mezzanotte: campioni vicini in tempo sono positivamente correlati

Esempio. X₁, X₂, …, X_n rappresentano i ritardi dei clienti misurati nella coda di un sistema a singolo servente: se la frequenza media degli arrivi è paragonabile al service rate medio il sistema è soggetto a congestione e gli X_i sono positivamente correlati.

(37)

Correlazione di variabili aleatorie

Siano date n coppie di realizzazioni, (X₁, Y₁), (X₂, Y₂),…, (X_n, Y_n) di 2 v.a. X e Y.

X e Y sono v.a. correlate se il coefficiente di correlazione è non nulla:

) ( ) ( ]

[

)))]

( ))((

( [(

Y E X E Y

X E

Y E Y

X E X

E

i i

−

=

−

=

ρ

(38)

v.a. correlate (ρ = 0,9958)

Diagrammi a scattering

X Y

v.a. non correlate (ρ = -0,004)

-0,6 -0,4 -0,2 0 0,2 0,4 0,6

-0,4 -0,2 0 0,2 0,4 0,6

-0,6 -0,4 -0,2 0 0,2 0,4 0,6

X Y

(39)

Dato che è una stima di ρ, può essere anche se le X_i sono indipendenti. Tuttavia, valori molto distanti da 0 sono un forte indizio della dipendenza delle osservazioni

Auto-correlazione

Una tecnica informale per verificare l’indipendenza di un insieme di dati X₁, X₂, …, X_n è basata sulla stima del coefficiente di auto- correlazione tra tutte le coppie di osservazioni distanti j :

2 1

) (

) )(

( ˆ

n j

n

i

n j

i n i

j n j S

X X

−

=

∑

⁻

= +

ρ

Se le osservazioni X₁, X₂, …, X_n sono indipendenti, allora ρ_j = 0 per j = 1, 2, …, n-1

ρˆ j ρˆ _j ≠ 0

(40)

Diagramma da 100 realizzazioni indipendenti di una distribuzione esponenziale con β = 1

Diagrammi di auto-correlazione: esempio

ρˆ j

-0,15 -0,1 -0,05 0 0,05

0,1 0,15 0,2

1 3 5 7 9 11 13 15 17 19

j

max = 0.159

min = -0.129

(41)

Diagramma da 100 ritardi in coda di un M/M/1 con ρ = 0.8

Diagrammi di auto-correlazione: esempio

ρˆ j

j

max = 0.77

min = -0.22 -0,4

-0,2 0 0,2 0,4 0,6 0,8 1

1 3 5 7 9 11 13 15 17 19

(42)

Step 2: Ipotizzare una distribuzione

Ipotesi teorica: il ruolo della sorgente di incertezza può suggerire la scelta o l’eliminazione di una distribuzione dall’insieme delle candidate

Esempio. Se gli arrivi ad un centro di servizio sono individuali, ad un rate costante e tali che i numeri di clienti che arrivano in intervalli disgiunti sono indipendenti, esistono ragioni teoriche per ipotizzare che i tempi di interarrivo siano v.a. IID con distribuzione esponenziale

Esempio. I tempi di servizio di una facility non sono modellati da una (generica) distribuzione normale, in quanto le sue realizzazioni possono assumere valori negativi.

(43)

Distribuzione Bernoulli

•Range: {0, 1}

•Parametri: p ∈(0,1)

•Valor medio: E(X) = p

•Varianza: V(X) = p(1 – p )

•Applicazioni: esperimento con due possibili risultati







=

−

=

altrimenti x se p

x se p

x p

0

1 0 1

)

( p

p(x)







≤

<

≤

−

<

=

x se

p

x se x

F

1 1

1 0

1

0 0

) (

0 1

1- p

(44)

Distribuzione Binomiale

{ }

 





 



 − ∈

 

 

=

−

altrimenti 0

, , 1 , 0 se

) 1

( )

(

n x

p x p

n x

p

x n

x

K

p(x)

0 0.1 0.2 0.3 0.4 0.5

0.6 t = 5

p = 0.5

(45)

Distribuzione Binomiale

•Range: {0, 1}

•Parametri: n > 0 intero , p ∈(0,1)

•Valor medio: E(X) = np

•Varianza: V(X) = np(1 – p)

•Applicazioni:

numero di successi in n esperimenti bernoulliani ciascuno con probabilità p di successo;

numero di parti difettose in un lotto di dimensione n;

(46)

Distribuzione di Poisson

 



 

 =

=

−

altrimenti

0 ,...;

2 , 1 ,

! 0 ) ( )

(

k k per

e x

p

λ

k λ

0 0,05 0,1 0,15 0,2 0,25

0 5 10 15 20 25

λ = 4

λ = 8

(47)

Distribuzione di Poisson

•Range: N

•Parametri: λ > 0

•Valor medio: E(X) = λ

•Varianza: V(X) = λ

•Applicazioni:

processi di arrivo poissoniani; numero di eventi in processi senza memoria;

clienti in una giornata, telefonate in un’ora,…

(48)

Ipotizzare una distribuzione: v.a. discrete

Tecnica del diagramma a bastone: X₁, X₂, …, X_n dati

• Per ogni possibile valore x_j che può essere assunto dai dati sia h_j la proporzione degli X_i pari a x_j.

• Definire il diagramma con un segmento verticale di altezza h_j in corrispondenza di ciascun valore x_j.

• Confrontare graficamente la forma di h(x) con la legge di probabilità ipotizzata

(49)

Distribuzione uniforme: U(a,b)

•Range: [a, b]

•Parametri: a, b con a < b;

•Valor medio: E(X) = (a + b)/2

•Varianza: V(X) = (b – a)²/12

•Applicazioni: utilizzata come primo modello nei casi in cui l’informazione disponibile è scarsa. Nei simulatori è utilizzata per derivare le altre distribuzioni

f x b a a x b

altrimenti

( ) =  − ≤ ≤





1 0

a b

1 b−a







>

≤

− ≤

− <

=

b x se

b x a a se

b a x

a x se x

F

1 0 )

( x

f (x)

(50)

Distribuzione esponenziale: expo( λ)

•Range: [0, ∞)

•Parametri: λ > 0

•Valor medio: E(X) = 1/λ

•Varianza: V(X) = 1/λ²

•Applicazioni: tempi di interarrivo quando il numero di arrivi in un intervallo di expo(1)

f (x)

0 0,2 0,4 0,6 0,8 1 1,2

0 0,4 0,8 1,2 1,6 2 2,4 2,8 3,2 3,6 4 4,4 4,8 5,2 5,6 6 6,4 6,8



 ≥

= ⁻

altrimenti x

x e f

x

0

) (

λ λ



 − ≥

= ⁻

altrimenti x se x e

F

x

0

0 ) 1

(

λ

(51)

Distribuzione normale: N( µ ,σ )

•Range: (-∞ , ∞)

•Parametri: µ ∈R , σ > 0

•Valor medio: E(X) = µ

•Varianza: V(X) = σ ²

•Applicazioni: La distribuzione normale è la distribuzione limite di molte altre distribuzioni di probabilità. Può quindi essere utilizzata per variabili che descrivono disturbi risultati da tante piccole azioni (ritardi dovuti al traffico, errori di misura,

…)

2 2

2 ) (

2 ) 1

(

^σ

µ

πσ

− −

=

x

e x

f

^N(0,1)

f (x)

0 0,05 0,1 0,15 0,2 0,25 0,3 0,35 0,4 0,45

-4 -3,6 -3,1 -2,7 -2,2 -1,8 -1,4 -0,9 -0,5 -0 0,4 0,84 1,28 1,72 2,16 2,6 3,04 3,48 3,92

(52)

Distribuzione Gamma: gamma( α, β )

•Range: [0, ∞)

•Parametri: a > 0, β > 0

•Valor medio: E(X) = αβ

•Varianza: V(X) = αβ ²

•Applicazioni: buona approssimazione di tempi di servizio: expo(1/β) = gamma(1,β); tempo totale di servizio di a serventi in serie ognuno con tempi di





 ≥

= −

−

altrimenti 0

0 )! se

1 ) (

(

/ 1

e x x x

f

x

α

β ^α ^α ^β





 − ≥

=

∑

⁻

=

−

altrimenti 0

0

! se ) / 1 (

) (

1

0

/ x

j e x

x

F _j

x α j

β β

solo per α intero:

distribuzione Erlang

(53)

0 10 20 30 40 0

20 40 60 63.185 80

−0.1 gamd z( _ix, βα, ,t0)

gamd z( _ix,α+1,β,t0)

gamd z( _ix,α+1,β+0.02,t0)

gamd z( _ix,α+3,β+0.02,t0)

40

0 ix

α

α+1

α+2 α+3

Distribuzione Gamma: gamma( α, β )

(54)

Ipotizzare una distribuzione: v.a. continue

Tecnica dell’istogramma: X₁, X₂, …, X_n dati

• suddividere l’intervallo dei valori coperti dai dati in k intervalli adiacenti [b₀, b₁), [b₁, b₂), …, [b_k-1, b_k) di uguale ampiezza ∆b.

• Per j = 1, 2, …, k definire h_j come la proporzione degli X_i contenuti nell’intervallo j.

• Definire la funzione:







≥

<

≤

<

= ₋

k j j

j

b x se

b x b

se h

b x se x

h

0

,

0

)

( ₁

0

k j 1 ,..., per =

• Confrontare graficamente la forma di h( x ) con la ddp ipotizzata.

(55)

Fondamento del metodo

Sia X una v.a. distribuita come gli X_i, con ddp f. Allora, per j fissato, j

=1, 2, …, k, risulta:

∫

−

∆

=

≤

− ≤

j

b

j j

j X b f x dx b f y

b P

1

) ( )

( )

( ₁

teorema del valor medio

) , (

_j ₁ _j

j

b b

y ∈

₋

per un certo

Ma h_japprossima

h ( y

_j

) = h

_j

≈ ∆ b f ( y

_j

)

Quindi, h( y ) è approx. proporzionale a f ( y ) ⇒ h ed f hanno forme simili

•Difficoltà: non esistono criteri generali per scegliere k.

Regola di Sturges: k = 1 + log₂n. In genere, preferibile scegliere il più piccolo k che genera un istogramma “smooth”

⇒

≤

− ≤ )

(b_j ₁ X b_j P

(56)

Esempi

0 5 10 15 20 25 30 35

1 2 3

0 2 4 6 8 10 12

1 2 3 4 5 6 7 8 9 10 11

0 0,5 1 1,5 2 2,5 3 3,5

• X_i ~ N(0,1)

k = 3 k = 11

k = 41

(57)

Definizione. La popolazione oggetto è la totalità degli elementi in esame dai quali si vogliono ottenere informazioni (es: una v.a. X).

Definizione. Un campione è un gruppo di elementi estratti da una popolazione (es: un certo numero di realizzazioni di X) allo scopo di raccogliere informazioni sulla popolazione stessa. Il campione è casuale se le estrazioni degli elementi sono indipendenti.

Definizione. Una statistica campionaria è una funzione delle realizzazioni di una v.a., a sua volta v.a. osservabile.

Il valor medio di una statistica campionaria può essere utilizzato per stimare un parametro della funzione di distribuzione della popolazione.

Step 3: Stima dei parametri

(58)

Metodi per la stima dei parametri

Problema:

Data la distribuzione di probabilità f della popolazione, determinare sulla base di un campione X₁,…,X_n un valore per ognuno dei parametri che caratterizzano f che sia la miglior approssimazione possibile dei parametri incogniti.

Stime puntuali

• Metodo dei momenti

Si impone che i parametri della distribuzione coincidano con gli stimatori forniti dalle statistiche campionarie (media e varianza campionaria)

2. Metodo della massima verosimiglianza

Si determinano i parametri in modo che sia massima la probabilità che i campioni osservati siano stati estratti dalla distribuzione ipotizzata

Stime per intervalli

• Intervalli di confidenza

Si determina un intervallo in cui il parametro che si sta stimando cade con

(59)

X₁, X₂ , …, X_n osservazioni di variabili aleatorie IID ognuna con valor medio E(X_i) = µ e varianza Var(X_i) = σ ²[non noti]

• Media campionaria

n X n

X

n

i

∑

i

=

=¹

)

(

stimatore corretto di µ, i.e., E[X(n)]= µ

• Varianza campionaria

1 )]

( [

)

( ¹

2 2

−

=

∑

−

=

n

n X X

n S

n

i i stimatore corretto di σ ², i.e., E[S²(n)]=σ²

Statistiche campionarie:

media e varianza campionaria

(60)

Stima di Var(X( n ))

Motivazione: è una v.a. con varianzaX(n) e può

=

−

=

∑ ∑ ∑

=

= 1 ( )

1 ) ( 1 )

( )]

( [

2 1 2

1 1

n

i i

n

i i

n

i i Var X

X n E n

n X Var n

X

Var µ

Estimatore corretto di Var[X(n)]

differire notevolmente da µ in alcuni esperimenti.

)]

( [X n Var

n n X n

n Var

n

i i

2 2 1 2

2

) 1

1 ( = σ = σ

=

∑

=

n n S²( ) indipendenza degli X_i

(61)

Massima verosimiglianza

Dati osservati IID: X₁, X₂, …, X_n

ddp ipotizzata: f_θ(x), parametro ignoto θ

Una misura della probabilità di aver ottenuto le osservazioni X₁, X₂,

…, X_n proprio dalla distribuzione ipotizzata è data dalla funzione di verosimiglianza:

L(θ)= f_θ(X₁) f_θ(X₂) … f_θ(X_n)

Il metodo della massima verosimiglianza consiste nello scegliere come estimatore del valore ignoto θ il valore che massimizza L(θ)_θˆ