Dottorato di Ricerca Modelli e Metodi Matematici per la Tecnologia e la Societ`a - XXIV ciclo Calcolo delle Probabilit`a (2009) Angelo Gilio Dip. Me.Mo.Mat. - [email protected]

(1)

Dottorato di Ricerca Modelli e Metodi Matematici per la Tecnologia e la Societ`a - XXIV ciclo

Calcolo delle Probabilit`a (2009) Angelo Gilio

(2)

Introduzione

Il calcolo delle probabilit`a fornisce gli strumenti logico- matematici per affrontare problemi decisionali in condizioni di incertezza.

Nell’esame di un problema aleatorio si possono di- stinguere sostanzialmente due aspetti: uno in cui si applica la logica del certo ed un’altro, successivo, in cui si applica la logica del probabile.

- In una prima fase, avendo un’informazione incom- pleta in relazione al fissato esperimento aleatorio, si analizzano i fatti incerti individuando l’insieme delle eventualit`a possibili (detto anche insieme dei casi elementari, o insieme dei casi possibili, o insieme dei costituenti). Di tali casi uno e uno solo risulter`a vero.

Ogni fatto incerto di interesse nel problema considerato

`e descritto mediante una proposizione logica non am- bigua e costituisce un evento che risulter`a Vero (V ) o Falso (F ).

Un evento E `e quindi un ente logico a due valori: V, F .

(3)

Dato un evento E, si definisce Indicatore di E la seguente quantit`a

|E| =

(1 se E `e vero, 0 se E `e falso.

Sugli eventi si possono effettuare operazioni logiche per introdurre o rappresentare altri eventi; inoltre, dati due o pi`u eventi, tra di essi potranno esistere delle relazioni logiche.

In astratto, l’insieme dei casi possibili potrà essere rappresentato con uno spazio Ω e ogni caso elementare sarà rappresentato con un punto di Ω. Allora, ogni fissato sottoinsieme E di Ω rappresenta un evento, in- dicato con lo stesso simbolo, che sarà vero oppure falso a seconda che il risultato dell’esperimento, ovvero il caso elementare che si verifica, corrisponde ad un punto che appartiene oppure no ad E.

Due eventi particolari sono:

(a) l’evento certo, rappresentato dall’insieme Ω, che risulta sicuramente vero;

(4)

(b) l’evento impossibile, rappresentato dall’insieme vuoto ∅, che risulta sicuramente falso.

(Nota: |Ω| = 1, |∅|=0)

- Completata la prima fase, che consiste nel deli- neare l’ambito del possibile e in cui ogni ragionamento si basa sull’applicazione della logica deduttiva o logica del certo, il passo successivo consiste nel vagliare l’informazione che si ha su ogni fatto incerto che interessa esaminare e nel valutare i pro e i contro relativi al verificarsi o meno degli eventi incerti considerati.

Normalmente, nei riguardi dei diversi eventi si avranno differenti gradi di fiducia (circa la loro possibilit`a di verificarsi) e diventa essenziale, anche al fine di possibili decisioni, rappresentare quantitativamente in maniera consistente, ovvero ammissibile, tali gradi di fiducia mediante opportune valutazioni probabilistiche.

In questa fase un aspetto importante pu`o essere quello di propagare (in modo consistente) ad ulteriori eventi incerti le valutazioni probabilistiche fatte su dati eventi iniziali.

(5)

Operazioni e relazioni logiche Negazione di E.

E^c =

(vero, se E `e falso, falso, se E `e vero.

Nota: |E^c| = 1 − |E|.

Implicazione. A implica B se quando `e vero A segue che `e vero anche B.

In simboli: A ⇒ B, oppure A ⊆ B.

A ⇒ B equivale a |A| ≤ |B|.

Uguaglianza. A = B se e solo se A ⇒ B e B ⇒ A.

Unione. L’evento unione, o somma (logica), di A e B è vero quando almeno uno dei due eventi è vero ed è falso quando sia A che B sono falsi.

L’evento unione si indica con A ∨ B, oppure A ∪ B.

(6)

Propriet`a:

- associativa : (A ∨ B) ∨ C = A ∨ (B ∨ C) = A ∨ B ∨ C;

- commutativa : A ∨ B = B ∨ A.

Osservazioni:

A∨Ω = Ω ; A∨∅ = A ; A∨A = A ; A∨A^c = Ω . Intersezione

L’evento intersezione, o prodotto (logico), di A e B è vero quando entrambi gli eventi sono veri ed è falso quando almeno uno dei due eventi è falso.

L’evento intersezione si indica con A∧B, oppure A∩B, o pi`u semplicemente AB.

Propriet`a:

- associativa : (A ∧ B) ∧ C = A ∧ (B ∧ C) = A ∧ B ∧ C.

- commutativa : A ∧ B = B ∧ A.

(7)

Osservazioni:

A ∧ Ω = A ; A ∧ ∅ = ∅ ; A ∧ A = A ; A ∧ A^c = ∅ . Incompatibilit`a

A e B si dicono incompatibili se non possono essere entrambi veri, cio`e se AB = ∅.

Propriet`a degli indicatori:

|AB| = |A| · |B| ; |A ∨ B| = |A| + |B| − |AB| , con |A ∨ B| = |A| + |B| nel caso in cui AB = ∅.

Altre propriet`a:

AB ⊆ A ⊆ A ∨ B , (|AB| ≤ |A| ≤ |A ∨ B|) AB ⊆ B ⊆ A ∨ B , (|AB| ≤ |B| ≤ |A ∨ B|) Propriet`a distributive :

(A∨B)∧C = AC∨BC , (A∧B)∨C = (A∨C)∧(B∨C) .

(8)

Formule di De Morgan :

(A ∨ B)^c = A^c ∧ B^c ; (A ∧ B)^c = A^c ∨ B^c . Rappresentazione geometrica con i diagrammi di Venn.

A B

&%

'$

Ω C

&%

'$

D

&%

'$

Evento Insieme

certo universo

impossibile vuoto

contrario complementare implicazione inclusione

incompatibili disgiunti

unione unione

intersezione intersezione Partizioni finite dell’evento certo

{H₁, H₂, . . . , H_n} `e una partizione di Ω se:

1. H_iH_j = ∅ , i 6= j ; 2. H₁ ∨ H₂ ∨ · · · ∨ H_n = Ω .

(9)

Equivalentemente:

|H₁| + |H₂| + · · · + |H_n| = 1 . (1)

Casi possibili o Costituenti.

Osserviamo che Ω ∧ Ω = Ω e che E ∨ E^c = Ω, ∀ E.

Considerati degli eventi A, B, . . ., i casi elementari o costituenti si ottengono sviluppando l’espressione:

(A ∨ A^c) ∧ (B ∨ B^c) ∧ · · · =

= (AB ∨ AB^c ∨ A^cB ∨ A^cB^c) ∧ · · · =

= AB · · · ∨ AB^c · · · ∨ A^cB · · · ∨ A^cB^c · · · ∨ · · · . (2) Eliminando le intersezioni impossibili, quelle rimanenti sono i casi possibili relativi agli eventi A, B, . . . .

In generale, data una famiglia F_n = {E₁, . . . , E_n}, i casi possibili o costituenti, C₁, . . . , C_m, con m ≤ 2ⁿ, si ottengono osservando che

(E₁∨E₁^c)∧(E₂∨E₂^c)∧· · ·∧(E_n∨E_n^c) = C₁∨C₂∨· · ·∨C_m ,

(10)

dove

C_k = E₁^∗E₂^∗· · · E_n^∗ , k = 1, 2, . . . , m ≤ 2ⁿ ,

con E_i^∗ = E_i, oppure E_i^∗ = E_i^c.

Ω Decomposizione di un evento.

Dato un evento arbitrario E ed una partizione {H, H^c}, si ha:

E = E ∧ Ω = E ∧ (H ∨ H^c) = EH ∨ EH^c . (3)

(11)

Pi`u in generale, data una partizione {H₁, H₂, . . . , H_n}, si ha:

E = EH₁ ∨ EH₂ ∨ · · · ∨ EH_n . (4)

Le formule (3) e ( 4) sono utilizzate spesso per calcolare la probabilit`a di E.

Esempio:

Da un’urna contenente 5 palline bianche e 3 nere si effettuano 2 estrazioni senza restituzione. Sia A l’evento ⁰⁰la 1^a pallina estratta `e bianca⁰⁰ e B l’evento

00la 2^a pallina estratta `e bianca⁰⁰. Calcolare, in relazione a ciascun evento, il rapporto tra il numero di casi favorevoli e il numero di casi possibili, confrontando i valori ottenuti per A e B.

Data una famiglia F_n = {E₁, . . . , E_n}, siano C₁, C₂, . . . , C_m i relativi costituenti. Ogni evento E_i si pu`o scrivere come unione logica dei costituenti ad esso

(12)

favorevoli.

E_i = E_i ∧ Ω = E_i ∧ (C₁ ∨ C₂ ∨ · · · ∨ C_m) =

= E_iC₁ ∨ E_iC₂ ∨ · · · ∨ E_iC_m = W

h:C_h⊆E_i C_h . Indipendenza logica.

A si dice logicamente indipendente da B, C, . . . se, assegnando in tutti i modi ammissibili il valore logico (vero o falso) a tali eventi, ovvero considerando in tutti i modi possibili un loro costituente, A rimane incerto, potendo risultare sia vero che falso.

Se A non `e logicamente indipendente da B, C, . . . , si possono presentare vari tipi di dipendenza logica.

Data una famiglia F = {E₁, E₂, . . . , E_n}, gli eventi di F si dicono logicamente indipendenti se il numero m di costituenti `e pari a 2ⁿ.

Esempio 1 Estrazioni con restituzione da un’urna contenente 1 pallina bianca e 1 nera.

Gli eventi

E_i = la i-ma pallina estratta `e bianca, i = 1, . . . , 5,

(13)

sono logicamente indipendenti?

Esempio 2 Estrazioni senza restituzione da un’urna contenente 2 palline bianche e 3 nere.

Gli eventi E₁, E₂, E₃ sono logicamente indipendenti?

Ad esempio, se E₁, E₂ sono entrambi veri (cio`e le prime due palline estratte sono bianche), cosa si pu`o dire della terza pallina e quindi del valore logico di E₃ ?

Se invece E₁ è vero ed E₂ è falso, cosa si può dire di E₃ ?

L’evento E₅ `e logicamente dipendente da E₁, . . . , E₄? Una famiglia (non vuota) di eventi A si dice un’algebra di Boole se `e chiusa rispetto alle operazioni logiche di negazione e unione.

Nota: se A `e un’algebra contiene sia Ω che ∅ ed

`e chiusa anche rispetto all’intersezione.

(14)

Eventi logicamente dipendenti da n eventi E₁, . . . , E_n Sia C = {C₁, C₂, . . . , C_m} l’insieme dei costituenti generati da n eventi E₁, E₂, . . . , E_n.

C ”coincide” con lo spazio dei punti possibili Ω e cia- scuno dei costituenti sar`a un punto possibile.

L’insieme delle parti P(Ω) = P(C) `e un’algebra.

(i) ogni sottoinsieme A di Ω essendo unione di alcuni punti, ovvero di alcuni costituenti, `e logicamente dipendente da E₁, E₂, . . . , E_n.

Infatti, una volta noti i valori logici di E₁, E₂, . . . , E_n rimane determinato il costituente C_r che si `e verificato e di conseguenza A non rimane incerto: A `e vero se C_r ⊆ A, ovvero se il ”punto” C_r appartiene ad A, ed

`e falso in caso contrario.

(ii) d’altra parte, se un qualsiasi evento A `e logicamente dipendente da E₁, E₂, . . . , E_n, non esiste alcun costituente C_r che, se vero, lascia incerto A, cio`e tale che: C_rA 6= ∅ e C_rA^c 6= ∅ .

In altri termini, per ogni C_r, risulta possibile una sola alternativa: C_r ⊆ A, oppure C_r ⊆ A^c.

Allora: A = A ∧ Ω = · · · = W

r:C_r⊆A C_r .

In conclusione, gli eventi di P(C) sono tutti e soli gli eventi logicamente dipendenti da E₁, E₂, . . . , E_n.

(15)

Un’algebra A si dice una σ-algebra se `e chiusa rispetto all’unione numerabile, cio`e se, per ogni successione E₁, . . . , E_n, . . . di eventi di A, si ha W∞

i=1 E_i ∈ A.

Data una famiglia F di eventi di Ω e considerate tutte le σ-algebre contenenti F , l’intersezione di tali σ-algebre `e la minima σ-algebra A_F contenente F . A_F si dice generata da F .

Esempio. Sia Ω = R, l’insieme dei numeri reali, ed F la famiglia degli intervalli di R. La σ-algebra B generata da F si chiama classe di Borel o σ-algebra boreliana di R. I suoi elementi si chiamano gli insiemi boreliani di R.

Possiamo immaginare di costruire B, con un procedi- mento che non ha mai termine, aggiungendo agli eventi costituiti da intervalli le loro unioni (in numero finito o numerabile), le negazioni degli eventi cos`ı costruiti, di nuovo le unioni e le negazioni, e cos`ı via.

La classe di Borel `e molto vasta, in particolare contiene

(16)

tutti i punti, gli insiemi aperti e gli insiemi chiusi.

B si pu`o anche definire come la minima σ-algebra contenente tutti gli intervalli (−∞, x], con x ∈ R.

Impostazione assiomatica

Da un punto di vista strettamente matematico, come accade in molte trattazioni al riguardo, il calcolo delle probabilità si può sviluppare considerando una terna (Ω, A, P ), detta spazio di probabilità.

A `e una famiglia di eventi di Ω (opportunamente scelta), dotata della struttura di algebra o σ−algebra.

P `e una funzione d’insieme a valori reali che ad ogni E ∈ A associa un valore p = P (E), detto probabilit`a di E, soddisfacente i seguenti assiomi:

• P (E) ≥ 0, ∀ E ∈ A, (non-negativit`a);

• P (Ω) = 1, (normalizzazione);

• P (A ∨ B) = P (A) + P (B), ∀ A, B ∈ A, tali che AB = ∅, (propriet`a additiva).

(17)

Se l’insieme dei casi elementari `e infinito, generalmente, si considera una σ−algebra A; la coppia (Ω, A) si dice uno spazio misurabile, o spazio probabilizzabile, e gli eventi di A sono gli insiemi ”misurabili”, mentre i sottoinsiemi di Ω non appartenenti ad A non sono misurabili.

Inoltre, per ragioni di ”convenienza matematica”, si assume che P , oltre ai primi due assiomi, soddisfi il seguente terzo assioma (additività numerabile, o addi- tività completa, o σ-additività):

• P (W∞

i=1 E_i) = P∞

i=1 P (E_i), per ogni successione E₁, . . . , E_n, . . . di eventi di A a due a due incompatibili, cio`e tali che E_iE_j = ∅ per i 6= j.

La ”convenienza matematica” relativa alla scelta della σ- additività risiede nel fatto che il calcolo delle pro- babilità si può sviluppare utilizzando, anzichè la misura di Peano-Jordan e l’integrale di Riemann, la misura e l’integrale di Lebesgue.

Da questo punto di vista, il calcolo delle probabilit`a diventa una branca della teoria della misura e molti risultati di tale teoria diventano automaticamente teoremi di probabilit`a.

(18)

Commenti critici:

• nell’impostazione assiomatica la probabilit`a `e vista semplicemente come una funzione, mentre sarebbe importante attribuire preliminarmente un significato a tale nozione;

• non si vedono i motivi logici per i quali solo gli eventi di A debbano essere misurabili, mentre gli altri debbano essere considerati come ”non eventi”;

• in generale, sembrerebbe naturale scegliere come famiglia A l’insieme delle parti di Ω, P(Ω), in modo che tutti gli eventi fossero misurabili (cioè probabilizzabili), ma ci sono dei risultati teorici che mostrano che (se Ω è infinito e) se la funzione P è σ-additiva non è possibile definire P su tutto P(Ω) e quindi è necessario limitarsi ad una σ-algebra A opportunamente scelta;

• d’altra parte, come si pu`o vedere con esempi, se si impone la σ-additivit`a rimangono precluse (senza

(19)

chiari motivi logici) delle valutazioni probabilistiche che in certi casi sembrano le pi`u opportune;

• da un punto di vista teorico, assegnare P su A potrebbe essere ”troppo” o ”troppo poco”, mentre, nelle applicazioni, di solito interessa assegnare P su un numero generalmente limitato di eventi appartenenti ad una famiglia F priva di qualsiasi struttura;

• sugli eventi di F (quelli di effettivo interesse nel problema dato) si avranno normalmente sufficienti informazioni che potranno tradursi in valutazioni probabilistiche significative;

• occorrerà soltanto dotarsi di opportuni criteri per verificare la consistenza delle assegnazioni di pro- babilità e di opportuni metodi per estendere tali assegnazioni ad ulteriori eventi di interesse, even- tualmente a tutto P(Ω), ma ciò è teoricamente possibile solo nel caso finitamente additivo.

(20)

Definizione classica

In molti problemi aleatori, per ragioni di simmetria o di mancanza di informazioni sul fenomeno studiato, i casi possibili sono giudicati ugualmente possibili.

In tali situazioni, ai primi studiosi di calcolo delle probabilit`a appariva naturale valutare la probabilit`a di un evento utilizzando la seguente

Definizione. Considerato un esperimento aleatorio con m casi possibili, giudicati ugualmente possibili, ed un evento E con r casi favorevoli, la probabilit`a P (E) di E `e uguale al rapporto _m^r .

Commenti critici

1) Scelta appropriata dei casi da giudicare ugualmente possibili.

Esempio 3 Un esperimento aleatorio consiste in due lanci di una moneta.

E : in almeno un lancio esce Testa.

Casi possibili:

C₁: esce Testa al primo lancio (e l’esperimento ter-

(21)

mina);

C₂: esce Croce al primo lancio e Testa al secondo lancio;

C₃: esce Croce in entrambi i lanci.

C₁ e C₂ sono favorevoli ad E.

Allora . . . P (E) = ²₃ ? (Non ragionevole!)

Non `e ragionevole giudicare i tre casi ugualmente possibili.

Infatti, P (E₁) = ¹₂ (se Testa o Croce al primo lancio si giudicano ugualmente possibili).

. . . inoltre, l’unione logica di E₂ ed E₃ coincide con l’evento Croce al primo lancio, che ha probabilit`a ¹₂, . . . pertanto, P (E₂) = P (E₃) = ¹₄.

. . . quindi una valutazione più adeguata è P (E) = ³₄. 2) La definizione classica non è applicabile sempre.

Esempio 4 Se uno studente sostiene un esame vi sono due casi possibili (lo studente pu`o essere pro-

(22)

mosso o bocciato) . . . nessuno, però, concluderebbe che la probabilità di essere promosso è ¹₂.

. . . per la valutazione delle probabilit`a occorrono quindi metodi generali e solo in casi particolari ci si pu`o basare sulla definizione classica.

3) Circolarit`a.

Il termine ugualmente possibili non pu`o significare altro che ugualmente probabili e quindi nella definizione classica ... il concetto di probabilit`a viene definito mediante se stesso.

(23)

Paradosso del Cavalier De M´er´e

Esempio 5 Si effettuano 4 lanci di un dado, A : ”esce almeno una volta la faccia 6”.

Si effettuano 24 lanci di una coppia di dadi, B : ”esce almeno una volta la coppia (6,6)”.

Si racconta che (nel 1654) il Cavalier De M´er´e (accani- to giocatore di azzardo) valutasse ugualmente probabili A e B sulla base del seguente ragionamento:

- nel primo esperimento in ognuno dei 4 lanci la faccia 6 ha probabilit`a ¹₆ e quindi

P (A) = 1

6 + 1

6 = 2 3 .

- nel secondo esperimento in ognuno dei 24 lanci la coppia (6,6) ha probabilit`a ₃₆¹ e quindi

P (B) = 1

36 + · · · + 1

36 = 24

36 = 2

3 = P (A) .

Negli esperimenti pratici . . . per uno dei due eventi la frequenza di successo era leggermente superiore a

(24)

quella dell’altro (il problema venne sottoposto a Blaise Pascal).

. . . se i lanci nel primo esperimento fossero pi`u di 6, ad esempio 7, si avrebbe

P (A) = 1

6 + · · · + 1

6 = 7

6 > 1 ,

il che `e assurdo, pertanto il ragionamento precedente non `e corretto.

Soluzione.

P (A) = 1 − P (A^c) = 1 − ⁵₆⁴₄ ' 0.51 , P (B) = 1 − P (B^c) = 1 − ³⁵²⁴

36²⁴ ' 0.49 . Quindi P (A) > P (B).

In modo diretto:

lanciando 4 volte un dado i casi possibili sono 6⁴ (disposizioni con ripetizione di classe 4 di 6 oggetti).

(25)

I casi favorevoli all’evento E_h = ⁰⁰la faccia 6 esce esattamente h volte⁰⁰ sono

4 h

5^4−h , h = 0, 1, . . . , 4, e quindi:

P (E_h) =

4 h

5^4−h

6⁴ .

Pertanto :

P (A) =

4

X

h=1

4 h

5^4−h

6⁴ ' 0.51 . In modo analogo:

P (B) =

24

X

k=1

24 k

35^24−k

36²⁴ ' 0.49 .

(26)

Impostazione frequentista

Come mostrato anche dall’esempio di De Méré, . . . esiste una naturale tendenza a vedere un legame tra frequenza e probabilità.

Tale tendenza `e stata anche espressa nella seguente legge empirica del caso:

in una successione di prove effettuate nelle stesse condizioni la frequenza relativa di volte in cui un evento si verifica converge verso la probabilit`a che tale evento ha di verificarsi in ogni prova.

In tale ordine di idee, si giunge alla seguente Definizione frequentista

Considerata una successione di prove indipendenti e ripetute nelle stesse condizioni e indicando, per un da- to evento E, con f_N la frequenza relativa di ”successo”

sulle prime N prove si pone

P (E) = lim

N →+∞ f_N .

(27)

Commenti critici.

1) Le frequenze non costituiscono una successione numerica data mediante una legge, ma sono dei numeri rilevati sperimentalmente. Inoltre, il concetto di limite utilizzato nella definizione non `e quello rigoroso dell’analisi.

2) (applicabilit`a) si deve prendere in considerazione una successione di prove fatte nelle stesse condizioni, il che non `e realistico.

3) (circolarit`a) il concetto di indipendenza ha un significato probabilistico, cos`ı come il fatto di ripetere le prove sempre nelle stesse condizioni equivale ad assumere l’equiprobabilit`a di successo nelle singole prove.

Quindi, la definizione classica e la definizione frequentista si possono utilizzare solo come criteri pratici di valutazione, utili in certi casi, e non per definire il concetto di probabilit`a.

(28)

Impostazione soggettiva della probabilit`a

I precedenti criteri di valutazione possono essere in- tegrati in una impostazione pi`u generale: la teoria soggettiva, sviluppata intorno al 1930 dal matematico italiano Bruno de Finetti.

In tale impostazione gli aspetti oggettivi, concernenti l’ambito del possibile (logica del certo), sono ri- gorosamente distinti da quelli soggettivi, concernenti le valutazioni probabilistiche (logica del probabile).

Si considerino le frequenti discussioni in cui delle persone esprimono opinioni e valutazioni differenti sulla maggiore o minore attendibilit`a di fatti incerti:

. . . la diversit`a di valutazioni risiede essenzialmente nel fatto che le persone hanno un differente stato di informazione.

Esempio 6 Estrazioni con restituzione da un’urna di composizione incognita contenente palline bianche e nere. Si vuole valutare la probabilit`a p di estrarre una pallina bianca alla 1001-ma estrazione.

(29)

Se non si conosce il risultato delle precedenti 1000 estrazioni pu`o essere naturale valutare p = ¹₂.

Se si sa che 900 volte `e stata estratta una pallina bianca, in mancanza di altre informazioni, si pu`o essere indotti a valutare p ' ₁₀⁹ .

Il diverso atteggiamento . . . `e dovuto a un diverso grado di fiducia nel verificarsi dell’evento considerato.

. . . l’informazione di cui si `e in possesso e il modo in cui tale informazione viene elaborata giocano un ruolo essenziale nelle valutazioni di probabilit`a.

. . . nell’impostazione soggettiva tale aspetto viene riconosciuto esplicitamente . . .

Definizione 1 La probabilit`a P (E) = p di un evento E, secondo un dato individuo, in un certo stato di informazione, `e la misura numerica del suo grado di fiducia nel verificarsi di E.

(30)

Criterio operativo di misura + condizione di coerenza:

Criterio della scommessa

P (E) = p rappresenta il prezzo che tale individuo ritiene equo pagare (risp., ricevere) per ricevere (risp., pagare)

1, se si verifica E

0, se non si verifica E

Pi`u in generale, l’individuo deve essere disposto a pagare (risp., ricevere) pS, con S 6= 0, per ricevere (risp., pagare)

S, se si verifica E 0, altrimenti.

Condizione di coerenza:

L’individuo deve essere coerente, cioè le sue valutazioni di probabilità per uno o più eventi non devono essere tali da comportare a priori una perdita certa.

(31)

Indicando con G il guadagno aleatorio e, per comodit`a, con lo stesso simbolo gli eventi e i loro indicatori, si ha

G = S|E| − pS = SE − pS = S(E − p) =

=

S(1 − p) , E vero

−pS , E f also

In generale, data un’assegnazione di probabilit`a (o punto previsione) P_n = (p₁, . . . , p_n) su una famiglia F_n = {E₁, . . . , E_n}, con p_i = P (E_i) per ogni i, si ha

G =

n

X

i=1

S_i(E_i − p_i) ,

con S₁, . . . , S_n numeri reali arbitrari (non tutti nulli).

Definizione 2 La valutazione P_n si dice coerente se, per ogni S₁, . . . , S_n, risulta

M in G · M ax G ≤ 0 .

(32)

Nota: in modo equivalente, la condizione di coerenza pu`o esprimersi come M ax G ≥ 0, oppure M in G ≤ 0.

Propriet`a fondamentali della probabilit`a

• P1. P (E) ≥ 0, per ogni evento E;

• P2. P (Ω) = 1 ;

• P3. se AB = ∅, allora P (A∨B) = P (A)+P (B).

Data una valutazione P (E) = p, si ha G =

S(1 − p) , E vero

−pS , E f also . . . la condizione di coerenza diventa . . . S(1 − p)(−pS) = −p(1 − p)S² ≤ 0,

da cui segue . . . 0 ≤ p ≤ 1. (Propriet`a P1).

In particolare, se E = Ω, si ha

M in G = M ax G = G = S(1 − p)

(33)

e quindi . . . dev’essere G = 0, per ogni S, . . . da cui si ottiene P (Ω) = 1. (Propriet`a P2).

La propriet`a additiva si ottiene come corollario del seguente

Teorema 1 Un’assegnazione di probabilit`a P_n = (p₁, . . . , p_n) su una partizione {H₁, . . . , H_n} `e coerente se e solo se

p₁ + · · · + p_n = 1 ; p_i ≥ 0 , ∀ i . (5)

(CN) Supponiamo P_n coerente. Il guadagno `e G = S₁(H₁ − p₁) + · · · + S_n(H_n − p_n)

e poich`e H₁ + · · · + H_n = 1, scegliendo S₁ = S₂ =

· · · = S_n = S, con S 6= 0, si ottiene

M in G = M ax G = G = · · · = S[1 − (p₁ + · · · + p_n)].

Allora, dev’essere G = 0, ∀ S, e quindi p₁+· · ·+p_n = 1.

(34)

(CS) Supponiamo che P_n soddisfi (5). Posto µ = Pn

i=1 p_iS_i, i valori possibili del guadagno sono g₁ = S₁ − µ , g₂ = S₂ − µ , . . . , g_n = S_n − µ . Ovviamente, ∀ S₁, . . . , S_n, si ha

M in G ≤ p₁g₁ + · · · + p_ng_n ≤ M ax G .

D’altra parte: p₁g₁ + · · · + p_ng_n = · · · = µ − µ = 0 , pertanto M in G · M ax G ≤ 0 e P_n `e coerente.

Propriet`a additiva:

assumendo A e B incompatibili, per le due partizioni {A ∨ B, A^cB^c} e {A, B, A^cB^c} deve valere

P (A∨B)+P (A^cB^c) = 1 , P (A)+P (B)+P (A^cB^c) = 1 , da cui segue

P (A ∨ B) = P (A) + P (B) . (6)

(35)

Iterando la formula precedente, per n eventi E₁, . . . , E_n a due a due incompatibili, si ha

P (E₁ ∨ · · · ∨ E_n) = · · · = P (E₁) + · · · + P (E_n) . (7) Criterio classico di valutazione. In un esperimento aleatorio con m casi possibili C₁, . . . , C_m giudicati ugualmente probabili, poich`e P

iP (C_i) = 1 , si ha necessariamente P (C_i) = _m¹ , ∀ i. Allora, considerato un evento E = C_i₁ ∨ · · · ∨ C_i_r, da ( 7) segue

P (E) = P (C_i₁) + · · · + P (C_i_r) = r m ,

cioè la probabilità di E è pari al rapporto tra il numero di casi favorevoli e il numero di casi possibili.

(36)

Criterio di Penalizzazione.

Al posto dello schema delle scommesse, per misurare l’opinione di un individuo si pu`o utilizzare il criterio di penalizzazione. Con tale criterio, un individuo che esprime una valutazione P_n = (p₁, . . . , p_n) su una famiglia F_n = {E₁, . . . , E_n} subisce una penalizzazione (aleatoria)

L =

n

X

i=1

E_i − p_i k_i

² ,

con k₁, . . . , k_n costanti positive arbitrarie.

(ai fini della verifica della coerenza si pu`o assumere k₁ = · · · = k_n = 1 , cfr. [8], pp. 112-113, par. 6.4).

Condizione di coerenza

La valutazione P_n `e coerente se non esiste un’altra valutazione P_n^∗ tale che per la corrispondente penalizzazione L^∗ risulta L^∗ ≤ L, con L^∗ < L in almeno un caso.

(37)

Applicando il criterio di penalizzazione si dimostrano tutte le propriet`a della probabilit`a ottenute con lo schema delle scommesse.

Ad esempio, per ogni evento E diverso da ∅ e da Ω e per ogni p ∈ [0, 1], la valutazione P (E) = p è coerente. Infatti, si ha L = (E − p)², con L = (1 − p)² (risp., L = p²) se E è vero (risp., falso); allora, com’è facile verificare, non esiste una valutazione p^∗ tale che L^∗ ≤ L, con L^∗ < L in almeno un caso.

Verifica della coerenza.

Data una famiglia F_n = {E₁, . . . , E_n}, sia P_n = (p₁, . . . , p_n) una assegnazione di probabilit`a su F_n, con p_i = P (E_i), i = 1, . . . , n.

Siano C₁, . . . , C_m, con m ≤ 2ⁿ, i costituenti relativi alla famiglia F_n. Ad ogni C_h associamo un vertice, Q_h = (q_h1, . . . , q_hn), dell’ipercubo unitario di Rⁿ, con

q_hi =

1, se C_h ⊆ E_i, 0, se C_h ⊆ E_i^c.

Utilizzando il criterio di penalizzazione si pu`o dimostrare ([12])

(38)

Teorema 2 Il punto-previsione P_n è coerente se e solo se è un baricentro dei punti Q₁, . . . , Q_m; ovvero, indicando con I l’involucro convesso di Q₁, . . . , Q_m, P_n è coerente se e solo se P_n ∈ I.

Dim.

(CS) assumiamo P_n ∈ I. Ci`o significa che esiste un vettore non negativo (λ₁, . . . , λ_m), con P

r λ_r = 1, tale che P_n = λ₁Q₁ + · · · + λ_mQ_m, ovvero tale che

p_i =

m

X

h=1

λ_hq_hi , i = 1, . . . , n .

Al costituente C_h corrisponde per la penalizzazione L il valore L_h = Pn

i=1(q_hi − p_i)², pari al quadrato della distanza d_h tra P_n e Q_h. Il vettore (λ₁, . . . , λ_m) si pu`o interpretare come una distribuzione di ”masse” sui punti Q₁, . . . , Q_m.

Il momento d’inerzia rispetto al baricentro P_n `e M_P = X

h

λ_hd²_h = X

h

λ_hL_h .

(39)

Considerato un punto-previsione P_n^∗, con P_n^∗ 6= P_n, indicando con d^∗_h la distanza tra P_n^∗ e Q_h e con δ la distanza tra P_n e P_n^∗, si ha

d^∗2_h = P

i(q_hi − p^∗_i)² = P

i[(q_hi − p_i) + (p_i − p^∗_i)]² =

= d²_h + 2 P

i(q_hi − p_i)(p_i − p^∗_i) + δ² . Allora, osservando che P

h λ_hq_hi = p_i e quindi P

h λ_h(q_hi − p_i) = 0, si ha

M_P∗ = P

h λ_hd^∗2_h = P

h λ_hL^∗_h =

= P

h λ_hd²_h + 2P

i(p_i − p^∗_i)[P

h λ_h(q_hi − p_i)] + δ² P

hλ_h =

= M_P + δ² (teorema di Huygens − Steiner);

cio`e

M_P^∗ − M_P = X

h

λ_h(d^∗2_h − d²_h) = δ² > 0 .

Allora, spostandosi da P_n a P_n^∗, almeno una delle distanze (e di conseguenza una delle penalizzazioni) aumenta; quindi P_n `e coerente.

(40)

(CN) se P_n ∈ I esiste un iperpiano π che separa P/ _n da I. Allora, indicando con P_n^∗ la proiezione di P_n su π, la distanza d^∗_h di P_n^∗ da Q_h `e minore della distanza d_h di P_n da Q_h, per ogni h = 1, . . . , m. Pertanto, sostituendo P_n con P_n^∗, risulta L^∗_h = d^∗2_h < d²_h = L_h, per ogni h; quindi P_n non `e coerente.

Nota: poich`e Pm

h=1 λ_hq_hi = P

h:C_h⊆E_i λ_h , la condizione di coerenza P_n ∈ I equivale alla risolubilit`a del seguente sistema

(S)





 P

h:C_h⊆E_i λ_h = p_i , i = 1, . . . , n;

Pm

h=1 λ_h = 1 , λ_h ≥ 0 , ∀ h .

(8)

Ricordiamo che E_i = W

h:C_h⊆E_i C_h; allora, se si interpreta λ_h come probabilit`a del costituente C_h, l’equazione P

h:C_h⊆E_i λ_h = p_i rappresenta la formula P (E_i) = P

h:C_h⊆E_i P (C_h).

Pertanto, ogni soluzione del sistema costituisce un modo di assegnare una distribuzione di probabilit`a sui costituenti coerente con l’assegnazione di probabilit`a P_n = (p₁, . . . , p_n) su F_n = {E₁, . . . , E_n}.

(41)

Esempi. Sia F_n = {E₁, E₂}.

1. E₁, E₂ logicamente indipendenti

C₁ = E₁E₂, C₂ = E₁E₂^c, C₃ = E₁^cE₂, C₄ = E₁^cE₂^c, Q₁ = (1, 1), Q₂ = (1, 0), Q₃ = (0, 1), Q₄ = (0, 0).

I `e il quadrato unitario. P₂ = (p₁, p₂) `e coerente se e solo se appartiene al quadrato.

2. E₁E₂ = ∅.

C₁ = E₁E₂^c, C₂ = E₁^cE₂, C₃ = E₁^cE₂^c, Q₁ = (1, 0), Q₂ = (0, 1), Q₃ = (0, 0).

I `e il triangolo di vertici i punti Q_h. P₂ = (p₁, p₂) `e coerente se e solo se appartiene al triangolo.

Un discorso analogo vale nei casi in cui E₁E₂^c = ∅, o E₁^cE₂ = ∅, o E₁^cE₂^c = ∅.

3. Gli eventi E₁, E₂ formano una partizione di Ω.

C₁ = E₁E₂^c, C₂ = E₁^cE₂, Q₁ = (1, 0), Q₂ = (0, 1).

(42)

I `e il segmento che unisce i punti Q₁ e Q₂.

P₂ = (p₁, p₂) `e coerente se e solo se appartiene al segmento, cio`e se e solo se p₁ + p₂ = 1.

Figura 1: insiemi delle valutazioni coerenti

(43)

Equivalenza dei criteri di penalizzazione e della scommessa.

Teorema 3 Data una famiglia F_n = {E₁, . . . , E_n}, siano, rispettivamente, I_p e I_s gli insiemi dei punti previsione P_n = (p₁, . . . , p_n) coerenti secondo il criterio di penalizzazione e quello della scommessa. Si ha I_p = I_s.

Dim.

(a) assumiamo P_n ∈ I_p. Allora, per il Teorema 2, esiste un vettore non negativo (λ₁, . . . , λ_m), con P

h λ_h = 1, tale che P_n = λ₁Q₁ + · · · + λ_mQ_m, ovvero tale che

p_i =

m

X

h=1

λ_hq_hi , i = 1, . . . , n ,

da cui segue, per i = 1, . . . , n:

m

X

h=1

λ_hq_hi −

m

X

h=1

λ_h

!

p_i =

m

X

h=1

λ_h(q_hi − p_i) = 0 .

(44)

Indicando con g₁, . . . , g_m i possibili valori del guadagno aleatorio

G =

n

X

i=1

S_i(E_i − p_i) =

n

X

i=1

S_iE_i −

n

X

i=1

S_ip_i ,

per ogni h si ha

g_h =

n

X

i=1

S_iq_hi −

n

X

i=1

S_ip_i =

n

X

i=1

S_i(q_hi − p_i) . (9)

Allora, per ogni S₁, . . . , S_n, si ha P

h λ_hg_h = P

h λ_h [Pn

i=1 S_i(q_hi − p_i)] =

= Pn

i=1 S_i[P

h λ_h(q_hi − p_i)] = 0 .

Pertanto, comunque si scelgano S₁, . . . , S_n, i valori g₁, . . . , g_m non possono essere tutti positivi o tutti negativi, altrimenti sarebbe P

h λ_hg_h > 0 oppure P

h λ_hg_h < 0. La condizione M in G · M ax G ≤ 0 `e quindi sempre soddisfatta, perci`o P_n ∈ I_s.

(45)

(b) assumiamo P_n ∈ I/ _p. In questo caso, esiste un iperpiano π, di equazione Pn

i=1 a_ix_i = b, che separa P_n dall’involucro convesso I dei punti Q₁, . . . , Q_m. Siano

n

X

i=1

a_ix_i = c ,

n

X

i=1

a_ix_i = c₁ , · · · ,

n

X

i=1

a_ix_i = c_m , le equazioni degli iperpiani, π_P, π₁, . . . , π_m, paral- leli a π e passanti rispettivamente per i punti P_n, Q₁, . . . , Q_m.

Considerata la funzione f (x₁, . . . , x_n) = Pn

i=1 a_ix_i e scelti nell’espressione del guadagno aleatorio G i valori S₁ = a₁, . . . , S_n = a_n, da (9) segue

g_h = f (Q_h) − f (P_n) = c_h − c , h = 1, . . . , m . Poich`e π separa π_P da π₁, . . . , π_m si ha c_h < c per ogni h, oppure c_h > c per ogni h, e quindi

M in G · M ax G = (c⁰ − c)(c⁰⁰ − c) > 0 ,

dove c⁰ = M in c_h , c⁰⁰ = M ax c_h . Pertanto P_n ∈ I/ _s. In conclusione: P_n ∈ I_p ⇔ P_n ∈ I_s e quindi I_p = I_s.

(46)

Propagazione

Sia F_n = {E₁, . . . , E_n} una famiglia arbitraria di n eventi e sia P_n = {p₁, . . . , p_n} un’assegnazione di probabilit`a coerente su F_n .

Se consideriamo un ulteriore evento E_n+1, sorge il problema di come valutare la probabilit`a p_n+1 = P (E_n+1) in modo tale che la valutazione P_n+1 = {p₁, . . . , p_n, p_n+1} su F_n+1 = {E₁, . . . , E_n, E_n+1} sia coerente.

. . . la scelta di p_n+1 non `e arbitraria, ma va fatta in un opportuno intervallo [p⁰, p⁰⁰] ⊆ [0, 1].

Infatti, si ha il seguente risultato (teorema fondamentale per le probabilit`a, [8])

Teorema 4 Data un’assegnazione di probabilit`a coerente P_n = (p₁, . . . , p_n) su una famiglia F_n = {E₁, . . . , E_n}, con p_i = P (E_i), si consideri un ulteriore evento E_n+1 e si ponga F_n+1 = F_n∪ {E_n+1}.

Allora, esiste un intervallo [p⁰, p⁰⁰] ⊆ [0, 1] tale che l’estensione P_n+1 = (p₁, . . . , p_n, p_n+1) di P_n su F_n+1

`e coerente se e solo se p_n+1 ∈ [p⁰, p⁰⁰].

(47)

Pi`u in generale, si ha

Teorema 5 Data un’assegnazione di probabilit`a coerente P su una famiglia di eventi K ed una famiglia K^∗, con K ⊂ K^∗, esiste un’estensione coerente P^∗ di P su K^∗, tale che, per ogni E ∈ K, si ha P^∗(E) = P (E).

Nota: l’assegnazione coerente P su K pu`o quindi essere estesa all’algebra A_K generata da K.

Esempi.

1. Sia F₁ = {E₁}, con P (E₁) = p₁ ∈ [0, 1]. Da- to un evento E₂ incompatibile con E₁, con E₂ 6= E₁^c, si ponga P (E₂) = p₂.

Per quali valori di p₂ la valutazione (p₁, p₂) su F₂ = {E₁, E₂} `e coerente?

Risposta: osservando che P (E₁∨ E₂) = p₁+ p₂ ≤ 1 , si ha p₂ ∈ [0, 1 − p₁].

(48)

2. Date le probabilit`a P (A) = x, P (B) = y, la valutazione P (A ∨ B) = z `e un’estensione coerente di (x, y) se e solo se

M ax {x, y} ≤ z ≤ M in {1, x + y} ,

mentre la valutazione P (AB) = p `e un’estensione coerente se e solo se

M ax {0, x + y − 1} ≤ p ≤ M in {x, y} .

3. Un sistema S `e costituito da 3 moduli M₁, M₂, M₃. Definiti gli eventi A_i = “il modulo M_i funziona”, i = 1, 2, 3, supponiamo che se M_i funziona allora M_i+1 funziona, i = 1, 2. Posto P (A₁) = ¹₄, P (A₃) = ₁₀⁶ , de- terminare l’intervallo [p⁰, p⁰⁰] delle estensioni coerenti P (A₂) = p.

Soluzione: Dalla propriet`a di monotonia della probabilit`a segue P (A₁) ≤ P (A₂) ≤ P (A₃) e quindi

1

4 ≤ P (A₂) ≤ ³₅. Si pu`o verificare che [p⁰, p⁰⁰] = [¹₄, ³₅].

(49)

Infatti, essendo A₁ ⊆ A₂ ⊆ A₃, i costituenti sono C₁ = A₁ ∧ A₂ ∧ A₃ ; C₂ = A^c₁ ∧ A₂ ∧ A₃ ; C₃ = A^c₁ ∧ A^c₂ ∧ A₃ ; C₄ = A^c₁ ∧ A^c₂ ∧ A^c₃.

Allora, posto P (C_h) = λ_h, la coerenza della valutazione

P (A₁) = 1

4 , P (A₃) = 3

5 , P (A₂) = p , equivale alla risolubilit`a del sistema







λ₁ = ¹₄ , λ₁ + λ₂ = p , λ₁ + λ₂ + λ₃ = ³₅ , λ₁ + λ₂ + λ₃ + λ₄ = 1 , λ_h ≥ 0 , ∀ h . Si ha: p = ¹₄ + λ₂ = ³₅ − λ₃ , λ₂ + λ₃ = ₂₀⁷ ;

pertanto, il sistema `e risolubile se e solo se p ∈ [¹₄, ³₅].

In particolare, le soluzioni del sistema sono tutti e soli i vettori (λ₁, λ₂, λ₃, λ₄) = (¹₄, λ, ₂₀⁷ − λ, ²₅), con λ ∈ [0, ₂₀⁷ ].

(50)

Determinazione dell’intervallo [p⁰, p⁰⁰].

Siano C₁, . . . , C_m i costituenti relativi alla famiglia F_n = {E₁, . . . , E_n}.

Dato E_n+1, distinguiamo 3 classi di costituenti:

(i) costituenti che implicano (cio`e favorevoli a) E_n+1; (ii) costituenti che non implicano E_n+1, ma sono con esso compatibili;

(iii) costituenti incompatibili con E_n+1. Definiamo gli insiemi

J₁ = {h : C_h ∧ E_n+1^c = ∅} = {h : C_h ∧ E_n+1 = C_h} , J₂ = {h : ∅ ⊂ C_h ∧ E_n+1 ⊂ C_h} =

= {h : C_h ∧ E_n+1 6= ∅ , C_h ∧ E_n+1^c 6= ∅} ,

J₃ = {h : C_h ∧ E_n+1 = ∅} = {h : C_h ∧ E_n+1^c = C_h} . Osservando che W

h∈J₃ E_n+1C_h = ∅, si ha E_n+1 = Wm

h=1 E_n+1C_h = W

j∈J₁∪J₂∪J₃ E_n+1C_h =

= · · · =

W

h∈J₁ C_h

∨ W

h∈J₂ E_n+1C_h

,

(51)

e, definendo E⁰ = W

h∈J₁ C_h , E⁰⁰ = W

h∈J₁∪J₂ C_h, si ha: E⁰ ⊆ E_n+1 ⊆ E⁰⁰ .

E⁰ si chiama massimo evento logicamente dipendente da E₁, . . . , E_n contenuto in E_n+1.

E⁰⁰ si chiama minimo evento logicamente dipendente da E₁, . . . , E_n contenente E_n+1.

Se si assegnano le probabilit`a dei costituenti λ_h = P (C_h) , h = 1, . . . , m, si ha

X

h∈J₁

λ_h = P (E⁰) ≤ P (E_n+1) ≤ P (E⁰⁰) = X

h∈J₁∪J₂

λ_h .

Poichè P_n è coerente, l’insieme S delle soluzioni Λ = (λ₁, . . . , λ_m) del sistema (8) è non vuoto. Si ha

p⁰ = M in_Λ∈S P (E⁰) , p⁰⁰ = M ax_Λ∈S P (E⁰⁰) . I valori p⁰, p⁰⁰ si possono calcolare utilizzando il metodo del simplesso della programmazione lineare.

(questo tipo di problemi `e stato studiato in molti lavori;

cfr., ad es., [1], [2], [5], [20]).

(52)

Numeri aleatori semplici

Dati n eventi E₁, E₂, . . . , E_n ed n numeri reali x₁, x₂, . . . , x_n, la quantit`a

X = x₁ · |E₁| + x₂ · |E₂| + · · · + x_n · |E_n| (10) rappresenta un numero ben determinato ma incognito, detto numero aleatorio semplice, i cui possibili valori si ottengono considerando i costituenti relativi agli eventi E₁, . . . , E_n, ovvero assegnando in tutti i modi possibili i valori agli indicatori degli eventi.

X si pu`o anche considerare come una funzione reale definita sull’insieme dei costituenti C₁, . . . , C_m.

L’insieme dei possibili valori di X costituisce il codominio C_X di tale funzione.

Esempi.

(i) l’indicatore di un evento `e un numero aleatorio semplice;

(ii) il risultato aleatorio X del lancio di un dado `e un numero aleatorio semplice. Definiti gli eventi

E_i = ⁰⁰esce il numero i ⁰⁰ , i = 1, 2, . . . , 6,

(53)

si ha: X = 1 · |E₁| + 2 · |E₂| + · · · + 6 · |E₆|.

E₁, E₂, . . . , E₆ formano una partizione e quindi, per il codominio di X, si ha C_X = {1, 2, . . . , 6}.

Forma Canonica.

In generale, se {H₁, H₂, . . . , H_n} `e una partizione di Ω, per il numero aleatorio

X = x₁ · |H₁| + x₂ · |H₂| + · · · + x_n · |H_n| si ha C_X = {x₁, x₂, . . . , x_n}.

Esempio. Dati E₁, E₂, E₃, con E₁E₂ = ∅, E₃ ⊆ E₁, sia X = 2|E₁| − |E₂| + |E₃|.

Costituenti generati da E₁, E₂, E₃:

C₁ = E₁E₂^cE₃ , C₂ = E₁E₂^cE₃^c , C₃ = E₁^cE₂E₃^c , C₄ = E₁^cE₂^cE₃^c . Corrispondenti valori di X:

χ₁ = 3 , χ₂ = 2 , χ₃ = −1 , χ₄ = 0 .

(54)

Pertanto C_X = {−1, 0, 2, 3}. Inoltre

X = 3|C₁| + 2|C₂| − 1|C₃| + 0|C₄| .

Quindi, determinando i costituenti e i corrispondenti valori di X, si pu`o passare alla forma canonica.

In generale, dati gli eventi E₁, . . . , E_n, siano C₁, . . . , C_m i relativi costituenti. Posto

X = x₁|E₁| + x₂|E₂| + · · · + x_n|E_n|

e indicando con χ₁, . . . , χ_m i valori di X associati con C₁, . . . , C_m, si ha

X = χ₁|C₁| + χ₂|C₂| + · · · + χ_m|C_m| .

Fissato C_h, si ha: |E_i| = 1 ⇔ C_h ⊆ E_i; quindi: χ_h = P

i:C_h⊆E_i x_i , h = 1, . . . , m.