• Non ci sono risultati.

Capitolo 3: I Problemi del modello bayesiano di conferma

N/A
N/A
Protected

Academic year: 2021

Condividi "Capitolo 3: I Problemi del modello bayesiano di conferma"

Copied!
53
0
0

Testo completo

(1)

Capitolo 3: I Problemi del modello bayesiano di conferma

In questo capitolo prenderemo in considerazione i vari problemi connessi con il modello bayesiamo di conferma. In questa sede ci limiteremo ad una esposizione e spiegazione di ogni singolo problema, mentre nella conclusione del lavoro tireremo le somme dei successi e degli insuccessi fino ad ora analizzati, al fine di formulare un nostro giudizio sulla questione se il Bayesianesimo sia un modello adeguato per rendere ragione della conferma e quindi della razionalità scientifica.

3.1 – Il problema della vecchia evidenza

Nel capitolo precedente abbiamo visto che una delle grandi virtù del modello di conferma bayesiano è la sua capacità di spiegare perché il metodo HD ha un nucleo di validità. Ricordiamo brevemente il ragionamento prima esposto. Consideriamo di misurare il grado in cui E conferma H mediante C(H, E) = P(H/E) – P(H). Supponiamo inoltre che (1) H => E (ovvero la condizione base del metodo HD), che (2) 0 < P(H) < 1 e che (3) 0 < P(E) < 1. Poste queste condizioni, è possibile mostrare, mediante il teorema di Bayes, in consonanza con il metodo HD, che C(H, E) > 0.

Nonostante le molte virtù, il modello bayesiano di conferma possiede anche molte debolezze. Una di queste è il cosiddetto “problema della vecchia evidenza”. Vediamo di esporlo mediante il seguente esempio. Ci troviamo nel Novembre del 1915, periodo in cui Einstein formulò la versione finale della sua teoria generale della relatività (GTR) e quando mostrò per la prima volta che questa spiegava il prima di allora anomalo avanzamento del perielio di Mercurio. Questa anomalia era già conosciuta prima della formulazione della GTR, pertanto essa era una vecchia evidenza. Ciò significa che l'agente bayesiano che conosceva una tale area di ricerca e che operava secondo il modello di apprendimento dall'esperienza della stretta condizionalizzazione, avrebbe posto P1915(E) = 1, dove E nel nostro esempio rappresenta

l'avanzamento anomalo del perielio di Mercurio. Non si dà allora la condizione (3) sopra esposta e quindi P1915(H/E) = P1915(H), ovvero C(H, E) = 0 per ogni H e allora anche per la

GTR in particolare. Questo risultato tuttavia va contro l'opinione generalmente accettata secondo cui, eccetto poche eccezioni, i fisici del tempo ritenevano che la spiegazione del fenomeno del perielio dava un valore di conferma migliore alla GTR rispetto alle altre due prove classiche, ovvero la curvatura della luce e lo spostamento verso il rosso, nonostante il fatto che il primo fosse una vecchia evidenza, mentre le altre due rappresentavano nuove predizioni.

(2)

quanto riguarda l'esempio di Einstein, ci sono ragioni sia storiche che filosofiche per questa disuguaglianza. La letteratura del periodo riporta un range di valori compresi tra il 41'' e il 45'' di arco per secolo come valore dell'avanzamento anomalo del perielio di Mercurio. Inoltre era diffusa anche la posizione più debole secondo cui il vero valore giace in qualche parte dell'intervallo sopra considerato. Se noi portiamo avanti il ragionamento fino alle sue conclusioni logiche, raggiungeremo eventualmente la posizione che nessuna proposizione del linguaggio del genere utile alla conferma è mai appresa per certo e pertanto il modello della stretta condizionalizzazione cadrebbe. Il bayesiano comunque non perderebbe nulla in quanto Jeffrey ha proposto una regola che si sostituisce alla stretta condizionalizzazione, la quale vale per l'apprendimento incerto.

Negare tuttavia che P(E) = 1 serve unicamente a scambiare una versione del problema della vecchia evidenza e conseguenze annesse con un'altra. Forse infatti non era certo nel Novembre del 1915 che il vero valore dell'avanzamento anomalo era di circa 43'' di arco per secolo, ma la maggior parte dei membri della comunità scientifica ne erano abbastanza sicuri, possiamo dire nella misura P(E) = .999. Assumendo quindi che la teoria di Einstein comporta deduttivamente E e che il potere di conferma di E possa essere misurato secondo l'espressione C(H, E) = P(H) x P(¬E)/P(E)1, ovvero P(H) x .001/.999, che è minore di .001002, otteniamo

comunque un risultato controintuitivo, dal momento che volevamo dimostrare che il fenomeno del perielio supportava e ancora supporta la teoria di Einstein.

Notiamo inoltre che per il personalista bayesiano che è logicamente onnisciente il problema della vecchia evidenza diventa uno pseudo problema. L'onniscienza logica racchiude due principi. Il primo di questi, (LO1), ci dice che le verità logico-matematiche e in particolare le implicazioni logico-matematiche esprimibili nel linguaggio L su cui la funzione di probabilità P è definita, sono conosciute dall'agente bayesiano. Questa assunzione è codificata dall'assioma base del calcolo delle probabilità secondo cui, se ╞ X in L, allora P(X) = 1. Come abbiamo visto, una violazione del seguente assioma, sottopone l'agente bayesiano all'argomento del Dutch Book. Il secondo elemento dell'onniscenza logica, (LO2), ci dice invece che l'agente bayesiano è consapevole di ogni teoria che appartiene allo spazio delle possibilità. Questo significa che quando l'agente compie gli assegnamenti iniziali di probabilità Pt0, egli formula e considera ogni teoria che può essere espressa in L.

Per l'agente bayesiano onnisciente nel secondo senso, il problema della vecchia evidenza non si pone. Questi infatti conosce da sempre tutte le teorie dello spazio delle possibilità. Nell'esempio sopra considerato egli quindi conosce la GTR ancor prima di conoscere l'anomalia del perielio di Mercurio. Supponiamo inoltre che l'agente bayesiano apprenda tale

1 C(H, E) = P(H) x P(¬E)/P(E) è una delle molte espressioni utilizzate come misura dell'estensione in cui E

(3)

anomalia in un periodo di tempo compreso tra tn e tn + 1. Se Ptn(H/E) > Ptn(H), allora un evento

di conferma ha avuto luogo. Questo evento avviene solo una volta, in quanto, una volta che l'evidenza viene appresa per certo, essa, nei periodi di tempo posteriori a n + 1, avrà una probabilità pari all'unità, ovvero per ogni m > n + 1, Ptm(E) = 1. Una volta tuttavia è

sufficiente poiché al tempo tm possiamo ancora dire che E è una buona evidenza per H, dal

momento che la storia della presente funzione di probabilità Ptm contiene il tipo rilevante di

evento di conferma.

Questa soluzione non si applica agli agenti bayesiani reali, che violano (LO2). Nell'esempio che abbiamo preso in considerazione, questa soluzione non si applica per nessuno dei membri della comunità dei fisici nel 1915, dal momento che la teoria generale di Einstein non venne formulata fino alla fine di Novembre di quell'anno. Se noi riuscissimo tuttavia a dimostrare in termini bayesiani come la GTR è stata confermata per gli scienziati della vita reale nel 1915, allora potremmo utilizzare la strategia di cui sopra per coprire i periodi posteriori al 1915. Prima di andare avanti nella trattazione del problema della vecchia evidenza, è utile prendere in considerazione, con Earman (1992, pag. 122), la classificazione che Eells (1985) ha fatto di questo. La classificazione è la seguente:

I. Il problema della vecchia nuova evidenza: H è stata formulata prima della scoperta di E, ma ora è passato del tempo e P(E) = 1, quindi P(H/E) = P(H).

II. Il problema della vecchia evidenza: E era conosciuta prima della formulazione di H.

A. Il problema della vecchia vecchia evidenza: ci troviamo ora in un periodo di tempo seguente alla formulazione di H.

1. H è stata originariamente formulata per spiegare E. 2. H non è stata originariamente formulata per spiegare E.

B. Il problema della nuova vecchia evidenza: ci troviamo ora nel periodo di tempo (o comunque poco dopo) della formulazione di H.

1. H è stata originariamente formulata per spiegare E. 2. H non è stata originariamente formulata per spiegare E.

La soluzione della storia della conferma ci permette di risolvere il caso I) e, data una soluzione a II.B), ci permette di risolvere anche (II.A). Il problema rimanente di cui stiamo cercando una soluzione è allora quello della nuova vecchia evidenza.

Earman (ibid., pagg. 123 – 132) considera la soluzione data a questo di Gaber (1983), Jeffrey (1983a) e Niiniluoto (1983), i quali hanno cercato di risolvere il problema della vecchia evidenza proponendo di lasciar cadere (LO1) e (LO2). Lasciar cadere (LO1) permette all'agente bayesiano di compiere un apprendimento logico-matematico, il quale, secondo gli

(4)

studiosi, può servire ad incrementare la probabilità della teoria. Nel caso dell'esempio di Einstein, ciò che lo scienziato apprese nel Novembre del 1915 fu quindi che la sua teoria generale comportava il prima d'allora anomalo avanzamento del perielio di Mercurio e questa nuova conoscenza era l'evento di conferma rilevante.

Vediamo nello specifico la soluzione al problema residuale della vecchia evidenza data da Gaber e Jeffrey, iniziando con quella di Gaber.

Egli inizia con il prendere in considerazione un linguaggio L in cui ci sono enunciati atomici distinti che sono considerati logicamente indipendenti e in cui gli enunciati non atomici sono composti vero-funzionali di quelli atomici. Egli poi si sposta verso un linguaggio più ricco L* che contiene gli enunciati di L e anche enunciati atomici della forma X F

˫

Y, dove X e Y sono enunciati di L. Il simbolo

˫

è un connettivo primitivo di L*, ma lo scopo è quello di interpretarlo come un'implicazione logico-matematica2 in un qualsiasi sistema di logica e

matematica in cui ve n'è bisogno per la branca della scienza in questione. Per fare questo, Gaber richiede che sotto la funzione P,

˫

si comporti come se obbedisse al modus ponens, obbedendo alla regola (G):

P((X

˫

Y) X) = P((X ⋀

˫

Y) X Y) (G)⋀ ⋀ A questo punto Gaber mostra che apprendere che H

˫

E può servire per confermare H. Per fare questo egli mostra che c'è una probabilità P definita sugli enunciati di L* che soddisfa (G) tale che 0 < P(X

˫

Y) < 1 ogni volta che X e ¬Y non sono entrambe tautologie,; potrebbe allora accadere che P(X/X

˫

Y) > P(X). Potremo desiderare aggiungere un'ulteriore costrizione secondo cui P(X

˫

Y) = 1 ogni volta che X → Y è una tautologia di L. Dal momento però che la GTR di Einstein non comporta in modo vero-funzionale l'evidenza E dell'avanzamento del perielio di Mercurio, è consistente con questa costrizione porre P(GTR ˫

2 Per evitare confusione con quanto diremo in seguito, ricordiamo che l'implicazione logico-matematica, la quale

si indica solitamente con il simbolo =>, è differente dall'implicazione materiale, indicata solitamente con il simbolo →. Quest'ultima è un connettivo logico, che ci permette di connettere due enunciati in modo da ottenerne un terzo, il cui valore di verità dipende dai valori di verità dei due enunciati componenti secondo quanto indicato dalle tavole di verità. La tavola di verità dell'implicazione materiale in particolare è contraria al senso comune, in quanto la combinazione “p → q” è falsa unicamente quando l'antecedente è vero e il conseguente è falso. Questo significa che l'enunciato composto mediante l'implicazione materiale è vero ogni volta che l'antecedente è falso a prescindere dal valore di verità del rispettivo conseguente. Per implicazione logico-matematica invece si intende la deduzione logica, la quale è un ragionamento che ci porta necessariamente da uno o più enunciati considerati veri (le premesse) ad un enunciato vero (la conclusione). Con l'avverbio “necessariamente” si intende che è impossibile che le premesse siano vere e la conclusione falsa. Un esempio di ragionamento deduttivo è quello del modus ponens, il quale assume la seguente forma:

Se p, allora q p

quindi

q

Quest'ultimo è un ragionamento deduttivo nella misura in cui se le premesse sono vere, la conclusione non può non essere vera.

(5)

E) < 1 e quindi ottenere P(GTR/GTR ˫ E) > P(GTR).

Una delle critiche mosse all'approccio di Gaber è che egli ha mostrato unicamente che una soluzione del problema della vecchia evidenza è possibile all'interno del modello bayesiano basato sulla stretta condizionalizzazione e non che una soluzione di questa forma si applica effettivamente ai casi storici. Jeffrey invece ha cercato di dimostrare, per il caso storico concreto della GTR di Einstein, che un insieme possibile di costrizioni che il grado di credenza di Einstein avrebbe dovuto soddisfare garantisce che il suo apprendimento che GTR ˫ E serve ad incrementare il grado di credenza in GTR dello scienziato.

Vediamo il tentativo di Jeffrey di mostrare come l'apprendere che H ˫ E possa servire ad aumentare la probabilità di H. Consideriamo le seguenti condizioni:

P(E) = 1; (J1.a) 1 > P(H) > 0; (J1.b) 1 > P(H ˫ E) > 0; 1 > P(H ˫ ¬E) > 0; (J2.a) P((H ˫ E) (H ⋀ ˫ ¬E)) = 0; (J2.b) P(H/(H ˫ E) (H ⋁ ˫ ¬E)) ≥ P(H); (J3) P(H (H ⋀ ˫ ¬E)) = P(H (H ⋀ ˫ ¬E) ¬E); (J.4)⋀ allora P(H/H ˫ E) > P(H).

Dimostrazione

P(H/(H ˫ E) (H ⋁ ˫ ¬E)) = P(H⋀(H ˫ E)) + P(H (H ⋀ ˫ ¬E)) – P(H⋀(H ˫ E) (H ⋀ ˫ ¬E)) P(H ˫ E) + P(H ˫ ¬E) – P((H ˫ E) (H ⋀ ˫ ¬E)) = P(H/ H ˫ E)

1 + [P(H ˫ E)/P(H ˫ ¬E) ]

La prima uguaglianza segue dalla definizione di probabilità condizionale e dagli assiomi della probabilità. La seconda uguaglianza segue dalla prima in quanto, dati (J1.a) e (J.4), il secondo e terzo termine nel numeratore al lato destro assumono come valore 0, e, dato (J2.b), il terzo termine nel denominatore è pari a 0. Posto (J2.a) inoltre, il lato destro della seconda uguaglianza è minore di P(H/H ˫ E); dato (J3) tuttavia il lato destro della seconda uguaglianza è più grande di o comunque uguale a P(H), e questo ci porta al risultato voluto.

Le condizioni (J1) e (J2.a) seguono dal significato del problema della vecchia evidenza. La condizione (J4) è un'applicazione della condizione (G) di Gaber. La condizione cruciale è (J3), la quale, in riferimento all'esempio che stiamo ora facendo, ci dice che nel Novembre del 1915, il grado di credenza di Einstein in GTR prima dell'apprendimento che essa implicasse i mancanti 43'' era minore del o uguale al suo grado condizionale di credenza nella teoria, posto che essa implicasse un risultato definito al riguardo del perielio di Mercurio. Earman (ibid.), riprendendo una critica di Eells (1985), ci dice che la condizione (J3) è sospetta. Per esempio, la dimostrazione sopra esposta ci mostra che in presenza delle altre condizioni, (J3) ci porta al

(6)

risultato che se P(H ˫ E) = P(H ˫ ¬E), allora P(H/(H ˫ E)) ≥ 2P(H). Questo significa che la probabilità a priori di H non può essere più grande di .5. Inoltre quando P(H) si approccia a .5, P(H/H ˫ E) si approccia ad 1. Questo è un risultato interamente implausibile nel caso storico reale che stiamo prendendo in considerazione. Earman (ibid.) aggiunge inoltre che anche (J2.b) è sospetto in quanto, se noi consideriamo agenti umani, non logicamente onniscienti, allora non è ragionevole per loro essere certi che una nuova e complicata teoria sia interamente consistente. Queste constatazioni ci portano a ritenere che la soluzione data da Jeffrey al problema della vecchia evidenza non possa essere sostenuta.

A questo punto Earman (ibid.) va alla ricerca di soluzioni alternative a quella di Jeffrey che siano immuni dalle medesime obiezioni a cui questa è soggetta. La speranza dell'autore non è quella di dimostrare che una singola giustificazione formale dell'approccio di Gaber, Jeffrey, Niiniluoto, possa ricoprire tutti quanti i casi, ma mostrare se un tale approccio è in grado di dimostrare gli aumenti nella probabilità in un insieme interessante di casi. Proprio per questo motivo, l'autore continua a concentrarsi sul caso della GTR e dell'avanzamento anomalo del perielio di Mercurio e prende in considerazione soluzioni alternative alla dimostrazione data da Jeffrey per vedere se gli aumenti nella probabilità avranno luogo in questa circostanza. Egli considera la seguente alternativa alla dimostrazione di Jeffrey. Consideriamo le relazioni seguenti:

P(E) = 1; (A1.a) 1 > P(H) > 0; (A1.b) 1 > P(H ˫ E) > 0; (A2) P((H ˫ E) (H ⋁ ˫ ¬E)) = 1; (A3) P(H (H ⋀ ˫ ¬E)) = P(H (H ⋀ ˫ ¬E) ¬E); (A.4)⋀ allora P(H/H ˫ E) > P(H).

Dimostrazione

P(H) = P(H [⋀ (H ˫ E) (H ⋁ ˫ ¬E)]);

= P(H⋀(H ˫ E)) + P(H (H ⋀ ˫ ¬E)) – P(H [⋀ (H ˫ E) (H ⋀ ˫ ¬E)]); = P(H⋀(H ˫ E)).

Otteniamo la prima uguaglianza grazie ad (A3). La seconda segue dalla prima in virtù dell'assioma di addizione. La terza deriva da (A1.a) e (A4), quindi:

P(H/ H ˫ E) – P(H) = P(H) [1 – P(H ˫ E) ] P(H ˫ E)

questa, in base ad (A1.b) e (A2), è più grande di 0.

Anche questo approccio potrebbe apparire soggetto al tipo di obiezione di Eells, dal momento che segue che P(H/H ˫ E) = P(H)/P(H ˫ E); questo significa che se P(H) = P(H ˫ E), allora

(7)

P(H/H ˫ E) = 1. Ciò non accade in quanto H ˫ E è una conseguenza di H e quindi P(H) ≤ P(H ˫ E). Questo significa che l'obiezione analoga a quella fatta da Eells non si applica al caso ora in esame.

Nonostante ciò il problema della vecchia evidenza relativo al caso del perielio non viene risolto dall'approccio GJN. La condizione (A3) è infatti problematica. Sicuramente essa evita che la dimostrazione poggi sull'assunzione sospetta (J2.b) secondo cui P((H ˫ E) (H ⋀ ˫ ¬E)) = 0. Questa condizione tuttavia che ci dice che nello scrivere la sua teoria, Einstein era certo che essa implicasse un risultato definitivo al riguardo dell'avanzamento del perielio di Mercurio, è contraria all'evidenza storica. Infatti lo scienziato pubblicò uno scritto sull'anomalia del perielio che conteneva una spiegazione incompleta, dal momento che, come egli stesso notò, egli non aveva nessuna prova che la soluzione del campo di equazioni che egli utilizzò per calcolare il perielio era l'unica soluzione per l'insieme rilevante di condizioni limite. A causa dell'inesattezza della condizione (A3) allora nemmeno quest'ultima dimostrazione si rivela utile nel caso della GTR e del perielio di Mercurio. Earman (ibid.) tuttavia ne prende in considerazione un'altra che sostituisce (A3) con l'assunzione storicamente più veritiera che il grado di credenza di Einstein in GTR, condizionale al fatto che la teoria desse la predizione corretta per il perielio di Mercurio, era più grande del suo grado di credenza nella teoria, condizionale al fatto che la teoria desse una predizione non definita al riguardo del perielio. Se noi assumiamo che H ˫ N significhi ¬(H ˫ E) ¬(H ⋀ ˫ ¬E), l'assunzione equivale a sostituire (A3) con:

P(H/ H ˫ E) > P(H ˫ N); (A'3) Allora (A1), (A2), (A3'), e (A4) insieme implicano che P(H/ H ˫ E) > P(H).

Dimostrazione

P(H) = P(H/H ˫ E) x P(H ˫ E) + P(H/H ˫ ¬E) x P(H ˫ ¬E) + P(H/H ˫ N) x P(H ˫ N).

Mediante (A1.a) e (A4), il secondo termine al lato destro è 0. Dal momento che inoltre P(H ˫ E) + P(H ˫ N) ≤ 1, P(H ˫ E) < 1 (mediante (A2)) e P(H/ H ˫ E) > P(H ˫ N) (mediante (A3')), l'uguaglianza non potrebbe valere se P(H) ≥ P(H/H ˫ E).

Mentre il dubbio lasciato aperto dell'analisi di Eells potrebbe non essere stato completamente risolto in favore dell'approccio GJN, abbastanza è stato detto per ritenere plausibile il fatto che in un range interessante di casi, apprendere H ˫ E può servire ad accrescere la confidenza in H.

Per quei bayesiani che sono stati persuasi da GJN dal bisogno di umanizzare la loro dottrina, la strada è ora aperta per cercare attraverso gli archivi di Einstein le prove che nel Novembre del 1915 le credenze di Einstein si conformavano a (J1) – (J4) o ad uno degli schemi alternativi considerati (A1) – (A4) o (A1), (A2), (A3'), (A4). Dobbiamo tuttavia considerare

(8)

che, anche se i ritrovamenti fossero positivi, il problema della vecchia evidenza al riguardo del perielio Mercurio e della GTR non può essere considerato risolto. La questione originale era se il dato astronomico E confermava la GTR (per Einstein, se preferiamo). GJN sostituisce questa domanda con quella se l'apprendimento di Einstein che H ˫ E aumenta la confidenza dello scienziato nella teoria. Queste due domande non solo non sono semanticamente equivalenti, ma non lo sono nemmeno estensionalmente. Infatti mentre possiamo dire senza ombra di dubbio che per Einstein E confermava H e che quindi per lo scienziato P(H ˫ E) = 1, dobbiamo invece essere preparati per i ritrovamenti di archivio che le condizioni di cui c'è bisogno per provare che P(H/ H ˫ E) > P(H) falliscono per lui. Questo punto diventa più chiaro quando ci spostiamo dal punto di vista di Einstein a quello degli altri. Insieme con molti studenti della relatività generale, la prima cosa che potremmo aver appreso al riguardo della teoria, ancora prima di sapere qualsiasi dettaglio della teoria stessa, era che essa spiegava l'avanzamento del perielio. Questo significa che non ci fu mai un tempo per noi in cui P(H ˫ E) < 1. Inoltre anche se le due domande “E conferma H per la persona P?”, “apprendere H ˫ E aumenta il grado di credenza di P in H?” stanno in piedi o cadono insieme, non c'è nessuna garanzia che la forza della conferma fornita da E sia accuratamente misurata dall'incremento dato al grado di credenza dall'apprendere H ˫ E.

Questa questione è connessa con quella se E può confermare una teoria pensata per spiegare E. È d'aiuto qui distinguere tre sensi in cui una persona P potrebbe aver introdotto la teoria H per spiegare E.

1. quando P ha creato H, egli era motivato da un desiderio di spiegare E.

2. Prima di concentrarsi su H, P ha esaminato e rifiutato teorie alternative che falliscono per spiegare E.

3. nell'arrivare a H, P è passato attraverso una catena esplicita di ragionamento che è iniziata con E e che ha condotto in modo straordinario a lavorare su H.

Quando ci muoviamo da (1) a (3), diventa sempre meno sorprendente per P che H ˫ E e quindi l'apprendimento di P che H ˫ E, dà un incremento sempre minore al suo grado di credenza in H. Sappiamo già che Einstein soddisfaceva (1). Che egli soddisfaceva (2) è indicato dal fatto che egli scrisse a Sommerfeld nel Novembre del 1915 che una delle ragioni per cui egli abbandonò una teoria precedentemente costruita con l'aiuto del suo amico Marcel Grossmann, era che essa comportava un avanzamento del perielio di Mercurio di unicamente 18'' per secolo. Questo estratto di storia personale non sembra aver diminuito il valore di conferma di E per Einstein come invece accade per H ˫ E. Nemmeno scoprire che per Einstein vale anche 3) mostrerebbe che E non aveva un valore di conferma per lo scienziato o i suoi soci.

(9)

è feconda se la soluzione al problema trattabile illumina il problema originale. In questo caso tuttavia la soluzione data da GJN fallisce nel parlare del problema originale.

Inoltre la parte fino ad ora intrattabile del problema della vecchia evidenza è un problema connesso con quello delle nuove teorie. Come la probabilità a priori deve essere assegnata alle teorie di nuova introduzione è una domanda che deve essere risposta prima di iniziare a preoccuparci se e come la probabilità di queste è incrementata da E, da H ˫ E, o da qualsiasi altra cosa.

In termini bayesiani, l'introduzione delle nuove teorie causa all'agente bayesiano umanizzato (il quale fallisce in LO2) di passare da una funzione di probabilità P, operativa prima dell'introduzione, ad una nuova funzione P', operativa dopo l'introduzione, che tipicamente non è derivata da P mediante un processo diretto di condizionalizzazione. Come questa transizione è o deve essere gestita è una questione che verrà presa in considerazione successivamente (si veda il paragrafo 3.3); per ora i dettagli su come P' è generata sono irrilevanti. Il problema delle nuove teorie presenta l'opportunità di esplorare maggiormente la tesi sostenuta da alcuni (si veda il paragrafo 2.4, capitolo 2) secondo cui una teoria H non è confermata dall'evidenza E che H è stata designata spiegare. Supponiamo che E, o nuova o vecchia, porti alla proposta di una nuova teoria H, e supponiamo che a questa nuova teoria H sia assegnata una probabilità a priori diversa da zero relativamente alla nuova funzione P'. La valutazione della probabilità a priori di H alla luce di P', P'(H/K), viene fatta basandosi anche sull'evidenza E che ha comportato l'introduzione di H e che fa parte della conoscenza di fondo K. Se questa stessa evidenza viene utilizzata anche per valutare la probabilità a posteriori di H, allora si va contro il truismo metodologico secondo cui l'evidenza non dovrebbe contare due volte. Questo ragionamento allora ci porta alla conclusione che l'evidenza E che H è stata designata spiegare non può confermare la teoria in questione (sicuramente se l'agente non è logicamente onnisciente nel senso LO1, la sua valutazione di P'(H) potrebbe non riflettere in modo accurato l'importo evidenziale di E, in quanto egli potrebbe fallire nel sapere che H ˫ E, e nell'apprendere l'implicazione, egli potrebbe cambiare il suo grado di credenza in H secondo le modalità di Gaber o Jeffrey. Questo tuttavia non rende minore il problema della vecchia evidenza). Visto dalla prospettiva delle nuove teorie, l'incapacità del modello bayesiano di spiegare perché una vecchia evidenza E che ha comportato l'introduzione della nuova teoria H può confermare la teoria, è un punto a favore del Bayesianesimo: il modello bayesiano infatti si attiene e anzi spiega il truismo metodologico sopra esposto. Visto tuttavia dalla prospettiva

ex post facto, il problema della vecchia evidenza è un problema a tutti gli effetti in quanto si

vuole affermare che E dopo tutto conferma o supporta H.

(10)

teorie è importante in quanto esso automaticamente elimina alcuni dei trattamenti proposti del problema della vecchia evidenza. Supponiamo che il problema di una nuova teoria sia stato risolto in modo che in reazione all'introduzione di H l'agente bayesiano sceglie, in un qualche modo appropriato, una nuova funzione di probabilità P' tale che P'(H) > 0. In questo contesto Earman (ibid., pagg. 133 - 134) ci dice che non possiamo seguire la prescrizione di Howson (1984, 1985) di risolvere il problema della vecchia evidenza calcolando la differenza tra quello che il grado di credenza dell'agente in H sarebbe stato se la sua conoscenza totale al momento in cui H fu introdotta fosse stata K – {E} e quello che il suo grado di credenza in H sarebbe stato se egli successivamente sarebbe arrivato ad apprendere E. Se noi vogliamo effettuare questo calcolo, dobbiamo usare una funzione di probabilità ipotetica, ma non la nuova funzione di probabilità P' attiva dopo l'introduzione della nuova teoria. In quest'ultimo caso infatti noi arriviamo ad una stima di P'(H) che si basa su una conoscenza di fondo K che noi consideriamo certa e che contiene anche E; una stima che non potrebbe essere data se la certezza e completezza della conoscenza di fondo venisse a mancare. Questo avviene a maggior ragione quando di Ko fa parte l'evidenza E che ha portato alla formulazione di H. In questo caso se E non fosse stata presa in considerazione, nemmeno H sarebbe mai stata formulata né la sua probabilità stimata. A questo riguardo consideriamo nuovamente l'esempio storico della GTR, Earman (ibid., pag. 123) cita quanto nel 1907 Einstein scrisse: “sono occupato su una teoria relativistica della legge gravitazionale con la quale spero di rendere conto dell'ancora non spiegato cambiamento secolare del perielio di Mercurio. Fino ad ora non sono stato in grado di ottenere successi” (Seelig 1956, pag. 76). Questo significa che non è implausibile che se Einstein non avesse conosciuto il fenomeno del perielio, egli non avrebbe mai formulato la GTR. Se qualcun altro inoltre l'avesse formulata, Einstein avrebbe potuto non prenderla abbastanza seriamente da assegnare ad essa una probabilità a priori diversa da zero o avrebbe potuto non comprenderla abbastanza bene da assegnarle un grado di credenza affatto.

Un'altra soluzione al problema della vecchia evidenza si immagina il grado di credenza che l'agente bayesiano avrebbe dato a H prima dell'apprendimento di E se egli non fosse stato logicamente deficiente, ma piuttosto un calcolatore superumano che soddisfa (LO1) e (LO2), e poi compara questo numero con il grado di credenza che questo supercalcolatore assegna dopo l'apprendimento di E. Questo calcolo riguarda una iperipotetica funzione di probabilità: viene infatti assunto in modo ipotetico sia che l'agente bayesiano sia onnisciente, sia quali gradi di credenza quest'agente assegnerebbe alla teoria prima e dopo l'introduzione di E. Un'altra soluzione data al problema della vecchia evidenza è quella di Howson e Urbach (1989, pagg. 270 - 275). Questi dopo aver preso in considerazione in che cosa consiste il

(11)

problema della vecchia evidenza in generale e dopo aver considerato la particolare diramazione del problema della nuova vecchia evidenza, propongono una soluzione che può applicarsi in modo indipendente ai tre casi precedentemente distinti di questo problema. I due ci dicono che quando applichiamo il Teorema di Bayes per valutare il supporto che l'evidenza E, conosciuta per certo, introdotta sia prima che dopo la nuova teoria H, dà all'ipotesi H, i termini del teorema P(H), P(E/H), P(E) devono essere relativizzati non alla conoscenza di fondo totale, la quale contiene anche E, ma alla conoscenza di fondo attuale meno E. Quindi ancora utilizziamo funzioni di probabilità controfattuali. La ragione per questa restrizione è che la nostra valutazione attuale del supporto che H riceve da E vuole misurare l'estensione del cambiamento nei nostri gradi di credenza che l'aggiunta di E a ciò che rimane di quanto diamo per assodato causerebbe. È bene notare che quando H è introdotta prima dell'evidenza E (come avviene nel caso del problema della nuova vecchia evidenza) non c'è bisogno di una funzione ipotetica per valutare la probabilità a priori della teoria H, dal momento che questa era stata valutata già prima che E diventasse certo e entrasse a far parte della conoscenza di fondo. In questo caso tuttavia la funzione ipotetica riguarda la valutazione di E e della verosimiglianza di H rispetto ad E nel caso non ipotetico deduttivo.

Howson e Urbach (ibid.) prendono in considerazione una critica che ha fatto Glymour (1980) a questa versione del problema della vecchia evidenza. Secondo questa critica le funzioni controfattuali di credenza possono avere diverse valutazioni dal momento che la credenza negli enunciati evidenziali potrebbe essere cresciuta nel tempo e in alcuni casi nemmeno in modo graduale. Per esempio per quanto riguarda il dato del perielio di Mercurio, su un periodo di molte decadi sono stati dati diversi valori per questo, con l'utilizzo inoltre di tecniche matematiche a volte non giustificate. Questo significa che a seconda del periodo storico il grado di credenza controfattuale circa l'evidenza che l'avanzamento del perielio di Mercurio era di 45'' di arco per secolo varia. Howson e Urbach rispondono a questa critica (a nostro parere in modo poco convincente) appellandosi all'analogia tra la logica induttiva e la logica deduttiva: così come la logica deduttiva è una teoria di inferenza, la quale non si pronuncia sulla verità delle premesse, ma unicamente sulla validità o meno della connessione premesse e conclusione; allo stesso modo la la teoria della conferma bayesiana è una teoria di inferenza dai dati, la quale non deve preoccuparsi se i dati da cui partiamo per fare delle inferenze siano veri a falsi, ma piuttosto su come l'accettazione come vere di alcune affermazioni al riguardo delle evidenze condiziona la nostra credenza in determinate ipotesi. Ciò a dire che il fatto che esistano diverse valutazioni dei gradi di credenza controfattuali al riguardo di una stessa evidenza non interessa la teoria bayesiana intesa come teoria di inferenza, dal momento che questa si occupa solo di capire come l'accettare come veri questi

(12)

dati condiziona le nostre credenze in determinate ipotesi.

La medesima risposta viene data da Howson e Urbach all'osservazione di Glymour (ibid.) secondo cui non c'è nessun mezzo generale per calcolare i gradi controfattuali di credenza. Howson e Urbach (ibid.) rispondono infatti che la mancanza di una regola generale per il calcolo della funzione controfattuale di credenza P(E), può essere ignorata in quanto il modello bayesiano deve essere considerato come un modello di inferenza e non come un insieme di regole per calcolare tutte le probabilità nel teorema di Bayes. In particolare, ci dicono i due autori, i bayesiani non devono legiferare al riguardo dei metodi che le persone adottano per valutare le probabilità a priori, come appunto le probabilità controfattuali. Si suppone unicamente che queste valutino le loro credenze soggettive con la sola costrizione della consistenza con il calcolo delle probabilità. In questo contesto tutto quello che il bayesiano è interessato a dire è che le persone sono in grado in molti casi di determinare, solamente in modo molto approssimativo, in quale estensione essi ritengono probabile il dato in relazione ad un insieme di informazioni di fondo.

Infine Howson e Urbach (ibid.) vanno a prendere in considerazione due ulteriori obiezioni che sono state fatte al problema della vecchia evidenza basato sui controfattuali.

La prima è che la relativizzazione di tutte quante le probabilità a quello che è uno stato fittizio di informazioni di fondo è una mossa ad hoc, la quale cerca di evitare la necessità altrimenti imbarazzante di porre P(E) e P(E/H) pari ad 1 e lo fa al costo di essere in conflitto con il cuore dei principi bayesiani. Howson e Urbach ci dicono che il cuore dei principi bayesiani semplicemente stabilisce le condizioni, ovvero l'obbedienza al calcolo delle probabilità, per un insieme di gradi di credenza, relativamente ad un insieme di informazioni di fondo, che siano equi. Non c'è nulla, continuano, nel cuore del Bayesianesimo che stabilisce che nel calcolare i livelli di supporto, le probabilità soggettive di una persona devono definire i gradi di credenza relativamente alla totalità della conoscenza di fondo di ognuno. Al contrario, ci dicono i due, il supporto che H riceve da E è misurato in base dall'effetto che la conoscenza di E avrebbe ora sul grado di credenza del soggetto in H sulla supposizione (controfattuale) che il soggetto ancora non conosca E.

La seconda obiezione appare in uno scritto di Campbell e Vinci (1983), i quali sviluppano il seguente argomento. Supponiamo anzitutto che H predice, relativamente ad un insieme di condizioni iniziali adeguate, un evento E e che l'esperimento designato per ricavare E, se H è vera, ancora non è stato fatto. Supponiamo anche che relativamente alla conoscenza di fondo, P(E) è alta. L'esperimento viene svolto e viene osservato E. Il supporto che H riceve da E non è considerabile in quanto P(E) è alta. Supponiamo ora che P(E) è alta perché E descrive i medesimi effetti che sono stati già osservati accadere in contesti che si ritengono analoghi a

(13)

quelli in cui l'occorrenza di E è predetta da H. Chiamiamo la congiunzione di tutti quanti questi eventi passati E'. Supponiamo che H è stata proposta molto dopo che E' è stata conosciuta e che anche H predice E' nelle circostanze rilevanti. Infine assumiamo che relativamente all'informazione di fondo meno E, P(E') è bassa. Secondo la nostra analisi il supporto che H riceve da P(E') è considerevole, a differenza del supporto che essa riceve da E, mentre i due dovrebbero essere uguali. Secondo Howson e Urbach questa conclusione non sembra essere molto chiara e anzi essa è anche sbagliata: quello che stiamo vedendo, in questo caso, ci dicono i due studiosi è la diminuzione del supporto da parte dell'occorrenza ripetuta del medesimo effetto: inizialmente, con E', il supporto è alto, mentre poi, con E, il supporto è minore.

Una critica decisiva che può essere mossa a tutte le soluzioni del problema della vecchia evidenza basate sulle funzioni di credenza controfattuali, e quindi anche a quella di Howson e Urbach, è che anche se si possono architettare modi per valutare queste funzioni ipotetiche di probabilità, quello che deve essere dimostrato prima che il problema della vecchia evidenza sia risolto è che tali valutazioni si accordino con i nostri giudizi fermi e condivisi dei valori di conferma della vecchia evidenza. Sarebbe molto sorprendente se questa dimostrazione potesse essere data in quanto le probabilità controfattuali e quindi gli incrementi controfattuali nella conferma varieranno grandemente da una persona all'altra. Anche se una tale dimostrazione possa essere realizzata il modello bayesiano di conferma è comunque in perdita per essersi forzato di adottare mezzi così complicati e così dubbi per rendere conto di fenomeni così semplici e comuni dell'inferenza scientifica.

3.2 – Il Bayesianesimo e la razionalità e oggettività dell'inferenza scientifica

In questo paragrafo vogliamo vedere se il modello bayesiano è in grado di rendere ragione di quelle idee che più di ogni altre vengono associate all'attività scientifica, ovvero quelle della razionalità e dell'oggettività.

Occorre precisare che la trattazione che verrà data di questi concetti considererà risolti tutti gli altri problemi che nel corso degli anni sono stati a questi connessi dalla cosiddetta “nuova filosofia della scienza” e che in questo contesto verranno considerati come risolti, come quelli dell'incommensurabilità, del relativismo, della filosofia della Gestalt, ecc. Questo modo di procedere ci permetterà di vedere che i concetti di razionalità e di oggettività dell'inferenza scientifica risultano essere problematici anche nel momento in cui tali altre problematicità non vengono considerate.

In primo luogo, per capire ciò di cui il Bayesianesimo deve rendere ragione, occorre specificare ciò che normalmente si intende per razionalità e oggettività delle scienza. Queste

(14)

idee sono legate all'immagine popolare del metodo scientifico come metodo oggettivo, intendendo con ciò un metodo libero da pregiudizi guidato unicamente dall'evidenza. Un tale metodo è allora in grado di condurci a conoscenze certe, ovvero conoscenze che si accordano con la realtà, su cui pertanto tutti i membri della comunità scientifica che non vogliono essere considerati come irrazionali devono essere concordi. Un tale accordo da parte della comunità scientifica si richiede anche per quei gradi di credenza che i membri di essa assegnano a quelle opinioni che ancora non hanno raggiunto la certezza, proprio perché questi derivano da un metodo oggettivo di ricerca nel senso sopra considerato.

Questa visione del metodo scientifico è stata fortemente criticata dalla teoria dell'incommensurabilità. Anche se, come abbiamo detto, il problema dell'incommensurabilità viene considerato risolto, ancora non si riesce a trovare nessun legittimo candidato per questa metodologia oggettiva di ricerca. Il Bayesianesimo certamente non può proporsi come tale in quanto esso richiede presupposizioni nella forma di probabilità a priori. Questo tuttavia non significa che esso non sia in grado di rendere ragione dell'oggettività scientifica. Verrà visto che l'utilizzo “sui tempi lunghi” della metodologia bayesiana produce certezze che “quasi sicuramente” si accordano con la realtà. Almeno questo accade per le ipotesi osservative, mentre per le ipotesi teoriche occorre una discussione più attenta. Si vedrà inoltre che molto meno soddisfacenti sono i tentativi di fondare l'oggettività intesa come accordo intersoggettivo per quelle opinioni che ancora non hanno raggiunto la certezza.

I due metodi più utilizzati per fondare l'oggettività all'interno del modello bayesiano sono quello di imporre costrizioni sulle probabilità a priori delle ipotesi e il cosiddetto washing out delle probabilità a priori. Concentriamoci anzitutto sulla prima strategia. Questa vuole fondare l'oggettività come accordo intersoggettivo implementando la forma personalista del Bayesianesimo con costrizioni sulle probabilità a priori. La speranza è tali costrizioni comportino la medesima valutazione delle probabilità a priori da parte di differenti individui e conseguentemente uguali probabilità a posteriori alla luce dell'evidenza. È possibile vedere da subito che ci sono due ragioni per cui tali tentativi non funzionano. Il primo è che ci sono differenti modi di concettualizzare un dato problema di inferenza e l'applicazione di una stessa regola a differenti concettualizzazioni comporta differenti risultati3. Il problema di scegliere

tra diversi risultati non è minore di quello di scegliere quali probabilità a priori assegnare. In secondo luogo anche se non ci fosse nessun tipo di ambiguità nell'applicazione di queste costrizioni, tuttavia rimarrebbe il problema che esse sono raramente soddisfatte nei casi reali. Per esempio consideriamo una di queste, il principio di indifferenza, il quale ci dice che

3 Per un esempio di questa circostanza si veda la trattazione che dà Earman (ibid., cap.1) dell'applicazione da

parte del reverendo Thomas Bayes del principio di ragione insufficiente come principio di costrizione sulle probabilità a priori.

(15)

quando ci troviamo in una situazione di completa ignoranza al riguardo di diversi esiti di un dato scenario causale, dobbiamo assegnare a questi un'uguale probabilità. La condizione della completa ignoranza tuttavia può essere realizzata unicamente in un universo irreale in cui la nostra mente si presenta come una tabula rasa, la quale sceglie le sue probabilità a priori e successivamente cambia i suoi assegnamenti di probabilità mediante condizionalizzazione. Lo scienziato reale invece nel momento in cui si appresta a fare le valutazioni delle probabilità a priori vi arriva sovraccarico di informazioni. Occorre quindi capire come valutarle nei contesti reali. Potremo per esempio dire che gli esperti all'interno della comunità scientifica sono in grado di assegnare alte probabilità a priori ad alcune alternative e basse probabilità a priori ad altre. Una tale abilità tuttavia non può essere codificata mediante delle regole. E anche se questo potesse essere fatto, perché, potremo chiederci, unicamente le opinioni degli esperti dovrebbero essere tollerate?

Supponiamo tuttavia che ci siano regole per l'assegnazione delle probabilità a priori che funzionano. Queste tuttavia non consentirebbero di spiegare l'oggettività per due ragioni. La spiegazione potrebbe avere un carattere giustificatorio unicamente nel caso in cui le regole in questione siano considerate norme del comportamento razionale. Il loro carattere normativo però è controverso in quanto o esse sono rifiutate oppure ignorate da una larga parte dei bayesiani. Inoltre anche se queste norme fossero universalmente accettate, esse non sarebbero sufficienti per spiegare l'oggettività, a meno che, oltre alle probabilità a priori, non fissino anche le verosimiglianze, ma non è questo il loro intento. Ci sono sicuramente dei casi in cui le verosimiglianze hanno uno statuto oggettivo, come ad esempio nel caso HD o nel caso in cui tutti gli agenti bayesiani siano d'accordo sul modello statistico da adottare per un esperimento casuale, dove E rappresenta gli esiti dell'esperimento e le Hi sono ipotesi

alternative al riguardo dei parametri della probabilità oggettiva degli esiti dello scenario causale. Nelle ipotesi scientifiche tuttavia le verosimiglianze non sono stabilite così categoricamente in quanto la conoscenza a priori difficilmente è così chiara.

Anche Howson e Urbach (ibid., pagg. 289), strenui difensori della metodologia bayesiana, ritengono che sia impossibile raggiungere un accordo intersoggettivo sulle probabilità a priori sia tramite costrizioni da imporre su di esse, come il già citato principio di indifferenza, sia basandosi sull'ideale che le probabilità a priori devono essere oggettive, e quindi uguali per tutti, in quanto devono riflettere unicamente i dati disponibili e non le opinioni dell'individuo. Quest'ultima, ci dicono, è un'idea sposata da molti studiosi, tra cui lo statistico R. A. Fisher (1968), il quale ha ritenuto che senza probabilità a priori oggettive, la metodologia bayesiana appartiene al campo della psicologia, senza avere nessun posto nel discorso scientifico. Circa quest'ultimo punto, Howson e Urbach (ibid.) ci dicono che la visione delle probabilità a priori

(16)

come probabilità oggettive è un ideale irraggiungibile in quanto nessuna probabilità a priori esprime, né potrebbe esprimere, i dati fattuali disponibili, ma essa riflette sempre qualche sorta di opinione al riguardo delle possibilità consistenti con quei dati. Anche la costrizione del principio di indifferenza, la quale prescrive che in assenza di dati che ci dicono il contrario la distribuzione delle probabilità a priori deve essere uniforme, esprime un nostro pregiudizio circa il fatto che le probabilità a priori siano uniformi. I due studiosi ci dicono tuttavia che la mancanza di probabilità a priori oggettive non rilega la metodologia bayesiana al campo della psicologia individuale, proponendo come spiegazioni dell'oggettività dell'inferenza scientifica il washing out della probabilità a priori, ma soprattutto la soluzione del retrenchment. La prima verrà presa in considerazione di seguito, mentre la seconda successivamente.

Prima di prendere in considerazione la spiegazione del washing out, vediamo la critica che Howson e Urbach (ibid., pagg. 290 - 292) muovono al famoso criterio di semplicità come metodo di costrizione sulle probabilità a priori. Essi ci dicono che il criterio di semplicità può essere considerato come un buon metodo per imporre costrizioni sulle probabilità a priori dal momento che questo criterio appare avere sia la caratteristica dell'oggettività sia quella di conformarsi alla pratica scientifica attuale. Molte volte infatti, ci dicono i due studiosi, gli scienziati si sono basati sulla semplicità delle teorie come motivo per assegnare a queste un'alta confidenza iniziale in queste e che li ha mantenuti convinti della verità di queste nonostante l'evidenza empirica avversa. Howson e Urbach tuttavia ci dicono che il criterio della semplicità è un concetto molto elusivo e che tutti quanti i tentavi di caratterizzarlo in modo non controverso sono falliti. Alcune persone infatti ritengono che la semplicità risiede in un'unità organica esemplificata dai principi fondamentali della teoria, Altri che essa risiede nella scarsa presenza di parametri aggiustabili che la teoria introduce. Altri studiosi ancora ritengono che essa risiede nella facilità con cui i calcoli possono essere fatti all'interno della teoria. Tutti quante queste nozioni, ci dicono i due studiosi, appaiono essere indipendenti l'una dall'altra ed inoltre è difficilissimo trovarvi un significato chiaro. Consideriamo per esempio la nozione di semplicità come scarsa presenza di parametri aggiustabili. Essa è una nozione molto ambigua. Potrebbe sembrare per esempio che la teoria di Newton possiede pochissimi parametri non determinati, alcuni ritengono che essa ne contenga solo uno, ovvero la costante gravitazionale. La teoria di Newton tuttavia applicata alla teoria cinetica dei gas contiene, anche nelle più semplici applicazioni, 1023 parametri non determinati e quando ulteriori gradi

di libertà sono aggiunti a questi modelli ideali, il numero aumenta proporzionalmente.

Passiamo ora a considerare la strategia del cosiddetto washing out delle probabilità a priori. Secondo quest'ultima non serve imporre nessun tipo di costrizioni sulle probabilità a priori dal momento che l'accumulo di evidenza nei tempi lunghi porta al consenso anche partendo da

(17)

opinioni iniziali molto differenti. Il consenso viene raggiunto poiché le probabilità a posteriori dei differenti individui si fondono, tipicamente in quanto queste convergono ad 1, almeno per quanto riguarda le ipotesi vere. Proprio per questo raggiungimento del consenso le differenti probabilità a priori iniziali wash out, svaniscono gradualmente. Se l'ipotesi del washing out fosse corretta, allora la spiegazione dell'oggettività sarebbe giustificata: i gradi di credenza consensuali sarebbero giustificati in quanto prodotti di un processo interamente razionale. Gli agenti bayesiani infatti iniziano con la valutazione che desiderano delle probabilità a priori delle ipotesi in questione, nella misura in cui appunto questa rispetti il calcolo delle probabilità e nella misura in cui essi cambino le loro credenze mediante condizionalizzazione. Tali agenti saranno poi condotti dall'evidenza accumulata al medesimo grado di credenza circa l'ipotesi. Il procedimento del washing out delle ipotesi a priori si basa su tre principi: P1) i gradi di credenza devono soddisfare gli assiomi della probabilità;

P2) l'apprendimento dall'esperienza è modellato come cambiamento di probabilità mediante condizionalizzazione.;

P3) Tutti gli agenti presi in considerazione devono essere ugualmente dogmatici in quanto devono assegnare una probabilità pari a 0 ai medesimi elementi dello spazio delle probabilità. P3) può essere considerata come una regola di rispetto reciproco, la quale ordina ai membri della comunità scientifica di assegnare una probabilità diversa da 0 ad ogni ipotesi seriamente proposta da uno dei membri. Possiamo anche dire che l'accordo su quali ipotesi debbano avere una probabilità a priori pari a 0 aiuta a definire la comunità scientifica e che un modello di inferenza scientifica deve relativizzarsi ad una comunità.

Sono stati realizzati diversi teoremi i quali dimostrano che, date le condizioni P1), P2), P3) e dato un accumulo crescente di evidenza, la convergenza alla certezza e il fondersi dell'opinione avviene quasi sempre. Trattandosi questa di una tesi di filosofia della scienza, non prenderemo in considerazione i particolari dei singoli teoremi, i quali coinvolgono concetti matematici e di teoria della probabilità che necessiterebbero di una diffusa spiegazione che ci porterebbe al di là degli scopi propostoci, ma ci accontenteremo di individuare la portata filosofica dei loro risultati. Earman (ibid., pagg. 143 - 145) ci dice che una delle più eleganti dimostrazioni della convergenza alla certezza e del fondersi dell'opinione è la cosiddetta “teoria della Martingala” di Dood (1971). Questi dimostra che date determinate condizioni, tra cui quella che viene chiamata Martingala, da cui deriva il nome del teorema, è possibile dimostrare che la probabilità condizionale dell'ipotesi H sull'evidenza accumulata, man mano che questo accumulo diventa sempre più grande, fino a tendere ad infinito, quasi sicuramente tenderà ad 1, se H è vera, o a 0, se H falsa. In termini matematici, riprendendo Dood, possiamo scrivere il risultato nel modo seguente:

(18)

limn → ∞ E([H]/fn) → 1 o 0, se rispettivamente l'ipotesi è vera oppure falsa; fn indica

l'informazione evidenziale raccolta fino ad includere n; limn → ∞ E([H]/fn) è il valore

con cui ci aspettiamo che H sia vera, dato che l'accumulo dell'informazione raccolta procede all'infinito oppure, detto in modo meno astratto, dato che l'informazione raccolta sia completa.

Dal teorema è possibile vedere, come abbiamo accennato, che la fusione di opinioni avviene a causa della quasi sicura convergenza alla certezza. Tale fusione tuttavia è di una forma molto debole, in quanto tutto quello che il teorema garantisce è che quasi sempre, data un'ipotesi H e un ε > 0, piccolo a piacere, per ogni paio di agenti bayesiani, i quali operano mediante condizionalizzazione e che sono ugualmente dogmatici, c'è un N tale che dopo che gli agenti hanno visto almeno N evidenze, le loro opinioni al riguardo di H differiscono non più di ε. Tuttavia dal momento che N può dipendere non unicamente sul mondo e su ε, ma anche su H e sugli agenti scelti, la convergenza può non essere uniforme.

Earman (ibid., pagg. 145 – 147) ci dice inoltre che ci sono risultati più forti circa la convergenza e la fusione di opinioni, come quello di Gaifman e Snir (1982). Questi, date determinate condizioni, arrivano a dimostrare i seguenti risultati: il primo è che l'evidenza accumulata quasi sempre conduce la probabilità a posteriori alla certezza nel limite e questo risultato è affidabile nella misura in cui quasi sempre quando la probabilità va a 1 (rispettivamente a 0), l'ipotesi H è vera (rispettivamente falsa); la seconda parte del teorema ci assicura che la fusione di opinione sull'ipotesi H tra due agenti ugualmente dogmatici è uniforme. Potrebbe allora sembrare che questo teorema costituisce un miglioramento rispetto a quello della Martingala e che esso sia in grado di spiegare entrambi gli aspetti dell'oggettività, ovvero il consenso al riguardo delle opinioni certe e di quelle che ancora non hanno raggiunto la certezza. Al riguardo di quest'ultima parte tuttavia, senza entrare nello specifico, occorre precisare che il fondersi dell'opinione nel senso di convergenza uniforme sull'insieme di funzioni ugualmente dogmatiche P, non può essere raggiunta senza ulteriori restrizioni. Queste ulteriori restrizioni tuttavia possono ridurre lo scopo di spiegazione dell'oggettività.

In generale possiamo concludere che il problema maggiore con i teoremi di convergenza è che questi ci dicono unicamente che avviene una fusione di opinioni in quanto “nei tempi lunghi” avviene un accordo tra opinione e realtà. Questi tuttavia non assicurano che la convergenza alla certezza sarà uniforme e allora mentre tali teoremi fondano l'oggettività per quanto riguarda l'inferenza bayesiana che riguarda l'accordo sui tempi lunghi tra opinione e realtà, questi non sono in grado di fondare l'oggettività come accordo intersoggettivo per quelle opinioni che ancora non hanno raggiunto la certezza. Notiamo, prima di approfondire

(19)

questa questione, che la famosa critica di Keynes che nei tempi lunghi saremo tutti morti, non si applica in questo contesto se potessimo sapere in anticipo quanto lunghe devono essere le corse prima di raggiungere la certezza e quindi se potessimo conoscere il tasso, ovvero la velocità di convergenza alla certezza per i differenti agenti bayesiani. Una tale stima ci potrebbe anche permettere di dire se appunto le opinioni degli agenti saranno concordi anche prima di raggiungere la certezza. Una tale conoscenza tuttavia non può essere ottenuta quando le ipotesi non sono statistiche. Non unicamente infatti differenti agenti bayesiani daranno stime differenti dei tassi di convergenza, ma potrebbe non esserci nessun modo utile per formare le stime. Affinché si possa avere una tale conoscenza occorre sapere quale tipo di evidenza viene ricevuta e anche in quale ordine. Un modello statistico specifica l'evidenza rilevante (per esempio gli esiti di una moneta che viene ripetutamente lanciata), e l'assunzione di lanci indipendenti e scambiabili4 ci dice che l'ordine non è importante. In generale però

l'evidenza può arrivare in una miriade di forme e all'interno di una forma l'ordine può essere fondamentale.

La seconda ragione per cui i risultati dei teoremi non servono a fondare l'oggettività deriva dal fatto che per alcuni aspetti del problema dell'oggettività, non unicamente le lunghe corse sono irrilevanti, ma così anche le corse corte. Gli scienziati spesso sono d'accordo che una determinata evidenza supporta una particolare teoria in modo migliore rispetto ad un'altra o che una teoria particolare è supportata in modo migliore da un ritrovamento sperimentale piuttosto che un altro. Quello che accade nelle lunghe o corte corse quando ulteriore evidenza è aggiunta è irrilevante ai fini della spiegazione dei giudizi condivisi al riguardo del valore evidenziale della presente evidenza.

Infine occorre notare che i teoremi di convergenza non sono in grado di dimostrare nemmeno per i tempi lunghi la convergenza alla certezza e la fusione delle opinioni per le ipotesi teoriche5, almeno se vale l'argomento antirealista della sottodeterminazione. Un

approfondimento di questo punto richiede alcune assunzioni preliminari. Vediamole nello specifico6.

Consideriamo un linguaggio L ottenuto aggiungendo predicati empirici e simboli di funzioni empiriche all'aritmetica del primo ordine, assunta contenere nomi per ognuno dei numeri naturali ℕ.

Definiamo ModL per L come l'insieme di tutti i modelli w che consistono di interpretazioni

4 La nozione di scambiabilità venne introdotta per la prima volta da De Finetti. Vengono detti scambiabili quegli

eventi la cui probabilità è indipendente dall'ordine degli esiti delle performance probabilistica.

5 Per ipotesi teoriche intendiamo le ipotesi scientifiche contenenti termini teorici (quali, ad esempio, “forza” e

“massa”), che si riferiscono a entità inosservabili.

6 Nella trattazione che segue al riguardo della relazione tra i teoremi di convergenza e le ipotesi teoriche useremo

dei termini specifici, trovati in Earman (ibid., pagg. 149 - 153), che non hanno una traduzione corrispondente in italiano e per questo motivo abbiamo deciso di lasciarli in inglese, e di indicarli con un carattere corsivo.

(20)

dei quantificatori che spaziano su ℕe di interpretazioni dei predicati empirici a k posti e simboli di funzioni a k variabili rispettivamente come sottoinsiemi di ℕK e funzioni da ℕK a .

Una sentenza φ di L è detta essere valida in L ( ⇒φ) solo nel caso in cui φ è vera in tutti i w che appartengono a ModL.

Per una sentenza φ di L, mod(φ) ≡ {w ModL: φ è vera in w}.

Per w appartenente a ModL e una sentenza φ, definiamo φw come φ o ¬φ, a seconda che w mod(φ) o w mod(¬φ).

Una classe di enunciati Φ, detta evidence matrix, separa un insieme K ModL solo nel caso

in cui per ogni due distinti w1, w2 K, c'è un φ Φ tale che ∈ ∈ w1 ∈ mod(φ) e w2 ∈ mod(¬φ).

Il teorema di Gaifman e Snir vale per ogni enunciato ψ di L, data la condizione che la classe di enunciati Φ = {φi}, i = 1, 2, ... separi ModL.

Date queste nozioni e definizioni preliminari, passiamo a considerare la tesi secondo cui il teorema di Gaifman e Snir non è in grado di dimostrare nemmeno per i tempi lunghi, la convergenza alla certezza e la fusione delle opinioni per le ipotesi teoriche se l'argomento antirealista della sottodeterminazione è corretto.

Vediamo in primo luogo in che cosa consiste questo argomento e successivamente indagheremo la tesi sopra accennata. L'argomento antirealista della sottodeterminazione ci dice che nessuna evidenza può confermare nessuna teoria dal momento che la stessa evidenza può confermare un'infinità di teorie. Questo argomento è stato utilizzato per sostenere l'antirealismo epistemico, ovvero la tesi secondo cui l'evidenza non dà nessuna buona ragione per credere nelle preposizioni teoriche. Questa constatazione non è scontata soprattutto considerando che, nonostante la sottodeterminazione per le predizioni al riguardo delle osservazioni, ci potrebbero essere tuttavia buone ragioni per credere in queste ultime. La domanda che ci si pone è allora se c'è qualche ragione speciale al riguardo delle preposizioni teoriche che permette all'antirealista di assumere una posizione di principio differente dallo scetticismo. Il bayesiano risponderebbe a questa domanda dicendo che non c'è nulla che distingua l'antirealista dallo scettico induttivo, in quanto all'interno della teoria della conferma bayesiana è possibile assegnare, senza nessuna inconsistenza, alte probabilità alle ipotesi teoriche così come alle ipotesi osservative. L'antirealista potrebbe rispondere che il mero assegnamento di un'alta probabilità personale ad una qualsiasi preposizione, sia essa osservativa o teorica, da parte di qualche membro della comunità scientifica, non costituisce le buone ragioni per la credenza che si pretendono dall'inferenza scientifica. In particolare manca l'oggettività che si richiede per questa. Possiamo dire che il grado di credenza in un'ipotesi H è ha una base oggettiva in riferimento ad una classe {P} di funzioni di probabilità solo nel caso in cui per ogni w ModL, c'è un numero r tale che per ogni adeguata evidence

(21)

matrix Φ = {φi} e ogni P {P}, P(H/∈ ∧i≤nφiw) → r, quando n → ∞. Ciò che costituisce

un'adeguata evidence matrix è ancora incerto, assumiamo comunque che essa consista di enumerazioni di enunciati osservativi atomici di L. Il teorema di Gaifman e Snir ci mostra che per ogni comunità di scienziati che opera con funzioni di probabilità ugualmente dogmatiche P e per ogni ipotesi H osservativa, il grado di credenza in H ha basi oggettive (per ogni tale H,

r può essere assunto essere 1 o 0, a seconda che H sia vera o falsa). Se oppure no la fusione di

opinione al riguardo di H avviene nel tempo della vita degli scienziati è un qualcosa che, come abbiamo visto, i teoremi di convergenza non ci dicono; ciò che importa è comunque che, almeno in principio, ci sia una nozione oggettiva di grado di credenza nei tempi lunghi per le preposizioni osservative. Per le preposizioni teoriche, la situazione è differente in quanto una volta che i termini teorici sono aggiunti al linguaggio L, la evidence matrix non servirà più per separare ModL (questo avviene in quanto in essa ci sono enunciati di L che sono empirici, mentre i mondi w di L ora sono interpretazioni anche di asserzioni teoriche) e quindi la condizione per l'applicazione del teorema fallisce. Per estendere i risultati di convergenza alle ipotesi teoriche, alcune assunzioni al riguardo della observational

distinguishability sono necessarie. Chiamiamo le teorie incompatibili T1 e T2 weakly

observationally distinguishable (wod) per i modelli MOD solo nel caso in cui per ogni w1, w2

MOD tale che

w1 mod(T∈ 1) e w2 mod(T∈ 2), esiste una (possibilmente quantificata)

sentenza osservativa O tale che w1 mod(O) e ∈ w2 mod(∈ ¬O). Se {Ti} è una partizione di

teorie che sono a coppie wod per MOD = ModL di Gaifman e Snir, allora i gradi di credenza in queste teorie avranno basi oggettive. Per ogni data teoria Tj {T∈ i} infatti, P(Tj/∧i≤nφiw) →

[Tj](w) per ogni adeguata Φ = {φi}. A questo punto tuttavia l'antirealista può dire che il

fallimento di wod è precisamente quello che la sottodeterminazione delle teorie scientifiche rispetto all'osservazione significa. Quindi la sottodeterminazione costituisce un argomento per l'antirealismo epistemico in quanto mina le condizioni di cui c'è bisogno per dimostrare le basi oggettive della credenza nelle teorie.

Consideriamo ora il più usuale e apparentemente più forte senso di observational

distinguishability, ovvero: T1 e T2 sono strongly observationally distinguishable (sod) per

MOD solo nel caso in cui c'è una (possibilmente quantificata) sentenza osservativa O tale che per ogni w1, w2 MOD, se w∈ 1 mod(T∈ 1) e w2 mod(T∈ 2), allora w1 mod(O) e w∈ 2 ∈

mod(¬O), intendendo con questo che, relativamente a MOD, O è una conseguenza di T1 e ¬O

è una conseguenza di T2. Banalmente sod implica wod. Earman dimostra (ibid., pag. 151) che

vale anche l'implicazione inversa per ModL di Gaifman e Snir. Questo significa che la premessa di distinguishability del teorema di Gaifman e Snir può assumere la forma del senso più usuale di observational distinguishability e che l'argomento della sottodeterminazione

(22)

mina anche questo.

Questo risultato comporta dei problemi sia per il Bayesiano sia per colui che vorrebbe essere un realista epistemico. Per quanto riguarda il primo, sembra che i risultati di convergenza alla certezza per le ipotesi teoriche siano infondati. Vediamo in che senso utilizzando un dilemma: o la condizione wod vale per paia di {Ti} oppure no. Se essa non vale, allora i teoremi di

convergenza alla certezza non si applicano. Se essa vale, allora i teoremi di convergenza alla certezza si applicano, ma sono inutili, dal momento che la condizione wod implica che distinti paia di {Ti} hanno conseguenze osservative incompatibili, così che si può arrivare alla vera teoria mediante l'induzione eliminativa senza utilizzare l'apparato bayesiano. Quest'ultima corna del dilemma tuttavia è imperfetta in quanto sod non significa necessariamente che le conseguenze osservative delle {Ti} siano finitamente verificabili e falsificabili. Se la verificabilità finita e falsificabilità finita falliscono allora i risultati di convergenza hanno una possibilità di funzionare: si può convergere alla certezza su T34, per esempio, facendo sempre

più osservazioni atomiche e quindi mediante la convergenza a 0 sulle sentenze osservative (possibilmente quantificate) che separano T34 dai suoi rivali. Ovviamente le preoccupazioni al

riguardo dei tassi di convergenza avanzate prima si applicano anche in questo caso.

Prendiamo ora in considerazione come colui che vorrebbe essere un realista epistemologico risponderebbe all'argomento della sottodeterminazione. In primo luogo egli potrebbe accettare l'argomento della sottodeterminazione da parte dell'antirealista, ma sostenere che questo non rappresenta una seria minaccia, in quanto la sottodeterminazione o non è così diffusa o comunque avviene in casi non interessanti. Solo uno sviluppo esteriore di una teoria infatti che non comporta nessuna nuova predizione osservativa produrrebbe una serie senza fine di teorie non separabili dalle osservazioni, ma questa forma di sottodeterminazione non è interessante dal momento che il cuore della teoria è sempre il medesimo. Per esempio, è possibile creare teorie della gravitazione non separabili dalle osservazioni e al contempo interessanti, solo se queste non ci dicono nulla al riguardo dei prove gravitazionali classiche. Ma la completezza (nel senso di comportare predizioni definite) in riferimento a quei fenomeni che appartengono a quello che viene solitamente considerato come il dominio esplicativo della gravitazione sembra essere una richiesta ragionevole da imporre ad ogni teoria della gravitazione degna di considerazione. Anzi questa potrebbe essere ritenuta essere una condizione necessaria per ogni teoria della gravitazione.

In secondo luogo il realista potrebbe negare che la sottodeterminazione supporti l'antirealismo epistemico negando l'identificazione da parte dell'antirealista tra le buone ragioni per la credenza e i gradi di credenza con basi oggettive nel senso bayesiano di fusione dell'opinione a posteriori. Per spiegare meglio questo punto, possiamo prendere in considerazione un

(23)

paragone con quanto detto sopra circa le asserzioni osservative e la sottodeterminazione, ovvero che nonostante quest'ultima per le predizioni osservative, ci potrebbero essere tuttavia buone ragioni per credere in queste. Detto altrimenti, le osservazioni passate, anche se esse si estendono infinitamente lontano nel passato, non possono costituire delle basi oggettive per le predizioni osservative future per una classe ampia {P} di funzioni di probabilità ugualmente dogmatiche. Nonostante questo, si potrebbe sostenere che l'esperienza passata dà buone ragioni per credere che il sole sorgerà domani e che gli smeraldi osservati dopo un certo periodo di tempo continueranno ad essere verdi. Allo stesso modo il realista può sostenere che abbiamo buone ragioni per credere nelle asserzioni teoriche anche se il loro grado di credenza non ha basi oggettive nel senso tecnico di prima. Questo punto, sebbene sostenibile, tuttavia è inutile ai fini della presente trattazione, in quanto vogliamo comprendere le implicazioni del Bayesianesimo nella controversia tra realismo e antirealismo. Poiché, nello stato attuale, il modello bayesiano di inferenza scientifica non contiene nessuna spiegazione delle buone ragioni oggettive altra rispetto alla fusione di opinioni soggettive o agli schemi apparentemente non funzionanti per la valutazione oggettiva delle probabilità a priori, la versione bayesiana del dibattito antirealismo contro realismo quindi si arena a causa del problema non risolto dell'oggettività.

Per concludere la discussione sulle critiche che sono state fatte alla strategia bayesiana del

washing out come spiegazione dell'oggettività, prendiamo in considerazione un'osservazione

fatta da Thomas Kuhn in Objectivity, Value Judgment and Theory Choice, scritto contenuto nella raccolta di saggi del 1977 The Essential Tension. Selected Studies in Scientific Tradition

and Change. Egli prende in considerazione la tesi bayesiana di cui all'oggetto, secondo cui le

differenti probabilità a priori che differenti individui assegnano ad una stessa teoria, con l'accumulo sempre maggiore di evidenza, svaniscono in quanto tutti gli agenti convergono alla medesima probabilità per la teoria in questione: 0 se questa è falsa, 1 se questa è vera. Kuhn ci fa notare che ciò che converge, man mano che l'evidenza si accumula, è unicamente il valore a posteriori della probabilità P che i singoli individui calcolano con il loro algoritmo bayesiano (ovvero applicando il teorema di Bayes), ma questo non significa che i singoli algoritmi utilizzati da ogni individuo arrivino a coincidere. Questo è conseguenza del fatto che quei fattori soggettivi (che rientrano nel teorema di Bayes nella forma di probabilità a priori) che all'inizio hanno diviso gli esperti circa il giudizio su una data teoria, possono essere presenti anche dopo, quando il giudizio è unanime. È possibile che questi stessi algoritmi divengano sempre più somiglianti con il passare del tempo, ma l'unanimità sul giudizio finale circa la teoria non costituisce alcuna prova di questo.

Riferimenti

Documenti correlati

 I ricavi da vendita di beni sono riconosciuti nel momento della consegna al cliente (nel caso in cui il cliente abbia il diritto alla restituzione il riconoscimento del ricavo

Molti studi si sono rivolti alla rilevazione di diverse specie virali a partire da campioni applicati su carta da filtro, considerando i virus clinicamente più

√ 1 x sull’intervallo [0, 1] (tale funzione si pu´o porre uguale ad un numero qualsiasi nel punto 0, in modo da ottenere una funzione definita sull’intervallo chiuso). La c) `e

[r]

Ad esempio, per decidere quale sotto-sequenza x k ; :::; x n usare, una scelta ad occhio e col buon senso magari è la scelta migliore e richiede pochi secondi, ma volendo si

(8-10 punti) Rispondere in modo molto conciso (4 righe max circa) alle seguenti domande teoriche brevi:1. Un valore empirico del tipo d Cov 0:9 che indicazioni o¤re sul legame tra

(5 punti) Sia T AB1 una tabella che rappresenta dati tecnici di automo- bili in commercio: le 20 righe rappresentano i vari modelli, mentre le 6 colonne i diversi parametri

prendere decisioni o svolgere attività inerenti alle sue mansioni in situazioni, anche solo apparenti, di conflitto di interessi. Egli non svolge alcuna attività che contrasti con