Il decisivo problema del peso probatorio - Teorie della probabilità, fact finding e standard of

3. Il significato dello standard

3.2. Teorie della probabilità, fact finding e standard of persuasion

3.2.2. Il decisivo problema del peso probatorio

Bisogna ora considerare un ulteriore problema sollevato da Cohen con riferimento alla concettualizzazione del fact finding secondo le regole del Calcolo delle probabilità.

Per illustrare lo stesso è bene rifarsi ad uno dei classici puzzles della letteratura di common law in materia di naked statistics¹⁶⁶, il ‘paradosso’ dei prisoners in the yard¹⁶⁷.

Nel cortile di una prigione vi sono 100 prigionieri in divisa. Quando le guardie che li controllano sono distratte, 99 prigionieri le assalgono uccidendole e tentano di abbandonare il cortile, mentre 1 di essi non partecipa, nascondendosi in un cantuccio, presumibilmente spaventato e inorridito. La scena è osservata da un testimone attendibile, ma troppo distante per scorgere la fisionomia del volto dei prigionieri. Avendo realizzato che non vi sono possibilità di uscire dal cortile, i 99 prigionieri riottosi si calmano e, a questo punto, quello che si era nascosto torna a mescolarsi con il gruppo. Così, quando le forze dell’ordine fanno ingresso nel cortile, trovano le guardie morte e i cento prigionieri tutti insieme. Il rapporto tra innocenti e responsabili è di 1 a 99. Da questo può trarsi la probabilità pascaliana di 0.99 relativa alla responsabilità di ogni prigioniero. Si tratta di una probabilità molto elevata. Ma la evidence introdotta può essere considerata sufficiente per condannare un prigioniero imputato? Si consideri peraltro che se si rispondesse affermativamente, nulla in linea di principio escluderebbe l’evento paradossale della condanna di tutti i cento prigionieri.

166 Tra questi si ricordano due famosi casi relativi al processo civile: il caso dei gatecrashers (formulato in COHEN, The Probable and the Provable, op. cit., p. 74 ss.) e il caso dei blue buses (tratto da Smith v. Rapid Transit, 317 Mass. 469, 1945. Per un breve riassunto del caso si veda F. SCHAUER,

Profiles, Probabilities, and Stereotypes, Harvard University Press, Cambridge, 2003, p. 79 ss.).

Entrambi sono stati oggetto di un lungo (e talvolta ripetitivo) dibattito tra gli studiosi del fact finding.

167 Il puzzle è stato formulato in C. NESSON, Reasonable Doubt and Permissive Inferences: the Value

of Complexity, 92 Harvard Law Review 1187, 1979, p. 1192 ss. Qui si modificano le cifre rispetto alla

Ammettendo, anche qui con fine didascalico, che il beyond a reasonable doubt standard corrisponda ad una soglia di 0.99, in base alle regole pascaliane sembrerebbe doversi condannare un eventuale prigioniero che sia processato per gli omicidi delle guardie. Questo esito, apparentemente inevitabile, è tuttavia spiazzante. Invero, è difficile che in un siffatto caso (per quanto irrealistico) venga emesso un verdetto di condanna. Ma qual’è la ragione di ciò?

Secondo Cohen, se si segue l’approccio pascaliano, non è possibile dare risposta a questa domanda168. Anzi, un’applicazione rigorosa dello stesso porta ad ignorare la questione, imponendo la condanna. Un approccio baconiano al processo, può invece spiegare il perché del senso di inquietudine causato dall’esempio proposto. Questo deve essere ricercato nello studio del concetto di evidential weight.

La nozione di ‘peso probatorio’ risale a John Maynard Keynes¹⁶⁹. Secondo il noto economista “mentre la probabilità – pascaliana di un’affermazione fattuale – rappresenta la differenza tra la evidence favorevole e quella sfavorevole – alla stessa –, il peso rappresenta la somma di tutta la evidence rilevante¹⁷⁰” e, pertanto, indica il fondamento probatorio dell’affermazione. Dunque, all’aumentare della evidence rilevante presa in esame la probabilità può crescere o decrescere, ma in entrambi i casi il peso della stessa aumenta, accrescendo così la sua affidabilità ovvero la sua capacità di descrivere il reale¹⁷¹.

Quanto affermato svela la natura bidimensionale del concetto di ‘probabile’ usato nel linguaggio comune: “esso sintetizza non soltanto le chances espresse dalla stima probabilistica, ma anche l’entità del sostegno probatorio su cui si basa la stima

168 Cfr. COHEN, The Probable and the Provable, op. cit., p. 78 ss.

169 James Franklin individua un’implicito e precursore riferimento al problema del peso probatorio posto da Keynes già nell’opera del filosofo gesuita della Scuola di Salamanca Francisco Suarez e, in particolare, nella sua distinzione tra “dubbio negativo” (che si ha quando non vi sono ragioni a sostegno di alcuna ipotesi proposta) e “dubbio positivo” (che si ha quando c’è un bilanciamento tra le ragioni a sostegno delle ipotesi proposte). Si veda FRANKLIN, The Science of Conjecture. Evidence

and Probability before Pascal, op. cit., pp. 77, 78.

170 Libera traduzione da J. M. KEYNES, A Treatise on Probability, MacMillan, New York, 1921, p. 77.

171 Si comprende facilmente che le più pesanti probabilità pascaliane del caso singolo sono necessariamente vicine ad 1 o a 0. Atteso infatti che le probabilità ‘non esistono’ ma sono solo uno strumento per interpretare una realtà fatta di eventi che si sono o non si sono verificati (oppure che si verificheranno o non si verificheranno), mano a mano che si acquisicono elementi di prova, il valore di dette probabilità si avvicina a 0 (non verificazione dell’evento) o a 1(verificazione dell’evento). Questa notazione non vale, invece, per le frequenze.

stessa”¹⁷². Secondo Cohen, la probabilità pascaliana può esprimere solo la prima delle due dimensioni, non fornendo invece alcuna informazione sull’evidential weight. Le regole del Calcolo delle probabilità creano un modello apparentemente indifferente al problema del peso probatorio. In questo modello, infatti, lo spettro delle possibilità è esaurito ogniqualvolta si avanza un’affermazione probabilistica, a prescindere dalla quantità della evidence che la supporta. Ciò si verifica esprimendo la probabilità dell’affermazione con un numero che va da 0 (falsità) a 1 (verità) e completando lo spettro in base alla regola della negazione¹⁷³.

Per Cohen l’approccio baconiano è invece costitutivamente sensibile al problema del peso. Infatti, la nozione keynesiana di evidential weight di una probabilità è strettamente connessa con la nozione baconiana di legisimilitude¹⁷⁴, che esprime la vicinanza di una generalizzazione ad una legge naturale universale, e dipende dall’inductive support della generalizzazione stessa¹⁷⁵. Invero, secondo l’Autore, il peso di una probabilità del tipo p(H/E) = n (dove H è un ipotesi ed E è la evidence disponibile) coincide con la legisimilitude di una generalizzazione del tipo Ep(H) = n¹⁷⁶. La probabilità baconiana di un’ipotesi, riflettendo il grado di sostegno che la evidence dà alla corrispondente generalizzazione, incorpora dunque un calcolo del peso probatorio.

Nel contesto processuale la decisione finale esprime una probabilità relativa ad un evento singolo (in realtà, a tanti eventi singoli) e non una generalizzazione. Ciò induce a concettualizzare il problema del peso non solo in termini di grado di legisimilitude (o affidabilità) di una generalizzazione, ma anche in termini di grado di ‘riferibilità’ della stessa al caso oggetto di studio177. Difatti l’operazione

172 Traduzione libera da STEIN, Foundations of Evidence Law, op. cit., p. 81.

173 Cfr. supra, nota n. 136. Cohen muove un attacco contro questa regola, affermando che la sua applicazione, specialmente nel fact finding civile governato dal preponderance of the evidence standard, può produrre esiti ‘paradossali’. In defintiva il c.d. ‘paradosso’ della negazione riflette la problematica dell’evidential weight. Si veda COHEN, The Probable and the Provable, op. cit., p. 74 ss. e p. 270 ss.

174 Così L. J. COHEN, The Role of Evidential Weight in Criminal Proof, in Probability and Inference in

the Law of Evidence, TILLERS, GREEN (a cura di), op. cit., p. 122.

175 Cfr. L. J. COHEN, Twelve Questions about Keynes’s Concept of Weight, 37 The British Journal for the Philosophy of Science 263, 1986, p. 276.

176 Cfr. id., p. 277.

177 Cfr. COHEN, The Probable and the Provable, op. cit., p. 271 e STEIN, Foundations of Evidence

dominante¹⁷⁸ del ragionamento inferenziale consta nello stabilire un legame tra un caso singolo e una generalizzazione prodotta per induzione dall’esperienza passata, al fine di trarre deduttivamente dalla seconda informazioni (i.e. probabilità) riferibili al primo. Nessun accadimento è conoscibile immediatamente¹⁷⁹: le generalizzazioni sono dunque l’imprescindibile strumento per conoscere la realtà circostante¹⁸⁰ o, per dirla con David Schum, sono “il collante dei nostri argomenti”181. Si tratta pertanto di raccogliere da queste le informazioni sufficienti per trarre conclusioni attendibili che possano orientare le proprie azioni. Il peso probatorio riflette proprio l’attendibilità della conclusione, in quanto permette di valutare, da un lato, la fondatezza della generalizzazione e, dall’altro, la legittimazione a spiegare il caso singolo attraverso la generalizzazione stessa.

Concepito in questi termini, il problema dell’evidential weight abbraccia due distinte questioni epistemologiche. La prima consiste nella valutazione del grado di sostegno induttivo di una generalizzazione. La seconda riguarda le prova di eventi singoli e consiste nel problema della reference class, ovvero della classificazione di un’istanza oggetto di studio al fine di trarre dalla generalizzazione associata alla classe scelta una probabilità frequentistica deduttivamente riferibile ad un evento che

178 Sul punto si legga P. TILLERS, Are There Universal Principles or Forms of Evidential Inference?

Of Inference Networks and Onto-Epistemology, in Crime, Procedure, and Evidence in a Comparative and International Context: Essays in Honour of Professor Mirjan Damaška, J. JACKSON, M. LANGER, P. TILLERS (a cura di), Hart Publishing, Oxford, 2008. L’Autore riflette sui limiti di applicazione delle generalizzazioni basate sull’esperienza passata nell’ambito del ragionamento inferenziale e teorizza che l’uomo si serve di un’operazione intellettuale peculiare quando deve inferire il significato che un individuo attribuisce ad un fatto. A detta di Tillers questa operazione intellettuale non si basa esclusivamente sull’uso di generalizzazioni e coinvolge attività di immaginazione e di ricostruzione del significato. Pertanto essa viene denominata imaginative reconstruction of meaning. Cfr. anche J. H. WIGMORE, Evidence in Trials at Common Law, Little, Brown and Co., Boston, revisione ad opera di P. TILLERS, 1983, p. 1079, in cui Tillers riflette sulle inferenze che si fondano su regole grammaticali o su regole sociali, distinguendo queste regole dalle generalizzazioni basate sull’esperienza passata.

179 Gli stessi eventi di cui abbiamo percezione sensoriale sono conosciuti solo tramite generalizzazioni sull’affidabilità dei nostri sensi. Sul punto si considerino le riflessioni svolte in SCHAUER, Profiles,

Probabilities, and Stereotypes, op. cit., p. 101 ss.

180 Quest’affermazione trova conforto nelle scoperte delle neuroscienze e, in particolare, negli studi sul neurotrasmettitore dopamina. Questi mettono in luce che le scelte d’azione, anche a ‘livello istintivo’, sono influenzate dai risultati conseguiti nell’esperienza passata. Cfr. Ó. ARIAS-CARRIÓN, E. PÖPPEL, Dopamine, Learning and Reward-Seeking Behavior, 67 Acta Neurobiologiae Experimentalis 481, 2007 e il più divulgativo J. LEHRER, How We Decide, Houghton Mifflin Harcourt, New York, 2009, in particolare p. 28 ss.

181 Libera traduzione da D. A. SCHUM, The Evidential Foundations of Probabilistic Reasoning, Wiley & Sons, New York, 1994, p. 82.

si ipotizza sia connesso all’istanza¹⁸². Il problema della reference class è assai complesso e ha stimolato l’attenzione di molti studiosi183. Non è questa la sede per affrontarlo con il dovuto impegno. Basti qui affermare che la reference class va scelta in virtù di un’analogia tra l’istanza studiata e un prototipo delle istanze coinvolte negli esperimenti che hanno prodotto la generalizzazione che esprime la frequenza ricercata¹⁸⁴. Detta analogia viene stabilita avendo riguardo alle sole

182 Cohen si occupa del problema nel capitolo XVI di The Probable and the Provable, op. cit.

183 Si considerino, in particolare, i seguenti lavori: HAJEK, The Reference Class Problem is your

Problem too, op. cit.; H. REICHENBACH, The Theory of Probability, University of California Press, Berkeley, 1949, p. 372 ss.; J. H. FETZER, Reichenbach, Reference Classes, and Single Case

‘Proabilities’, in W. C. SALMON (edited by) Hans Reichenbach: Logical Empiricist, D. Reidel Publishing Company, Dordrecht, 1979; C. G. HEMPEL, Maximal Specificity and Lawlikeliness in

Probabilistic Explanation, Philosophy of Science Vol. 35, No. 2, 1968, pp. 116-133; W. C. SALMON,

Statistical Explanation, in W. C. SALMON, R. C. JEFFREY, J. G. GREENO, Statistical Explanation and

Statistical Relevance, University of Pittsburgh Press, Pittsburgh, 1971, p. 29 ss.; W. C. SALMON,

Reply to Lehman, 40 Philosophy of Science397, 1973; P.WANG, Reference Classes and Multiple

Inheritances, 3 International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems 79,

1995; E. K. CHENG, A Practical Solution to the Reference Class Problem, 109 Columbia Law Review, 2009; R. J. RHEE, Probability, policy and the problem of reference class, 11 International Journal of Evidence and Proof 286, 2007; D. A. NANCE, The Reference Class Problem and Mathematical

Models of Inference, 11 International Journal of Evidence and Proof 259, 2007;M. COLYVAN, H. M. REGAN, Legal Decisions and the Reference Class Problem, 11 International Journal of Evidence and Proof 274, 2007; P. ROBERTS, From Theory into Practice: Introducing the Reference Class Problem, 11 International Journal of Evidence and Proof 243, 2007; M. S. PARDO, Reference Classes and Legal

Evidence, 11 International Journal of Evidence and Proof 255, 2007; R. J. ALLEN, M. S. PARDO,

Probability, explanation and inference; a reply, 11 International Journal of Evidence and Proof 307,

2007; M. COLYVAN, H. M. REGAN, S. FERSON, Is it a Crime to Belong to a Reference Class?, 9 Journal of Political Philosophy 168, 2001; P. TILLERS, If Wishes Were Horses: Discursive Comments

on Attempts to Prevent Individuals from Being Unfairly Burdened by their Reference Classes, 4 Law,

Probability and Risk 33, 2005. L’attenzione dei giuristi statunitensi nei confronti del reference class

problem è stata senz’altro stimolata dal caso giudiziario United States v. Shonubi (si considerino, in

particolare, la sentenza della Corte federale del Eastern District of New York, United States v. Shonubi, 895 F. Supp. 460, E. D. N. Y., 1995 e la successiva sentenza della Corte d’appello federale del Second Circuit, United States v. Shonubi, 103 F. 3d 1085, 2d Circuit, 1997) in cui si è discussa, ai fini della commisurazione della pena, la possibilità di servirsi (anche) di dati statistici relativi all’attività di un cospicuo gruppo di trafficanti di droga nigeriani per inferire la quantità di droga che il trafficante nigeriano imputato (Charles O. Shonubi) aveva importato dalla Nigeria negli Stati Uniti in otto viaggi. La Corte d’appello federale ha negato questa possibilità con argomentazioni che hanno dato adito ad un vivo dibattito dottrinale. In esso si collocano alcuni dei lavori sopra citati.

184 Si ritiene che si possa idealmente (e in modo semplificativo) rappresentare una reference class come un cerchio nel cui centro si trova il prototipo (o exemplifier), un’istanza che presenta le proprietà tipiche della classe espresse nel loro core meaning. Le altre istanze sono posizionate più o meno vicino al prototipo (ma pur sempre all’interno della circonferenza!) a seconda di quanto le loro proprietà siano simili ai rispettivi core meanings. Si tratta di una struttura analoga a quella teorizzata dalla studiosa di psicologia cognitiva Eleanor Rosch con riferimento alle categorie percettive e semantiche. Si vedano E. H. ROSCH, On the Internal Structure of Perceptual and Semantic

Categories, in T. E. MOORE (a cura di), Cognitive Development and the Acquisition of Language, Academic Press, New York, 1973 e E. H. ROSCH, Principles of Categorization, in E. MARGOLIS, S. LAURENCE (a cura di), Concepts. Core readings, The MIT Press, Cambridge, 1999.

proprietà statisticamente rilevanti ai fini dell’inferenza che si vuole trarre¹⁸⁵: ad esempio, date le proprietà rilevanti A, B e C, la reference class caratterizzata da tutte

185 In questo senso anche COHEN, The Probable and the Provable, op. cit., p. 170 ss. Centrale è la definizione di ‘rilevanza’. Cohen adotta un concetto proprio di rilevanza causale (cfr. id., p. 138). Chi scrive ritiene che si debba adottare un concetto di rilevanza statistica secondo il quale una proprietà

può dirsi rilevante quando la sua presenza comporta l’appartenenza dell’istanza ad una reference class a cui è associata una generalizzazione (che esprime una frequenza) diversa da quella (espressa dalla generalizzazione) associata alle classi a cui apparterrebbe l’istanza in assenza di quella proprietà. Questa nozione di rilevanza non varia per il caso in cui sia necessario provare l’esistenza di

una relazione causale tra l’istanza e l’evento (ad esempio quando nel processo penale si deve provare il nesso tra condotta ed evento definito attraverso la nozione di but-for cause, sulla quale si vedano, in particolare, le riflessioni svolte in R. W. WRIGHT, Causation, Responsibility, Risk, Probability, Naked

Statistics, and Proof: Pruning the Bramble Bush by Clarifying the Concepts, 73 Iowa Law Review

1001, 1987-1988, p.1018 ss. e PIZZI, Diritto, Abduzione e Prova, op. cit., p. 39 ss. e p. 75 ss.). Si ritiene, infatti, che se è pur vero che la nozione di causa but-for (ovvero di condicio sine qua non), intesa come antecedente eliminando mentalmente il quale viene meno un fatto susseguente (si badi che l’analisi controfattuale non serve all’accertamento, ma alla definizione della causa!), differisce dalla nozione di relazione statistica, fra le due vi è un rapporto di specialità: la seconda è infatti generale rispetto alla prima. Più precisamente, da un lato la nozione di causa but-for individua solo un caso limite di relazione statistica, ovvero il caso in cui vi sia un rapporto di 1 a 1 tra due eventi, dall’altro, essa dà una qualificazione diacronica di tale relazione richiedendo che un evento possa dirsi ‘causale’ solo se temporalmente antecedente all’evento definito ‘causato’ (si ricordi HUME, A Treatise

of Human Nature, op. cit., Libro I, Parte III, par. 2). L’affermazione statistica “se B, allora al 100 %

A” (dove il primo segue temporalmente il secondo) soddisfa il but-for test con riferimento alla relazione tra A (but-for cause) e B (evento) (mentre la medesima cosa non potrebbe dirsi di un’affermazione statistica del tipo “se A, allora al 100 % B” in quanto essa non significa che l’eliminazione mentale di A comporti il venir meno di B). Pertanto si può affermare che una legge statistica come quella appena proposta vale a provare il rapporto causa-effetto but-for tra A e B. A ben vedere, peraltro, la stessa prova “corpuscolare” della causalità (in merito cfr. F. STELLA, Causalita’ e

probabilita’: il giudice corpuscolariano, in Riv. It. Dir. Proc. Pen., 2005, in particolare p. 107 ss.)

nient’altro può essere se non una prova statistica ad un alto o altissimo grado di approfondimento (è infatti impossibile eliminare del tutto le c.d. black boxes). Si potrebbero tuttavia ipotizzare dei casi in cui la causa but-for A stia in realtà schermando un ulteriore fatto C dal quale dipendono (secondo catene causali tra loro autonome) sia A che B. Pur in presenza di una relazione statistica di 1 a 1, e pur essendo il primo anteriore al secondo, sembrerebbe errato chiamare A ‘causa’ di B, nonostante la definizione di but-for cause, lo permetta. La verificazione di una siffatta ipotesi metterebbe in crisi la corrispondenza tra la nozione di but-for cause (ovvero di condicio sine qua non), e il concetto di ‘condizione’, atteso che la causa but-for A può essere difficilmente definita ‘condizione’ di B. Ciò non dovrebbe stupire: è infatti evidente che la nozione di causa but-for non esprime un attributo proprio del concetto di condicio (dal latino condere, ovvero ‘edificare’, ‘comporre’) che consiste nella

contribuzione all’esistenza di un evento (da escludersi nel rapporto tra A e B, se le catene che legano

C a questi hanno direzioni opposte). L’importanza discriminante di questo attributo è tangibile nell’ipotesi formulata. Sarebbe dunque necessario integrare la nozione tradizionale di causa but-for (ma si vedano ancora le riflessioni di HUME in A treatise, cit., Libro I, Parte III, par. 2, sulla definizione del concetto di ‘production’, analogo a quello di ‘contribuzione’): essa resterebbe pur sempre figlia (in quanto speciale) della nozione di relazione statistica. L’argomento richiederebbe comunque un approfondimento che qui non si ha la possibilità di svolgere. Ad ogni modo sulla nozione di rilevanza si vedano: FETZER, Reichenbach, Reference Classes, and Single Case

‘Proabilities’, op. cit., in particolare p. 208 ss.; HEMPEL, Maximal Specificity and Lawlikeliness in

Probabilistic Explanation, op. cit., in particolare p. 131 ss.; REICHENBACH, The Theory of Probability, in particolare p. 374 ss.; SALMON, Statistical Explanation, op. cit., p. 40 ss.; SALMON, Reply to

e tre le proprietà è più adeguata rispetto a quella il cui prototipo ha solo B e C¹⁸⁶. Si ritiene, peraltro, che il procedimento di selezione della reference class più appropriata coincida con il c.d. procedimento di esclusione delle spiegazioni187 alternative del caso singolo188: per escludere una spiegazione alternativa è infatti necessario considerare una proprietà statisticamente rilevante dell’istanza che permetta di apparentare quest’ultima ad una classe a cui è associata una generalizzazione diversa da quella che produce la spiegazione contestata¹⁸⁹.

186 Con maggiore precisione si può affermare che la reference class da selezionare in funzione dell’inferenza da un evento A ad un evento B, sia la classe K tale che

A " K e che E, il prototipo di K sia logicamente equivalente alla congiunzione delle proprietà di A statisticamente rilevanti ai fini dell’inferenza. Ciò significa che non deve esistere una reference class Kª ⊃ K il cui prototipo presenti ulteriori proprietà statisticamente rilevanti. Fetzer peraltro sostiene che al fine di fornire una

spiegazione e non meramente una value solution al problema, sia necessario aggiungere a quanto

precede il requisito secondo cui non deve esistere una reference class Kª ⊃ K tale che P (B, Kª) = P (B, K). Secondo l’Autore senza tale importante aggiunta, non potrebbe individuarsi un’unica spiegazione per l’occorrenza di un dato evento. Cfr. FETZER, Reichenbach, Reference Classes, and

Single Case ‘Proabilities’, op. cit., p. 208. Per un approfondimento si vedano le opere citate al termine

della nota precedente.

187 Il termine ‘spiegazione’ è solitamente utilizzato in epistemologia per riferirsi all’identificazione

Nel documento Tra concetto e prova: le interazioni del diritto penale con l'epistemologia giudiziaria (pagine 62-74)