Fabrizio Luccio

(1)

Fabrizio Luccio

Università di Pisa

Informazione e casualità

(2)

(3)

Anche se non ci si pensa, c’è un concetto matematico alla base della comunicazione tra gli uomini e forse tra tutte le altre creature

la crescita esponenziale

è un fenomeno sottile e in genere

massacrato nel linguaggio comune

(4)

crescita esponenziale e comunicazione

Quante parole di tre lettere si possono costruire con il nostro alfabeto ?

le parole: aaa aab aac . . . . zzz

(5)

Infatti con un alfabeto di k > 1 simboli il numero p di parole di lunghezza n cresce esponenzialmente con n :

p = k

ⁿ

per le parole: aaa aab aac . . . . zzz

abbiamo k = 26 , n = 3, p = 26

³

= 17.576

(6)

Questa legge matematica vale per la comunicazione orale (fonemi) e scritta (caratteri alfabetici)

I primi caratteri nella storia della scrittura

furono ideografici; poi, con un processo in

parte graduale ma comunque straordinario,

si sono trasformati in fonetici.

(7)

EGITTO

IV DINASTIA

2620 – 2500 A.C.

(8)

Dalle istruzioni di Dua-Khety a suo figlio Pepy:

(Egitto. XII Dinastia, circa 1800 A.C.)

il vasaio è ricoperto di argilla, anche i suoi abiti divengono rigidi . . . . il messaggero è terrorizzato dai leoni . . . .

il calzolaio vive infelice tra i sui tubi di colla . . . .

il lavandaio lava i panni nel fiume tra i coccodrilli . . . .

dirigiti dunque verso la professione dello scriba !

(9)

Nasce il codice binario in Europa

Meditatio Proemialis. Johannes Caramuel’s Matesis Biceps Vetus et Nova, 1670

(10)

Tutti i nostri documenti, siano scritti, immagini o suoni, sono rappresentati nei sistemi elettronici come sequenze di caratteri di un alfabeto binario

. . . ma il metodo è molto più antico del

codice di Caramuel

(11)

YI JING

Libro dei Mutamenti, Cina ~ 200 A.C.

(12)

Divinazione Ifá nella cultura Yorubá in Nigeria ~ 1200 D.C.

Nel 2005 questo sistema è stato inserito dall’UNESCO nella lista dei Masterpieces of the Oral and Intangible Heritage of Humanity

(13)

. . . . e infatti vi è qualcosa di magico nel

sistema binario

(14)

Braille: un codice binario sorprendente

(a) Le sei posizioni dei punti in Braille

(b) La lettera B: punti sporgenti in nero

(c) Il numero 2, composto dal “segno numeri” per

il cambio di significato, seguito da una B

(15)

(16)

Il ruolo del caso

Una raccomandazione preliminare:

Bi à bà rùbo ki à mù t’Èsù kuro

(17)

(18)

Pierre-Simon Laplace (1814). Essai philosophique sur les probabilités .

Il pensiero di Laplace

Laplace sottolineò come sia sbagliato credere che il verificarsi di un “evento regolare” come l’apparizione di venti teste consecutive nel lancio di una moneta sia

meno probabile di qualsiasi altra sequenza “irregolare”

di risultati.

E aggiunse . . . Le combinazioni regolari arrivano più raramente perché sono meno numerose.

(19)

L’esperimento di Laplace

Lancio di una moneta per venti volte (Croix o Pile)

C C C C C C C C C C C C C C C C C C C C C C P C P P P C C P C P C C P C P C P P

Lanciando a caso, le due sequenze hanno la stessa probabilità 1/2²⁰< 1/(1 Milione) di apparire

Genera “ 20 C ”

Genera “ C C P C ...”

(20)

Intuitivamente una sequenza S è casuale (random) se non esiste un metodo per descriverla (algoritmo per generarla) che può essere a sua volta

rappresentato con una sequenza più corta di S.

Da un punto di vista matematico questa affermazione assume un senso preciso solo se è basata su una

rigorosa definizione di algoritmo come quelle date da

Alan Turing e altri logici nella prima metà del secolo

scorso. Laplace non aveva questa possibilità.

(21)

Di qui nasce una delle pagine più interessanti* della matematica recente:

la complessità secondo Kolmogorov

*

Questo lo dico io: forse i matematici non sono altrettanto interessati.

È una teoria molto difficile: cerchiamo di capire

quali ne siano l’essenza e il significato

(22)

La base teorica

Vi sono innumerevoli modi per definire una famiglia di sistemi si calcolo: per esempio una famiglia di

“macchine di Turing”, o una di PC che usano il

linguaggio Java, ecc.

(23)

In ogni famiglia di sistemi di calcolo (per esempio PC differenti che usano il linguaggio Java), la lunghezza

dell’algoritmo più corto per generare una sequenza S è la complessità algoritmica di S e si indica con K(S) .

Un fondamentale teorema d’invarianza mostra che il

valore di K(S) è sostanzialmente indipendente dal

membro della famiglia (cioè dal PC) scelto per il

calcolo.

(24)

K (S) (lunghezza dell’algoritmo più corto) è il contenuto d’informazione di S .

Una sequenza S è casuale se e solo se K ( S ) = | S |

In conclusione:

(25)

La casualità è ora definita come proprietà

intrinseca di una sequenza, indipendentemente dalla sorgenta che l’ha generata.

Una sequenza che può essere descritta con una breve regola non è casuale anche se è stata

generata perfettamente a caso.

Questa definizione non implica l’esistenza, filosoficamente discutibile, di sorgenti

random.

(26)

Due importanti proprietà delle sequenze random, dimostrabili matematicamente

Esistono sequenze random lunghe n, per ogni valore di n.

Non può esistere un algoritmo per

stabilire se una sequenza arbitraria

è random

(27)

Ma allora è possibile comprimere i dati ?

In genere sí (per esempio con gzip).

Teoricamente la massima compressione di una sequenza S si ottiene sostituendo a S il

programma più corto che la genera. Quindi le sequenze casuali non possono essere compresse.

In altre parole le sequenze casuali contengono

la massima quantità d’informazione in funzione

della loro lunghezza.

(28)

Casualità e informazione:

due ritmi musicali in “Box Notation”

                ROCK (origine europea)

               

RUMBA (origine africana)

(29)

E che dire del codice biologico ?

T C A G

T TTT Phe (F) TCT Ser (S) TAT Tyr (Y) TGT Cys (C)

TTC " TCC " TAC " TGC "

TTA Leu (L) TCA " TAA Ter TGA Ter

TTG " TCG " TAG Ter TGG Trp (W)

C CTT Leu (L) CCT Pro (P) CAT His (H) CGT Arg (R)

CTC " CCC " CAC " CGC "

CTA " CCA " CAA Gln (Q) CGA "

CTG " CCG " CAG " CGG "

A ATT Ile (I) ACT Thr (T) AAT Asn (N) AGT Ser (S)

ATC " ACC " AAC " AGC "

ATA " ACA " AAA Lys (K) AGA Arg (R)

ATG Met (M) ACG " AAG " AGG "

G GTT Val (V) GCT Ala (A) GAT Asp (D) GGT Gly (G)

GTC " GCC " GAC " GGC "

GTA " GCA " GAA Glu (E) GGA "

GTG " GCG " GAG " GGG "

(30)

Un alfabeto quaternario A,C,T,G per codificare solo 21 aminoacidi !

Perché questa ridondanza ?

Nel DNA le sezioni non-codificanti possono essere compresse con programmi standard, mentre in genere le sezioni che rappresentano i geni (codici di proteine) non possono essere compresse,

ovvero appaiono come casuali.

Come si può interpretare questo fatto ? Forse i geni

sono rappresentati in forma ottimizzata nel senso

che la natura ha escluso dal loro codice tutto ciò

che non contiene informazione utile.

(31)

E ora una questione finale:

in termini matematici le sequenze casuali

contengono la massima quntità d’informazione come umani, siamo pronti ad accettare

questo fatto ?

(32)