Francesco Gagliardi
Dipartimento di Filosofia - Università di Roma “La Sapienza” Via Carlo Fea, 00161 Roma (e-mail: [email protected])
Abstract— La categorizzazione è il processo attraverso il quale la mente umana divide il mondo in categorie costruendo dei
concetti che forniscono la rappresentazione mentale di queste categorie (Murphy, 2002).
In medicina, la diagnosi è il processo che consiste nel riconoscere una condizione patologica in base ai segni clinici (oggettivi) e ai sintomi (soggettivi) del paziente. Il processo diagnostico è stato studiato in psicologia cognitiva come un interessante caso particolare dei processi di categorizzazione (e.g. Cantor et al., 1980).
In questo lavoro ci interessiamo della diagnosi nosologica, considerata come un processo di categorizzazione basato sulla tipicità (Gagliardi 2008b, 2010) e mostriamo come un sistema classificatore proposto come modello cognitivo della categorizzazione (il PEL-C – Prototype exemplar learning classifier) realizzi un modello cognitivo-computazionale della diagnosi nosologica.
Tale classificatore può inoltre essere utilizzato, proprio grazie alla sua plausibilità cognitiva, per estrarre conoscenza di tipo nosologico (e.g. estraendo le sindromi) dai database contenenti casi clinici.
Index Terms— Sistemi di supporto alla decisione clinica (CDSS); Diagnosi nosologica; Apprendimento basato su istanze;
Categorizzazione.
I. LE TEORIE DELLA CATEGORIZZAZIONE E LA “TYPICALITY VIEW”
Le principali teorie (Murphy, 2002) sulla natura dei concetti che riguardano la categorizzazione basata sulla tipicità sono la teoria dei prototipi e la teoria degli esemplari.
Secondo la teoria dei prototipi i concetti sono dei prototipi che rappresentano le caratteristiche tipiche degli oggetti di una categoria piuttosto che condizioni necessarie e sufficienti. Invece secondo la teoria degli esemplari i concetti sono una collezione di esempi memorizzati.
A. La “typicality view”
La teoria dei prototipi e quella degli esemplari, se prese singolarmente, risultano incomplete e insoddisfacenti per spiegare le evidenze sperimentali (e.g., Murphy, 2002; pg. 4) (Gagliardi, 2008a, 2009). Quello che, al di là delle singole teorie proposte, non si presta a critiche è l’esistenza della tipicità vista come un “fenomeno” presente nei processi di categorizzazione degli esseri umani (cf. “Typicality as phenomenon” in Murphy; 2002 pg. 28).
II. LA DIAGNOSI NOSOLOGICA E LA TYPICALITY VIEW
In filosofia della medicina e in intelligenza artificiale si distinguono due principali tipi di diagnosi, quella fisiopatologica e la diagnosi nosologica (Scandellari, 1981; pp. 55-56) (Sadegh-Zadeh, 2000; pg. 230):
• La diagnosi fisiopatologica detta anche diagnosi causale è la prassi diagnostica in cui si procede alla spiegazione delle cause dei fenomeni morbosi riscontrati nel paziente utilizzando le conoscenze di fisiopatologia.
• La diagnosi nosologica è la prassi diagnostica in cui si presta più attenzione all’insorgenza di complessi sindromici “tipici”. La diagnosi è ottenuta analizzando la similarità del singolo caso clinico con i vari quadri morbosi, con cui si manifestano le patologie.
In questo lavoro non ci occupiamo della diagnosi causale25 mentre ci occupiamo della diagnosi nosologica mettendola in relazione con la typicality view sulla natura dei concetti, infatti la diagnosi nosologica si basa sulla nozione di similarità presentando aspetti riconducibili sia alla teoria dei prototipi che a quella degli esemplari (Gagliardi 2010).
La sindrome è definita come un insieme di caratteristiche clinicamente riconoscibili (segni e sintomi) che spesso tendono ad presentarsi insieme in forma simile. Quindi la sindrome può essere considerata, per sua definizione, come un prototipo di un insieme di osservazioni cliniche, una sorta di quadro morboso tipico di una data patologia, che si manifesta in maniera simile in diversi casi clinici.
25 In (Gagliardi, 2010) si mette in relazione la diagnosi causale con un’altra teoria cognitiva della categorizzazione non presentata qui, la cosiddetta theory-theory.
105
Il solo riconoscimento dei quadri morbosi tipici (le sindromi) nei casi clinici considerati, che rappresenta l’aspetto generale (nomotetico) della diagnosi nosologica, non è sufficiente a definire il processo diagnostico nosologico poiché la diagnosi si basa anche sul riconoscimento di singoli casi clinici atipici, che rappresenta l’aspetto particolare (idiografico) della diagnosi nosologica (Cf. Giaretta, 2004).
La diagnosi nosologica è un processo di categorizzazione che presenta aspetti riconducibili sia alla teoria dei prototipi che alla teoria degli esemplari, senza ridursi a nessuna delle due. Infatti la diagnosi nosologica si può considerare come un processo di categorizzazione “ibrido” che si basa sia sui prototipi (le sindromi) che sugli esemplari (i casi clinici atipici) e quindi tale tipo di diagnosi risulta coerente con la typicality view sulla natura dei concetti.
TABELLAI
SINTESI SCHEMATICA DI ALCUNE OSSERVAZIONI CONTENUTE NEL TESTO
Teoria degli Esemplari Typicality-View Teorie della Categorizzazione Aspetti Nomotetici Aspetti Idiografici Casi Clinici Atipici Diagnosi Nosologica Teorie della Diagnosi Basati su Esemplari (e.g. NNC) Ibridi (e.g. PEL-C) Classificatori basati su Istanze Teoria dei Prototipi Basati su Prototipi (e.g. NPC) Sindromi
III. ISISTEMI CLASSIFICATORI BASATI SU ISTANZE
I sistemi classificatori (Witten, Frank, 2005) appartenenti alla famiglia dell’instance-based learning, possono apprendere delle rappresentazioni delle classi basate su prototipi o su esemplari come il Nearest prototype classifier (NPC) e il Nearest neighbour classifier (NNC), rispettivamente.
Nell’ambito dei sistemi classificatori di tipo instance-based esistono i classificatori ibridi, come il PEL-C (Prototype-
Exemplar Learning Classifier) (Gagliardi, 2008a, 2011), che inferiscono rappresentazioni delle categorie di tipo ibrido
basate su istanze la cui astrazione può variare da quella massima di un prototipo, che da solo rappresenta un’intera classe, fino a istanze con astrazione nulla, che coincidono con esemplari precedentemente osservati.
Il classificatore PEL-C è stato proposto come modello computazionale per comprendere il “fenomeno” della tipicità (Gagliardi 2008a) e per superare la diatriba prototipi-esemplari (Gagliardi 2009) poiché apprende le categorie costruendo dei concetti composti da una combinazione di istanze proto-tipiche ed esemplari a-tipici.
IV. UN CASO DI STUDIO IN DERMATOLOGIA
Abbiamo considerato il problema della diagnosi differenziale tra sei patologie eritemo-squamose così come proposto da Güvenir e altri (Güvenir, et al., 1998).
Il database considerato è composto da 358 osservazioni cliniche, ognuna composta da 34 attributi, 12 dei quali clinici e 22 istopatologici.
Le patologie presenti in questo database sono elencate nella tabella 2, con la relativa distribuzione statistica.
TABELLAII
CLASSI CONTENUTE NEL DATA SET E RELATIVA DISTRIBUZIONE.
Classi Istanze Perc.
(%) 1 Psoriasis 111 31.01 2 Seboreic dermatitis 60 16.76 3 Lichen planus 71 19.83 4 Pityriasis rosea 48 13.41 5 Cronic dermatitis 48 13.41 6 Pityriasis rubra pilaris 20 5.57
Totale: 358
Abbiamo applicato l’algoritmo di classificazione PEL-C su questo database. Nella seguente tabella 3 mostriamo, le caratteristiche delle istanze rappresentative trovate dal classificatore PEL-C per questo database26.
26 Omettiamo per brevità di riportare le 34 feature di tipo clinico ed istopatologico ottenute per ciascuna istanza rappresentativa RI; per questi
106
TABELLAIII
ISTANZE RAPPRESENTATIVE INFERITE DAL PEL-C E RELATIVA RAPPRESENTATIVITÀ
Rappresentazioni delle Classi Rappresentatività
Istanze
Rappresentative Classi Cardinalità
Percentuali relative RI-1 90 81.08 RI-2 Psoriasis 21 18.92 RI-3 34 54.84 RI-4 12 19.35 RI-5 10 16.13 RI-6 5 8.06 RI-7 Seboreic dermatitis 1 1.61 Exemplar RI-8 70 98.59
RI-9 Lichen planus 1 1.41 Exemplar
RI-10 26 56.52 RI-11 10 21.74 RI-12 8 17.39 RI-13 Pityriasis rosea 2 4.35
RI-14 Cronic dermatitis 48 100.00 Pure-prototype RI-15 Pityriasis rubra
pilaris 20 100.00 Pure-prototype
Osserviamo che il tipo di istanze rappresentative ottenute varia da prototipi (le sindromi), che rappresentano il 100% della patologia considerata (RI-14, RI-15), fino a esemplari, ovvero singoli casi clinici atipici (RI-7, RI-9); mentre i concetti appresi variano da classi interamente rappresentate da una sola sindrome-prototipo (la classe “Cronic dermatitis” e la “Pityriasis rubra pilaris”) a classi basate su un coro di prototipi più un esemplare atipico (come la classe “Seboreic dermatitis”).
Per ogni singolo caso clinico viene effettuata una diagnosi attribuendogli la classe dell’istanza rappresentativa ad esso più vicina. Vediamone due esempi illustrativi27.
Indichiamo con X il caso clinico da diagnosticare, e supponiamo che tra le istanze rappresentative RI quella più vicina sia la RI-11 allora il sistema diagnosticherà per X la patologia “Pityriasis rosea” perché il caso considerato risulta essere simile ad una delle sindromi inferite precedentemente dal sistema per la patologia “Pityriasis rosea” ovvero il sistema riconoscerà nel caso considerato la presenza della sindrome RI-11 che si manifesta all’incirca nel 22% dei casi della patologia “Pityriasis rosea”.
Consideriamo ora un esempio che coinvolge anche i casi clinici atipici. Supponiamo che X sia più vicino a RI-14 (la sindrome della classe “Cronic dermatitis”) rispetto a RI-8 (la sindrome della classe “Lichen planus” che ne rappresenta il 99% circa) e supponiamo anche che X risulti più vicina a RI-9 (un caso atipico della classe “Lichen planus”) rispetto a
RI-14; allora in base ad una argomentazione nomotetica basata sulle sole sindromi la diagnosi per X dovrebbe essere la
classe “Cronic dermatitis” invece il sistema proporrà la classe “Lichen planus” riconoscendo X come un caso clinico molto simile al caso atipico RI-9, precedentemente appreso.
V. CONCLUSIONI
In questo lavoro abbiamo considerato un sistema classificatore, il PEL-C, sviluppato come modello cognitivo della categorizzazione basata sulla tipicità, e abbiamo mostrato, in accordo con l’uso del metodo sintetico nella scienza cognitiva (Cordeschi, 2002, 2008), che possa considerarsi come un modello cognitivo–computazionale della diagnosi nosologica se applicato a problemi di classificazione diagnostica.
Abbiamo inoltre mostrato in un caso di studio in ambito clinico che tale classificatore può estrarre, proprio grazie alla sua plausibilità cognitiva, della conoscenza di tipo nosologico da database clinici, inferendo sia le sindromi che i casi clinici atipici con cui si manifestano le patologie considerate.
RINGRAZIAMENTI
Desidero ringraziare Roberto Cordeschi per gli utili commenti su una versione preliminare di questo lavoro.
27 In questo lavoro siamo interessati a mostrare le capacità di un sistema di classificazione con plausibilità cognitiva di estrarre conoscenza di tipo
nosologico, per questo motivo omettiamo per brevità di riportare i risultati ottenuti da questo classificatore in termini di accuracy diagnostica e il confronto con altri classificatori anche su altri database, per i quali si rinvia il lettore interessato a vedere (Gagliardi 2011).
107
RIFERIMENTI
[1] Cantor, N., Smith, E.E., French, R., Mezzich, J. (1980) Psychiatric diagnosis as prototype categorization. Journal of Abnormal Psychology, 89(2):181-193.
[2] Cordeschi R. (2002) The Discovery of the Artificial. Behavior, Mind and Machines Before and Beyond Cybernetics. Dordrecht: Kluwer Academic Publishers.
[3] Cordeschi, R. (2008) Il metodo sintetico: problemi epistemologici nella scienza cognitiva. Sistemi Intelligenti, XX(2):167-192. Il Mulino. (doi: http://dx.doi.org/10.1422/27401)
[4] Gagliardi, F. (2008a) A Prototype-Exemplars Hybrid Cognitive Model of Phenomenon of Typicality in Categorization: a case-study in biological classification. In: Proceedings of the 30th Annual Conference of the Cognitive Science Society. Pp. 1176–1181.
[5] Gagliardi, F. (2008b) Sistemi classificatori basati su istanze: modelli cognitivi della categorizzazione e teorie della diagnosi. Tesi di Dottorato, Università degli Studi di Napoli Federico II, Napoli. (doi:http://www.fedoa.unina.it/1996/)
[6] Gagliardi, F. (2009) La categorizzazione tra psicologia cognitiva e machine learning: perché è necessario un approccio interdisciplinare. Sistemi Intelligenti. XXI(3):489-501 (doi: http://dx.doi.org/10.1422/30985)
[7] Gagliardi, F. (2010) Teorie della Diagnosi e Teorie della Categorizzazione. In: “Pratiche della Cognizione. Atti del Settimo Convegno Nazionale di Scienze Cognitive. Trento, 2-3/dicembre/2010. Università degli Studi di Trento Editore, Trento. Pp. 213-217.
[8] Gagliardi, F. (2011) Instance-based classifiers applied to medical databases: diagnosis and knowledge extraction. Artificial Intelligence in Medicine. 52(3):123-139. (doi: http://dx.doi.org/10.1016/j.artmed.2011.04.002)
[9] Giaretta, P. (2004) Aspetti idiografici e nometetici del procedimento clinico: analisi di un caso. In Forme della Razionalità Medica. Rubbettino Scientifica. Pp.143-162.
[10] Güvenir, H.A., Demiroz, G., Ilter, N. (1998) Learning differential diagnosis of erythemato-squamous diseases using voting feature intervals. Artificial Intelligence in Medicine. 13:147-165.
[11] Murphy, G.L. (2002). The big book of concepts. Cambridge, MA: MIT Press.
[12] Sadegh-Zadeh, K. (2000) Fundamentals of clinical methodology: 4, Diagnosis. Artificial Intelligence in Medicine. 20:227-241. [13] Scandellari, C. (1981) La strategia della diagnosi. Piccin editore, Padova.
[14] Witten, I.H., Frank, E. (2005). Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations. (2nd edn.) Morgan Kaufmann, San Francisco, CA.