• Non ci sono risultati.

Dimensione albero di classificazione : YaDT vs YaDT-DRb

Nei Training Set TS1, TS5, TS6 la dimensione dell’albero non ha subito variazioni ciò dimostra come l’esperto di dominio giochi un ruolo fondamentale in quanto gli eventuali miglioramenti introdotti dall’uso della regole di dominio possono anche essere nulli se la mappa fornita non è idonea.

2005 2070 1960 1980 2000 2020 2040 2060 2080 Tree Size TS2 Training Set

Tree size with YaDT-DRb Tree size with YaDT

583 696 500 550 600 650 700 Tree Size TS7 Training Set

Tree size with YaDT-DRb Tree size with YaDT

Grafico 4.4 - Dimensione albero di classificazione : YaDT vs. YaDT-DRb

Le variazioni sia della percentuale di errori commessi che della dimensione dell’albero di classificazione sono quindi strettamente dipendenti dalle informazioni aggiuntive espresse nella mappa causale, derivanti dall’esperienza e dalla conoscenza dell’esperto di dominio.

6666 6731 6620 6640 6660 6680 6700 6720 6740 Tree Szie TS4 Training Set

Tree size with YaDT-DRb Tree size with YaDT

Grafico 4.5 - Dimensione albero di classificazione : YaDT vs. YaDT-DRb

Per tanto è possibile ottenere risultati molto variabili a seconda del training set usato e della mappa associata ad esso.

4613 4643 4590 4600 4610 4620 4630 4640 4650 Tree Size TS8 Training Set

Tree size with YaDT-DRb Tree size with YaDT

Capitolo 5

Conclusioni

____________________________________________________________________

5.1 Conclusioni

L’obiettivo principale della conoscenza di dominio è quello di mantenere sempre aggiornati i dati per la classificazione specialmente in tutti quei settori in cui tali dati sono di natura dinamica.

Tutto ciò è estremamente importante nei casi in cui è molto difficile oltre che costoso reperire nuove informazioni.

In tutti quei casi in cui la dimensione della collezione dei dati non è sufficientemente grande da garantire buone performance al processo di mining, la conoscenza di dominio gioca un ruolo fondamentale ed in grado quindi di migliorare i risultati precedentemente ottenuti.

Nel caso opposto, ovvero per training set di grosse dimensioni, l’utilizzo delle regole di dominio ci fornisce un metodo rapido ed efficace per tenere sempre aggiornati i dati tutte le volte che si verifica un determinato evento (nuova campagna promozionale, ecc..), cosa che senza la conoscenza di dominio creerebbe non pochi problemi.

In campo economico l’uso della conoscenza di dominio sta trovando sempre più conferme, si pensi alla classificazione di un piano di avviamento per una nuova compagnia. In tal caso l’uso della conoscenza di dominio è importantissimo sia perché la collezione di dati non è mai abbastanza grande da poter garantire dei buoni risultati e sia perché molte nuove teorie economiche possono essere codificate in maniera semplice in reti causali come ad esempio le mappe causali di Bayes.

YaDT-DRb fornisce quindi un nuovo modello di classificazione in cui l’esperto di dominio una volta selezionata la mappa può avere dei riscontri immediati sull’efficienza di tale mappa. Durante la costruzione dell’albero vengono visualizzate di volta in volta le varie regole estratte ad ogni nodo radice del sotto- albero corrente, e per ogni attributo coinvolto viene selezionata la regola applicata. Una dei maggiori effetti dell’uso della conoscenza di dominio è senza dubbio la facile portabilità. Ad esempio, consideriamo due supermercati A e B. Se siamo in possesso di informazioni riguardanti il supermercato A ed invece non ne abbiamo abbastanza che riguardano B, essendo A e B entrambi dei supermercati e quindi aventi lo stesso target di clienti, possiamo costruire un classificatore per il supermercato B usando i dati in nostro possesso di B ed in aggiunta la conoscenza aggiuntiva (conoscenza di dominio) usata per il supermercato A.

Un eventuale proseguimento di questa tesi potrebbe essere quello di studiare nuove tecniche per utilizzare la conoscenza di dominio anche durante la scelta del nodo radice che attualmente viene selezionato secondo il metodo tradizionale.

Ringraziamenti

Un doveroso grazie per la loro disponibilità e per i loro preziosi suggerimenti durante la stesura di questa tesi, ai miei due relatori: Franco Turini e Miriam Baglioni.

La dedica iniziale di questa tesi non può bastare per ringraziare le persone che hanno permesso che tutto ciò si realizzasse, dandomi sempre fiducia e non facendomi mai sentire solo nonostante la distanza che ci ha separato in questi anni, un enorme grazie a mamma e papà.

Un grazie davvero speciale va a mio fratello Ignazio per la sua presenza costante nella mia vita, nella quale rappresenta un punto di riferimento inamovibile.

Grazie di cuore a Gabriella per aver dato serenità, felicità e amore alla mia vita e per avermi sopportato come nessuno altro in questo periodo di tesi. Grazie ancora per essere stata sempre disposta ad ascoltarmi, consigliarmi e tranquillizzarmi.

Grazie agli amici di sempre Ivan, Totò e Luigi con i quali ho trascorso momenti indelebili all’insegna della spensieratezza, abbiamo condiviso tre quarti della nostra vita e continueremo a farlo nonostante la distanza ne sono sicuro.

Ricordo ancora tutte le serate dal Presti , le bische nel garage di Totò, e soprattutto le serate autodistruttive che anticipavano la partenza per Pisa quando eravamo costretti ad affrontare il viaggio di ritorno sempre in uno stato pietoso!

Grazie a Massimo per tutte le serate nel super attico di via Fiorentina 47, ovvero nei nostri ben 35 metri quadri di casa. La mia avventura a Pisa non sarebbe potuta cominciare meglio.

Grazie al ritrovato Peppe e a tutte le risate che ci siamo fatti da un po’ di tempo a questa parte e grazie per le mangiate nei ristoranti più sconosciuti della Sicilia.

Un Grazie a Franz, per esserci sempre stato, dal settembre 2000 ad oggi, e soprattutto grazie per avermi fatto vedere la Sagrada Familia a Barcellona…. eheheheh.

Grazie al gruppo storico di via Garibaldi ed in particolare a Fabio e Pino inseparabili compagni di avventura. L’unico rammarico è quello di essere stati tutti ma proprio tutti insieme solo per poco tempo ma è bastato lo stesso per fare di voi delle persone speciali. Grazie per le innumerevoli e mitiche serate che mi avete regalato e che sicuramente ricorderemo tutte le volte che avremo l’occasione di ricontrarci tutti.

Grazie a tutti i colleghi coi quali ho condiviso le ore di lezioni e soprattutto le pause tra i quali Maria, Luigi, Marco, Angela, Vanessa, Andrea e Veronica.

Verò grazie per l’esame che sai tu e per essermi stata a sentire un sacco di volte.

Un grazie a Marco Ascione e alle sue mille ricette, in quel bilocale sembrava di stare in un residence con pensione completa, mancava solo la piscina.

Grazie a Giorgio Volpini per avermi fatto conoscere Sport Italia e i suoi mille sport.

Un grazie ad Andrea ed ai suoi consigli e soprattutto grazie per tutte le serate a base di “acqua” passate insieme.

Grazie a mio cugino Giorgio che con il suo arrivo in Toscana ha contribuito a farmi sentire sempre più a casa mia.

Grazie alle “bimbe” di Pisa 56125 (Via M. Polo) Laura, Eleonora e Samantha, grazie per i pranzi (pranzi è una parola grossa) e grazie per tutte le volte che vi abbiamo portato su le confezioni di acqua, che bello!

Grazie a tutti che coloro che si sono aggiunti nel tempo nel nostro fantastico gruppo tra i quali Attila, Stefano, Paolo, Claudio.

Bibliografia

[AGGR98] R. Agrawal, J. Gehrke, D. Gunopulos and P. Raghavan. Automatic

Subspace Clustering of High Dimensional Data for Data Mining Applications. In

Proceedings of the ACM-SIGMOD 1998 International Conference on Management of Data, 94-105, Seattle WA., 1998.

[AIS93] R. Agrawal, T. Imielinski and A. Swami. Mining Association Rules

between Sets of Items in Large Databases. In Proceedings of the ACM-SIGMOD 1993 International Conference on Management of Data, 207-216, Washington, D.C., 1993.

[AMSS94] R. Agrawal, M. Methta, J. Shafer and R. Srikant “Fast Algorithms for

Mining Association Rules in Large Databases”. Proceeding of the 20th International Conference on Very Large Databases, 478-499, 1994.

[AS94] R. Agrawal and R. Srikant. Fast Algorithms for Mining Association Rules.

In Proceeding of the 20th international Conference on Very Large Database (VLDB), 487-499, Santiago del Chile, Chile 1994.

[AXELROD] R. M. Axelrod. The structure of decision: cognitive maps of political

elites, Princeton, NJ: University of Princeton Press, 1976.

[BL97] M. J. Berry and G. Linoff. Data Mining Techniques for Marketing, Sales

and Customer Support. John Wiley & Sons, Inc., New York 1997.

[CHA03] C.Chatfield. The Analisys of Time Series. 6th edition. Chapman & Hall/CRC. Boca Raton, FL., 2003.

[CODARA] L. Codara. Le mappe cognitive, Carocci Editore, Roma, 1998.

[DHP] J.Soo Park, M-S. Chen, P.S.Yu, An Effective Hash-Based Algorithm for

Mining Association Rules, SIGMOD 1995.

[DIC] S.Brin, R.Motwani, J.Ullman, S.Tsur, Dynamic Itemset Counting and

Implication Rules for Market Basket Data, SIGMOD 1997.

[eC4.5] Salvatore Ruggieri, Efficient C4.5, Pisa 2002.

[EKSX96] M. Ester, H. P. Kriegel, J. Sander and X. Xu. A Density-Based

Algorithm for Discovering Clusters in Large Spatial Databases with Noise. In

Proceeding of the 2nd International Conference on Knowledge Discovery and Data Mining, (KDD’96), 226-231, Portland, OR., 1996.

[FI] U. M. Fayyad and K. B. Irani. On the Handing of continuous-valued attributes

in decision tree generation. Machine Learning, 87-102, 1992.

[FIS87] D. H. Fisher. Improving Inference through Conceptual Clutering. In

Proceeding of AAAI-87 Sixth National Conference on Artificial Intelligence, 461-

465, Seattle, WA., 1987.

[FPSSU96] U. M. Fayyad, G. Piatetsky-Shapiro, P. Smyth and R. Uthurusamy.

Adavnces in Knowledge Discovery and Data Mining. AAAI Press / The Mit Press,

Cambridge, Ma., 1996.

[GLF89] J. H. Gennari, P. Langley and D. Fisher. Models of Incremental Concept

Formation. Journal of Artificial Intelligence, 40 : 11-61, 1989.

[GRS98] S. Guha, R. Rastogi and K. Shim. CURE: An Efficient Clustering

Algorithm for Large Databases. In Proceeding of the ACM-SIGMOD 1998

International Conference on Management of Data, 73-84, Seattle, WA., 1998.

[HED96] S.R. Hedberg. Searching for the Mother Lode: Tales of the First Data

[HF95] J. Han and Y. Fu. Discovery of Multiple-level Association Rules from

Large Databases. In Proceeding of the 21st International Conference on Very Large Databases (VLDB), 420-431, Zurich, Switzerland, 1995.

[HK00] J. Han and M. Kanmer. Data Mining: Concepts and Techniques. Morgan

Kaufmann. San Francisco, CA., 2000.

[HK98] A. Hinneburg and D.A. Keim. An Efficient approach to Clustering in Large

Multimedia Databases with Noise. In Proceeding of the 4th International Conference on Knowledge Discovery and Data Mining, (KDD’98), 58-65, New York, 1998.

[KHC97] M. Kamber, J. Han, and J.Y. Chiang. “Metarule-guided mining of multi-

dimensional association rules using data cubes”. In proc. 3rd Int. Conf. Knowledge Discovery and Data Mining, 207-210, Newport Beach, California, August 1997.

[KR90] L. Kaufman and P. J. Rousseeuw. “Finding Groups in Data: an

Introduction to Cluster Analysis”. John Wiley & Sons, 1990.

[MAC67] J. MacQueen. Some Methods for Classfication and Analysis of

Multivariate Observations. In Proceedings of the 5th Berkeley symposium on Mathematical Statistics and Probability, 281-297, Berkeley, CA., 1967

[NB] http://www.slug.it/naufraghi/ingegneria/classificatore-naive-bayes/

[ORS98] B. Ozden, S. Ramaswamy and A. Silberschatz. Cyclic Association Rules.

In Proceedings of the 14th International Conference on Data Engineering (ICDE),

412-421, Orlando, FL., 1998.

[PCY95] J. S.Park, M. S. Chen, and P. S. Yu. An Effective Hash-based Algorithm

for Mining Association Rules. In Proceedings of the ACM-SIGMOD 1995

[Q86] J.R. Quinlan. Induction of Decision Trees. Machine Learning, 1 (1) : 81-106,

1986.

[Q93] J. R. Quinlan. C4.5: Programs for Machine Learning. Morgan Kaufmann.

San Francisco, CA., 1993.

[SON95] A. Savasere, E. Omiecinski and S.B. Navathe. An Efficient Algorithm for

Mining Association Rules in Large Databases. In Proceedings oh the 21st

International Conference on Very Large Database (VLDB), 432-444, Zurich,

Switzerland, 1995.

[WB98] C. Westphal and T. Blaxton. Data Mining Solutions. Methods and Tools

for Solving Real-Word Problems. John Wiley & Sons, Inc. New York, 1998.

[WEKA] Weka 3: Data Mining Software in Java

(http://www.cs.waikato.ac.nz./ml/weka).

[WF00] I.H. Witten and E. Frank. Nuts and Bolts: Machine Learning Algorithms in

Java. In Data Mining: Practical Learning Tools and Techniques with Java

Implementations, 265-320, Morgan Kaufmann, San Francisco, Ca., 2000.

[WYM97] W. Wang, J. Yang and R. R. Muntz. STING: A Statistical Information

Grid Approach to Spatial Data Mining. In Proceedings of the 23rd International Conference on Very Large Databases (VLDB), 186-195, Athens, Greece, 1997.

[XERCES] http://xml.apache.org/xerces-c/

[XML] http://xml.html.it/

[XML-SCHEMA] http://xml.html.it/articoli/leggi/46/xml-schema-e-documenti-

xml/

[ZDN97] Y. Zhao, P. M. Deshpande, and J. F. Naughton. “An array-based

algorithm for simultaneus multidimensional aggregates”. In Proc. 1997 ACM-

SIGMOD Int. Conf. Management of Data, pag 159-170, Tucson, Arizona, May 1997.