• Non ci sono risultati.

Realizzazione di un motore di ricerca semantico basato sul contesto

N/A
N/A
Protected

Academic year: 2021

Condividi "Realizzazione di un motore di ricerca semantico basato sul contesto"

Copied!
23
0
0

Testo completo

(1)

Realizzazione di un motore di ricerca semantico basato sul contesto

Tesi di laurea in Informatica

Università degli studi di Modena e Reggio Emilia

Dipartimento di Scienze Fisiche, Matematiche e Informatiche

Anno Accademico 2013/2014

Relatore:

Ing. Riccardo Martoglia

Laureando:

Marco Valerio Manzini

(2)

AMBIT  “Algorithms and Models for Building context- dependent Information delivery Tools”

 Obiettivi :

Studiare e Sviluppare un’architettura software prototipale:

Fornire servizi personalizzati ad utenti in base al contesto

Soddisfare l’User Information Need

Il Progetto AMBIT

(3)

Ideare tecniche di ricerca per :

- Trovare il ranking ottimale delle pagine del sito di e-commerce, in linea con il contesto dell’utente

Obiettivo della tesi

(4)

Scenario del motore di ricerca

Profilo

dell’utente Sito di e-commerce

PAGINE CONSIGLIATE RICHIESTA

Cronologia Prodotti

(5)

1. Progettazione e Implementazione

2. Prove sperimentali e Risultati

3. Conclusione e Sviluppi Futuri

Realizzazione di un motore di ricerca

semantico basato sul contesto

(6)

Tipi di pagine web

COGITO

Espressioni regolari

(7)

Estrazione dei termini dal testo

Termini rilevanti Libreria Python

Classi IPTC*

ENTITIES DOMAINS

MAINLEMMAS Es pre ssi on i

reg ola ri

*Internation Press Telecomunication Council

http://cv.iptc.org/newscodes/mediatopic

(8)

Generazione dei glossari dei termini

Termini rilevanti

Termini rilevanti

Termini rilevanti

Entities Domains Mainlemmas

Termini rilevanti

Entities Domains Mainlemmas

Glossario Profilo

Glossario Pagine sito Glossario

Pagine sito Glossario

Profilo

Array Termine, TF DictTermine : IDF

Struttura

(9)

Generazione degli Inverted Index

Glossario Pagine sito

Glossario Pagine sito

Dict  Termine : Documenti Dict  Termine : TF

Dict  Termine : Sinonimi Dict  Termine : Correlati

Inverted Index Inverted Index

Struttura

(10)

Scelta cruciale  Numero di termini sinonimi e contrari

◦Per una misura di similarità e un ranking corretto

Vincoli tramite WordNet:

◦SINONIMI  Tutti quelli che hanno un numero di significati uguale a 1.

◦CORRELATI  Tutti quelli ad una distanza minore o uguale a 2 sull’albero degli iponimi e degli iperonimi.

Scelta del numero di sinonimi e

correlati

(11)

Similarità - Modello Vettoriale Esteso *

PC, 3 Computer, 2 Mouse, 1 Keyboard, 1 Vettore profilo

TV, 3 Computer, 2

Television, 3 Screen, 2 PC, 3 Mouse, 2 Vettore pagina

Sinonimo Correlato Sinonimo Correlato

Score =(3*3*1) + (2*2*1) + (1*2*0,7) + 0 = 14,4

PC Computer Mouse Keyboard

* Sonia Bergamaschi, Riccardo Martoglia, and Serena Sorrentino.

A semantic method for searching knowledge in a software development context. In SEBD, pages 115–122, 2012.

(12)

Similarità costruite:

Con solo i termini uguali  TF-IDF puro  BASELINE

Con termini uguali, sinonimi e correlati

◦Con solo i termini uguali e sinonimi

Similarità - Modello Vettoriale Esteso

(13)

Similarità - Classi IPTC

IPTC/Televisione , 600 IPTC/Cinema , 300

IPTC/Televisione , 200 IPTC/Intrattenimento/Musica , 500 Classi del profilo

Classi di una pagina del sito di e-commerce

Score =(600*1) + (0,52) + (0,70) + (0,52) = 601,74

1 2 3

3

- log 10 (distanza/2*H)

(14)

Passo preliminare  normalizzare score

◦Somma dei singoli score

◦Ogni singolo score diviso per la somma precedente

Ranking Fusion – Normalizzare score

(15)

Ranking Fusion – Algoritmo pesato WE *

 len(i)+1  lunghezza dell’i-esimo ranking

 e(i)  posizione dell’elemento all’interno del ranking

 r(i)  punteggio dell’elemento nell’ i-esimo ranking

 n  ranking che includono l’elemento

 m  ranking coinvolti nel fusion

 k  numero totale di oggetti all’interno del ranking

 max(len(r))  lunghezza massima tra i ranking da fondere

Risultato  ranking influenzato dalle posizioni [len(i)+1 – e(i)] e dai pesi degli elementi r(i) .

* Leonidas Akritidis, Dimitrios Katsaros, and Panayiotis Bozanis. Effective ranking fusion methods for personalized metasearch engines. In Informatics, 2008. PCI’08. Panhellenic Conference on, pages 39–43. IEEE, 2008.

(16)

1. Progettazione e Implementazione

2. Prove sperimentali e Risultati

3. Conclusione e Sviluppi Futuri

Realizzazione di un motore di ricerca

semantico basato sul contesto

(17)

Sito di e-commerce

12 pagine web da amazon.com :

 3 Televisori (TV1, TV2, TV3)

 3 Videogiochi(GAME1, GAME2, GAME3)

 3 Libri (BOOK1, BOOK2, BOOK3)

 3 Cellulari (CELL1, CELL2, CELL3)

Set di dati

(18)

Ranking delle pagine del sito di e-commerce per il profilo dell’ utente 1 alla ricerca di una TV

0.0000 0.0500 0.1000 0.1500 0.2000 0.2500 0.3000 0.3500 0.4000 0.4500

MVE HTML MVE XML Classi IPTC Ranking Fusion Pagine del sito di e-commerce

Sc or e di s im il ar it à ot te nu to

1 – TV2

2 – TV1

3 – GAME3

4 – BOOK1

5 – GAME1

6 – CELL1

7 – TV3

8 – BOOK3

9 . CELL3

10 – BOOK2

11 – GAME2

12 – CELL2

(19)

Ranking delle pagine del sito di e-commerce per il profilo dell’ utente 2 interessato ai

prodotti Sony

0.0000 0.0500 0.1000 0.1500 0.2000 0.2500 0.3000

MVE HTML MVE XML Classi IPTC Ranking Fusion Pagine del sito di e-commerce

Sc or e di s im il ar it à ot te nu to

1 – GAME3

2 – GAME2

3 – GAME1

4 – BOOK3

5 – CELL3

6 – CELL2

7 – TV1

8 – BOOK2

9 – BOOK1

10 – TV3

11 – CELL1

12 – TV2

(20)

1. Progettazione e Implementazione

2. Prove sperimentali e Risultati

3. Conclusione e Sviluppi Futuri

Realizzazione di un motore di ricerca

semantico basato sul contesto

(21)

Motore di ricerca semantico basato sul contesto :

Conclusioni

Algoritmo di

similarità basato sul modello spazio vettoriale esteso

Algoritmo di similarità basato sulle classi IPTC

Ranking Fusion

Specifico Ottimale Generale

(22)

Ampliamento del set di dati e prove sperimentali

Parallelizzazione della creazione di glossari e inverted index

Uso di altri contesti ( GPS, Facebook, ecc…)

Introduzioni di tecniche di Word Sense Disambiguation (WSD)

Sviluppi Futuri

(23)

GRAZIE A TUTTI PER L’ATTENZIONE

Riferimenti

Documenti correlati

Since the majority of observed systems are consistent with equal mass, the mass ratio posterior for GW190412 pushes closer towards equal mass when using a population-informed

Occorre considerare una forte endogeneità di questa misura rispetto alla performance complessiva del sistema: un miglio- ramento della qualità dei servizi e una riduzione

Fingleton B 1998b Regional economic growth and convergence : insights from a spatial econometric perspective, paper presented at Regional Science Association conference, Santa Fe,

Scatola con legacci in fettuccia bianca, piatti di cartone ricoperti esternamente con carta effetto marmorizzato di colore verde-nero e lati in legno ricoperti di carta

Questo discorso non vale solo per l’autismo, ma anche per molte persone che vivono all’interno di comunità come i centri di salute mentale: in questo caso i problemi sono diversi da

In quanto insieme dei fenomeni, la natura è resa possibile dalla struttura intrinseca della sensibilità, per cui le sensazioni sono colte e ordinate secondo le forme a

Il progetto MEISAR intende, inoltre, affiancare le attività del progetto del consorzio Sportium, selezionato per il nuovo Stadio del Cagliari Calcio, studiando la

L’ascesa politica del fascismo e i consensi raccolti da Mussolini anche in autorevoli ambienti cattolici e popolari fecero giudicare inopportuna, all’interno del movimento