• Non ci sono risultati.

Google Alerts

Nel documento d x,f = tf x,j log df j (pagine 3-0)

1.3 Personalized Sear h

1.3.1 Google Alerts

dove

N

èladimensione della ollezionepredenita e

df j

(do ument frequen y) è ilnumero dio orrenze

del termine

j

all'interno della ollezione. Tale te ni a si hiama TFxIDF (term frequen y x inverse do ument frequen y).

Inne si ri ava la similarità Solitamente si utilizza la osine rule. Ad esempio, dati i termini

T j

, il

vettore tridimensionale di esempio

v 1 = 2T 1 + 3T 2 + 5T 3

e un se ondo vettore analogo

v 2

, si al ola la

similitudine attraverso il al olo del oseno dell'angolo tra due vettori. dove il prodotto s alare si

nor-malizza rispettoallalunghezza deivettori,inmododa renderelasimilaritàindipendentedalla lunghezza

(misurata onil numero termini distinti) deido umenti.

1.2.3 Google

L'ar hitettura diGoogle è osì organizzata:

1. l'URLServerinvia leurls da visitareai rawler

2. loStoreServer le ompatta(zlib RFC1950) ele memorizzanelRepositoy

3. l'Indexer per ogni pagina estrae una lista di hits (parole+pos+font+et ) he viene salvate nei

Barrels he ontengono un forward index (per ogni do la lista degli hits), e i link; le parole

vengonoinserite nel vo abolario Lexi on.

4. il Sorter real'inverted index

5. il Sear heresegue laquery

1.3 Personalized Sear h

Utilizzareunmodello degliinteressidell'utenteperrendereunari er apiùpre isaeaumentare ilnumero

dido umenti diinteresse. Nel99% dei asi esiste un modulodiUser Modeling he ontiene una

rappre-sentazione dei on etti di interesse per l'utente, on un erto input per ostruirlo e tenerlo aggiornato.

Come vantaggiaiuta a risolvereproblemi dipolisemia esinonimia, e puòfornire adattabilità.

1.3.1 GoogleAlerts

L'utentesuggeris eespli itamenteiterminidi uièinteressatoIlmotorelan iaperiodi amentelaquerysu

Newse/oWebeirisultativengonoinviativia email. Utileperbisogniinformativimolto stabili. Nessuna

adattività.

Esistono due possibili tipi didati:

User Data informazioni su aratteristi he personali dell'utente

Usage data informazionisulleinterazioni dell'utente

Per ostruire etenere aggiornatolo UserModel 'èbisogno diunfeedba kesterno.

Expli it (Relevan e) Feedba k l'utentesuggeris edo umenti/parole diinteresse

Impli it Feedba k ilsistemamonitorizza il omportamento dell'utente

Una te ni a orrelata alExpli itFeedba kè laQuery expansion: un sottoinsiemedi termini estratti dai

do umenti vengonoaggiuntialla query,in rementando(disolito) lapre isione deirisultati.

Gliuser prolepossonoessere sfruttati induemodi:

Partof retrievalpro ess il ranking è un pro esso uni ato. in ui gli user prole sono impiegati per il

punteggio dei ontenuti Web (piùvelo e, mauser modelsempli ati)

Re-ranking : gliuserprolevengonoimpiegatiinunse ondostep, dopo heilpunteggio èstato al olato

da un metodo nonpersonalizzabile (migliori risultati, mao orrerianalizzare tutti ido umenti)

Ipossibiliappro i disponibili:

Content-based invia ra ondazioni all'utente ( ome gli IRtradizionali)

Current Context si analizza il ontesto dell'utente, ome appli azioni aperte, do umenti

visualiz-zati, testoimmesso, et .

Sear h History La browsing/query history può disambiguare il termine Visa: se l'utente

ultima-mente ha er ato voliperunpaese straniero,Visa riguarderàpro edura puro rati he.

Ri h UserModels UM on rappresentazionipiù omplessedei needs(ad es.reti neurali)

Hypertextual Data Versioni personalizzate dialgoritmi he assegnanounrank alle pagine Web in

base allastruttura deilinks,e.g., PageRank, HITS.

Content Presentation organizzare la lista dei risultati in luster (gra i) ontenenti do umenti

ani a un erto topi (Vivisimo)

Collaborative-based al olalesimilarità ( ome Amazon)

Collaborative Approa h si suggeris ono do umenti he altri on gli stessi needs (query) hanno

selezionato inpassato

2 Text Categorization

La ategorizzazioneprendeininput: unades rizionediunaistanza,

x ∈ X

,dove

X

è l'istanzalinguaggio

o spazio dell'istanza, un numero ssato di ategorie

C = {c 1 , c 2 , . . . c n }

. In output: la ategoria di x:

c(x) ∈ C

,dove

c(x)

èuna funzione di ategorizzazione he ha omedominio

X

e ome odominio

C

.

L'esempio di apprendimento è espresso on la oppia

< x, c(x) >

. Dato un insieme di esempi di

apprendimento

D

,trovareuna ipotizzatafunzione di ategorizzazione

h(x)

tale he:

∀ < x, c(x) >∈ D : h(x) = c(x)

Il Text Categorizationassegna do umenti ad uninsieme ssato di ategorie. Una ategoria può essere

rappresentataattraverso (ad esempio) onil TF/IDF.

2.1 Algoritmo di apprendimento Ro hio

Usiamo lostandard diindi izzazione TF/IDF perrappresentare informa vettorialeido umenti ditesto

(normalizzati se ondo lafrequenzamassimadiun termine).

Per ogni ategoria, viene elaborato un vettore Prototipo dalla somma dei vettori di training nella

ategoria.

Assegnamo il do umento ditest alla ategoria ol vettore prototipo piùvi ino mediantela regola di

L'apprendimento siridu ealmododiimmagazzinarelerappresentazionidegliesempiditrainingin

D

. Il

test dell'istanza

x

:

elaboralasimilaritàtra

x

e tutti gliesempi in

D

.

assegna ad

x

la ategoriadelpiùsimile in

D

.

Quindi,a dierenza delRo hio, non si al olano espli itamenteiprototipi delle ategorie. Iprototipi

del Ro hiopossono avere problemi on ategorie disgiunte, mentre Nearest Neighbor tendead avere in

tal asoun omportamento migliore.

2.3 Algoritmo di apprendimento Bayesiano

Consistenell'apprenderee lassi aremedianteappro iprobabilisti i. IlteoremadiBayesgio aunruolo

riti o nell'apprendimento e lassi azione.

Sapendo he laprobabilità di

A

ondizionataa

B

èpari a:

P (A|B) = P (A ∩ B) P(B)

il teorema di Bayes esprime laprobabilità ondizionatarispetto allospazio degli eventi

A 1 , A 2 , . . . , A n

:

P (A 1 |B) = P (B|A 1 )P (A 1 )

P (B) = P (B|A 1 )P (A 1 ) P n

i=1 P (B|A i )P (A i )

Dati l'insieme delle ategorie

{c 1 , c 2 , . . . c n }

ed una des rizione di un'istanza, determina il grado di appartenenzadi

E

perogni

c i

.

P (E)

puòesseredeterminatasolosele ategoriesono ompleteedisgiunte.

2.4 Reti Neurali

Unareteneuronale onsisteinunpooldisempli ipro essielementari he omuni anofralorospedendosi

segnaliattraversonumerose onnessionipesate. Unareteastratosingolo onsisteinunoopiùneuroni di

output, ognuno dei qualiè onnesso on un fattore peso

w ij

atutti gliinput

x i

. Inquesta sempli erete

(il neurone)può essereusatopersepararegli inputindue lassi. Ipesidella reteneuralesonomodi ati

durantelafase dilearning

Si utilizza un per ettrone per ogni ategoria Learning sui do umenti di training della sua ategoria.

Durante la fase di test, il per ettrone fornis e un valore VERO/FALSO sull'appartenenza del vettore

rappresentativo ildo umento alla ategoria.

2.5 Valutare la ategorizzazione

Esistono dueparametri a ettati dalla omunitàIR:

Pre ision l'abilità nelrestituirei do umenti he sonopiùrilevanti

Re all l'abilità nelrestituire tutti ido umentirilevanti nell'intero dominio

2.6 Be MoRe

BeMoRe (BestModelRetrieval) èuna nuova metodologia di lassi azione ditesti.

Ilprepro essingprevede diverse fasi:

Suddivisione in Token L'NLPNaturalLanguagePro essing onsistenell'analizzareunafrasein

linguag-gionaturale,eseguireilparsingedappli arelostemming,noadestrarneinomieiverbi. Ilsistema,

mediante ildizionarioWordNet,assegna adognisigni ato un odi enumeri ounivo o. Dopoaver

eseguito gli algoritmi di word sense disambiguation, ad ogni nome della frase viene sostituito il

odi e delsigni ato he è risultatoesseremigliore.

Compressione prevededue fasi:

1. si appli a laTFxIDFper minimizzareilrumore

2. siappli a laEditDistan e per al olare lasomiglianzamorfologi a(suGoogleforse er avi:)

La dimensione dello spazio dei termini può ostituire un problema per hé gli algoritmi di learning non

s alano fa ilmente sugrandivaloridella dimensione. Seladimensioneèaltaspessosiveri ano fenomeni

diovertting. Abbiamo due s elte:

Riduzione lo ale(un insieme ditermini diversoper ias una ategoria)

Riduzione globale(il setditermini è valido perqualunque ategoria)

Alla ne dovremo trovarel'iperpiano separatore ottimo dell'insieme di training. Come formalizzare? In

due dimensioni, l'equazione della linea è data da:

w 1 x + w 2 y = b

Se l'iperpiano separatore non esiste, ovvero se i dati non sono linearmente separabili per la presenza di rumore, si possono usare le Sla k

variables, he onsentonola lassi azionenon orrettadial uni punti,tenendo ontodelrumoreneidati

L'OnLine Hyperplane onsente la ri er a in rementale della soluzione ottima. Gli elementi positivi

e negativi sono rappresentati on pesi diversi. È una Loss fun tion a basso osto omputazionale La

onvergenza è garantita dall'estensione delteoremadiNoviko.

Ereditando al une aratteristi he matemati he delle SVM, il sistemasi avvale diun modulo dikernel

perrisolvereil problemadiseparabilità non lineare.S elta delkernel miglioreattraverso modelsele tion.

L'uso della funzione kernel onsente di al olare l'iperpiano di separazione senza bisogno di eettuare

espli itamente ilmapping in

F

3 Fo used Crawling

3.1 Introduzione

Ladinami itàeledimensionidelWebnon ipermettonodi ostruiregrandibasidiinformazioniaggiornate

suqualsiasiargomento (motoridiri er a) apa idisoddisfaree a ementeevelo ementequalsiasiquery.

I normali rawler terminano periodi amente l'esplorazione e ri omin iano da apoper tenere aggiornate

le opiedelle pagine Web.

Obiettivo: partendo da una serie dipagine di partenza, navigando attraverso i link, s egliere divolta

in volta iper orsi giudi ati migliori, ridu endo le risorse ne essarie ( pue network) per analizzare tutte

le pagine, evitando di seguire i per orsi he lo portano a pagine non ani alla nostra query. Vantaggi:

più overage sullerisorse diinteresse,piùfreshness neirisultati, e unmat hingpiùsosti ato.

Il Fo used (o Intelligent) Crawling può essere usato per ostruire indi i inversi su erti topi in

alter-nativa a

meta-sear hing interroga motoridiri er aesistenti

query-time rawling avviare rawlingsul Web adogni query

query-modi ation non si ostruis e unindi e masimodi alaquerye lasiinoltra amotori diri er a

diesistenza

Nella prati asidevestabilire l'ordine delle prossimepagineda visitare,inmodo da indirizzare

l'esplora-zione sempreverso iper orsipiùinteressantiInformazioni da sfruttare:

1. ontenuto pagine visitate

2. an ore testuali deilinknelle pagine

3. struttura deilinktra pagine

3.2 Analisi del World Wide Web

Le pagine Web diun erto topi in genere possiedono linkad altre dello stesso topi (Linkage o Topi al

Lo ality).

Nella Web So ial Network Analysis oltre al ontenuto testuale delle risorse si sfruttano an he le

informazioni ontenute negli hyper-links.

Isu essivialgoritmi posso essereusati perdiversi s opi:

re-ranking deirisultatidiun motorediri er ainbase alleinformazioni estratte dailinks

analizzare lastruttura e ladinami a delWeb

indirizzare il rawlingdeimotori diri er averso lerisorse piùinteressanti (e.g. piùaltorank)

Un linkpuòessereletto omeunaindi azione diautorevolezza he hil'ha reato (autore dellapagina)

vuole dare alla pagina puntata. Sipotrebbe per iò pensare diaumentare l'importanza delle pagine on

molti linkentranti(ba k-link ount).

Ma osì ilimitiamoa onsideraresololapopolarità assolutadiunapaginasenzametterlainrelazione

on un ertoargomento e on laqualità della paginagenitore.

HITSsibasasullarelazionetrapagineautorevoli(authoritative pages)perun erto topi ,epagine he

puntanoamoltepagine autorevoli (hubs). Se moltepaginedigeo ities puntanoa java.sun. om, allorale

pagine digeo itiessono hub,mentre java.sun. om è una paginaautorevole.

Unapaginaèritenuta importante (altaauthority) seri evemoltilinkdapagineimportanti( onalta

hubness). Di onseguenza e pagine hubs hanno la aratteristi a di puntare a molte pagine importanti.

Hubness e authoritysono2 misure orrelate he vengono al olate una infunzionedell'altra:

authority(p) = X

L'insieme dipaginevieneordinato perauthority. Lehubs sonovalidipunti dipartenza per esplorazioni.

3.2.2 PageRank

Adognipaginasiassegnaunasingolamisura(rank)Unapaginahaaltorankseèaltoilrankdellepagine

he lapuntano:

Il rankpuò essere visto ome la probabilità he siselezioni lapagina

p

. La

d

indi a laprobabilità he l'utente selezioniun'altrapagina.

3.2.3 HyperInformation

Unapaginaipertestualehaunvalore henondipendesolodalsuo ontenutotestuale,maan hedailinkivi

ontenuti. Sevi trovateinunapagina da uipotete raggiungernealtre paginedivsinteresse,lapaginaè

moltoimportante. Quandoo orrevalutareunapagina,si onsideraan helamisuradiHyperInformation

he tiene onto della presenza dei link:

Inf ormation(A) = T extInf o(A) + HyperInf o(A) HyperInf o(A) = F 1 · T extInf o(B 1 ) + F 2 · T extInf o(B 2 )

on

0 < F < 1

lafrazione della informazione testualeraggiungibile.

3.3 Fo used Crawlers

3.3.1 Chakrabarti's Fo usedCrawler

Il Chakrabarti's Fo usedCrawler èun sistemadi rawling autonomo perlari er a dirisorse inerentiun

erto topi (rappresentato daun setdipagine inizialifornite dall'utente).

È omposto da 2sotto-sistemi:

Classier determina larilevanza deido umenti rispettoaltopi diinteresse

Sfrutta una tassonomia gerar hi a (Yahoo!) di ategorie

C

per individuare gli argomenti he più interessano l'utente

1. L'utente suggeris elepagine diinteresse

2. Ilsistemaproponele ategorie

C ⊂ C

piùani onalgoritmidimat hingtestuale(e.g. Ve tor

spa e model)

3. L'utente eventualmente ranale ategorie(s egliendoquelle piùgenerali oparti olari)

4. Le lassi nalivengonomar ate ome good.

Duranteil rawling, ad ognipagina he sivisitavieneasso iata la ategoriapiùspe i a

c

. Seuno

dei nodi neigenitori di

c

è mar ato ome good,allora la pagina non viene ignorata. Ad esempio,

se mi interessano le GT, e se il rawler ha trovato una pagina sulla Maserati, la onsidero buona

omunqueper hé è ontenuta inGT.

Distiller identi a ilink he devono esserevisitati perprimidal rawler.

Sfrutta HITS per individuare le risorse più importanti. Periodi amente viene eseguito l'algoritmo

perindividuarelepaginere uperate onpiùalto hubs,dopodi hési estraggonoilinkivi ontenuti,

e siinseris ono nella odadelle risorse da visitaredel rawler.

3.3.2 IBM'sIntelligent Crawler

Si adatta alle risorse visitate durante il rawling stimando se una pagina è interessante per mezzo di

algoritmi dima hine learning. Non ne essita quindidel lassi atore on la gerar hia ome nel fo used

rawling

P (C)

èla prob he una paginasia diinteresse.

E

sono ifatti he onos iamo riguardanti le andidate urls (testo pagine he le puntano, urls, testo an ore, et ). Esempio: er hiamo pagine su Ba h. 0.3%

di pagine di interesse. Ma se la parola eshop ompare in una pagina he ha un link verso quella di

interesse,laprobabilità aumenta noal10%. La onos enza

E

puòaumentare laprob he una andidate

url soddisil predi ato.

P(C|E) > P (C)

nell'esempio infattirisulta

0.1 > 0.003

3.3.3 Agent-based Fo used Crawling

Sistemi diri er aadattativi, he prendonospunto dalparadigmadiprogrammazione Ant System:

Come ries ono gli animali a trovare il ammino e a oordinarsi? Quando una formi a trova

ibo,las iadelletra e diferomonepermar areilper orso,inmodotale helealtreformi he

possano trovarlo.

Si ha un'ar hitettura reattiva formata da un numerosi ant-agent he vagano in ambiente di

risor-se ipertestuali. Ogni agente ha sempli i omportamenti di basso livello he reagis ono a ambiamenti

nell'ambiente. Le informazioni disponibili perun agente sono:

1. il risultatotralaquery dell'utente elarisorsa orrente

2. l'intensità deivalorisui ammini diferomone, orrispondenti ailinkus enti

L'ese uzionedel sistemasidividein i li:

1. inogni i lo gliagenti ompionouna sequenzadimosseda unarisorsa a un'altra

2. alla ne del i lo,ogni agente aggiorna letra e di feromone delper orsoeettuato omefunzione

dei punteggi pervenutisulle risorse.

3. ad ogninuovo i lo, vieneposizionatol'agente inuna delle risorse iniziali

4. seunatra iaesiste,l'agentede idediseguirla onunaprobabilitàfunzionedellarispettivaintensità

diferomone

5. senon esiste al unatra ia, l'agentesi muove asualmente

Se due per orsi portano a una pagina interessante, iprimi agenti he raggiungono quella pagina sono

gli uni i he hanno seguito ilper orsopiù orto,e quindisono iprimi arilas iare il feromone he attrae

gli agenti su essiviallo stesso per orso.

Il sistemamostradue forme diadattività:

1. ranamentidella queryutente durante l'ese uzione

2. alterazione del ontenuto delle risorse

3.4 Geneti -based Fo used Crawling

Una popolazione res ente di agenti intelligenti esploranoil Web guidati dalle query utente. Una

popo-lazionedi romosomi odi ati dauna parti olarestruttura datievolvono versouna soluzionepotenziale

attraverso un insieme di operatori generi i. I romosomi he arrivano più vi ini alla soluzione migliore

hanno maggiori probabilità divivere eriprodursi.

Los opoè diimitare l'esplorazioneumana on interazionebassa onulla.

Igenotipi(1)sonouninsieme di romosomi he determinanoil omportamento diri er adegli agenti.

È formato da:

un insieme diparole hiave

K

inizializzate on itermini diquery.

unvettoredipesi

W

, orrispondentiall'informazionememorizzatainunareteneurale,utilizzataper giudi are qualiparole hiave nelprimo insieme dis rimanomeglio ido umentirilevanti all'utente

4 Computer Vision

La Visione Arti iale(o Computer Vision oPattern Re ognition) si o upa dell'analisie

dell'interpreta-zione delle immaginidigitali(perpermetteread un omputer di apire osastaguardando).

Le appli azioni prati he sonoil re uperod'immagini in database visivi (Image Retrieval) datala

re-s entediusionediar hivid'informazionees lusivamentevisiva(musei,ar hivifotogra i,e- ommer e...).

Visione appli ata alla roboti a. Sorveglianza automati a (tramite tele amere o altri dispositivi). Guida

automati a divei oli su strada. Visione industriale, medi a,aerea, ...

Al uni sotto ampi:

low-levelvision apartiredaun'immagine

I

vieneprodottaunase onda immagine

M (I)

data dall'appli- azione diltripuntuali e/o lo ali. Sitratta quindidiuna trasformazione dell'immagine.

medium-level vision estrazione di predeterminate aratteristi he dall'immagine. Dall'immagine

I

(o da

M (I)

) sipassa adun insieme di aratteristi he

F = {f 1 , . . . , f n }

high-level vision interpretazione dell'immagine(qualioggettisonopresentioqualirelazioni inter orrono

traessi)

La onos enzadel sistema generalmente è di tipo modellisti o (model based) oppure appresa attraverso

te ni he dima hine learning.

Iproblemi prin ipalinelri onos imento diimmagini:

Condizioni di illuminazione he produ ono una variazione nella distribuzione dell'intensità luminosa

della s ena.

Trasformazionigeometri he rigide dell'oggetto(in ordinedidi olta res ente):

1. roto-traslazioni e s alamenti in2D,

Rumore

Gap tipoparti olare dirumore onsistente nella man anza dielementinell'immagine.

O lusione

Segmentazione partizionamento deidati diinputinentita semanti he distinte(linee, regioni, oggetti).

Indexing eettuare una ri er ae iente inun atalogo dimodelli.

Identi azione ri onos erel'istanzadi unoggetto inun'immagine.

Oggetti non rigidi (forbi i, volti umani, ...). Il lorori onos imento è ompli atodalla possibilita heha

la loroforma divariare.

Classi azione ri onos erel'appartenenza aduna data lassediun oggetto inun'immagine.

4.1 Il problema della segmentazione

Col termine segmentazione in Computer Vision si intende un qualsiasi partizionamento dell'immagine

(o della sequenza video)ininsiemiomogeneirispetto aduna qual he aratteristi aper ettiva.

E importantesottolineare la trasversalita ditale denizione, ovveroil fatto he essa puo essere (edin

eetti è)appli ata avarilivelli dipro essamento.

Nella low-level vision, on segmentazione si intendono quei pro essi data-driven (dipendenti solo dai

dati) he permettono, ad esempio, dipartizionare un'immagine in base al olore o un video inbase alla

luminosita della s ena

In high-level vision, lasegmentazione e uno dei problemi nora insormontabili per un ri onos imento

eettivodegli oggettirappresentati inun'immagine poi hé ène essario he ilsistema apis a he isono

N

oggetti distinti. Un oggetto, in sostanza, e un on etto semanti o e non una primitiva per ettiva ome il olore eil suori onos imento non puo hedipenderedaimodellidioggettiinmemoria(oltre he

N

oggetti distinti. Un oggetto, in sostanza, e un on etto semanti o e non una primitiva per ettiva ome il olore eil suori onos imento non puo hedipenderedaimodellidioggettiinmemoria(oltre he

Nel documento d x,f = tf x,j log df j (pagine 3-0)

Documenti correlati