1.3 Personalized Sear h
1.3.1 Google Alerts
dove
N
èladimensione della ollezionepredenita edf j (do ument frequen y) è ilnumero dio orrenze
del termine
j
all'interno della ollezione. Tale te ni a si hiama TFxIDF (term frequen y x inverse do ument frequen y).Inne si ri ava la similarità Solitamente si utilizza la osine rule. Ad esempio, dati i termini
T j, il
vettore tridimensionale di esempio
v 1 = 2T 1 + 3T 2 + 5T 3 e un se
ondo vettore analogo v 2, si
al
ola la
similitudine attraverso il al olo del oseno dell'angolo tra due vettori. dove il prodotto s alare si
nor-malizza rispettoallalunghezza deivettori,inmododa renderelasimilaritàindipendentedalla lunghezza
(misurata onil numero termini distinti) deido umenti.
1.2.3 Google
L'ar hitettura diGoogle è osì organizzata:
1. l'URLServerinvia leurls da visitareai rawler
2. loStoreServer le ompatta(zlib RFC1950) ele memorizzanelRepositoy
3. l'Indexer per ogni pagina estrae una lista di hits (parole+pos+font+et ) he viene salvate nei
Barrels he ontengono un forward index (per ogni do la lista degli hits), e i link; le parole
vengonoinserite nel vo abolario Lexi on.
4. il Sorter real'inverted index
5. il Sear heresegue laquery
1.3 Personalized Sear h
Utilizzareunmodello degliinteressidell'utenteperrendereunari er apiùpre isaeaumentare ilnumero
dido umenti diinteresse. Nel99% dei asi esiste un modulodiUser Modeling he ontiene una
rappre-sentazione dei on etti di interesse per l'utente, on un erto input per ostruirlo e tenerlo aggiornato.
Come vantaggiaiuta a risolvereproblemi dipolisemia esinonimia, e puòfornire adattabilità.
1.3.1 GoogleAlerts
L'utentesuggeris eespli itamenteiterminidi uièinteressatoIlmotorelan iaperiodi amentelaquerysu
Newse/oWebeirisultativengonoinviativia email. Utileperbisogniinformativimolto stabili. Nessuna
adattività.
Esistono due possibili tipi didati:
User Data informazioni su aratteristi he personali dell'utente
Usage data informazionisulleinterazioni dell'utente
Per ostruire etenere aggiornatolo UserModel 'èbisogno diunfeedba kesterno.
Expli it (Relevan e) Feedba k l'utentesuggeris edo umenti/parole diinteresse
Impli it Feedba k ilsistemamonitorizza il omportamento dell'utente
Una te ni a orrelata alExpli itFeedba kè laQuery expansion: un sottoinsiemedi termini estratti dai
do umenti vengonoaggiuntialla query,in rementando(disolito) lapre isione deirisultati.
Gliuser prolepossonoessere sfruttati induemodi:
Partof retrievalpro ess il ranking è un pro esso uni ato. in ui gli user prole sono impiegati per il
punteggio dei ontenuti Web (piùvelo e, mauser modelsempli ati)
Re-ranking : gliuserprolevengonoimpiegatiinunse ondostep, dopo heilpunteggio èstato al olato
da un metodo nonpersonalizzabile (migliori risultati, mao orrerianalizzare tutti ido umenti)
Ipossibiliappro i disponibili:
Content-based invia ra ondazioni all'utente ( ome gli IRtradizionali)
Current Context si analizza il ontesto dell'utente, ome appli azioni aperte, do umenti
visualiz-zati, testoimmesso, et .
Sear h History La browsing/query history può disambiguare il termine Visa: se l'utente
ultima-mente ha er ato voliperunpaese straniero,Visa riguarderàpro edura puro rati he.
Ri h UserModels UM on rappresentazionipiù omplessedei needs(ad es.reti neurali)
Hypertextual Data Versioni personalizzate dialgoritmi he assegnanounrank alle pagine Web in
base allastruttura deilinks,e.g., PageRank, HITS.
Content Presentation organizzare la lista dei risultati in luster (gra i) ontenenti do umenti
ani a un erto topi (Vivisimo)
Collaborative-based al olalesimilarità ( ome Amazon)
Collaborative Approa h si suggeris ono do umenti he altri on gli stessi needs (query) hanno
selezionato inpassato
2 Text Categorization
La ategorizzazioneprendeininput: unades rizionediunaistanza,
x ∈ X
,doveX
è l'istanzalinguaggioo spazio dell'istanza, un numero ssato di ategorie
C = {c 1 , c 2 , . . . c n }
. In output: la ategoria di x:c(x) ∈ C
,dovec(x)
èuna funzione di ategorizzazione he ha omedominioX
e ome odominioC
.L'esempio di apprendimento è espresso on la oppia
< x, c(x) >
. Dato un insieme di esempi diapprendimento
D
,trovareuna ipotizzatafunzione di ategorizzazioneh(x)
tale he:∀ < x, c(x) >∈ D : h(x) = c(x)
Il Text Categorizationassegna do umenti ad uninsieme ssato di ategorie. Una ategoria può essere
rappresentataattraverso (ad esempio) onil TF/IDF.
2.1 Algoritmo di apprendimento Ro hio
Usiamo lostandard diindi izzazione TF/IDF perrappresentare informa vettorialeido umenti ditesto
(normalizzati se ondo lafrequenzamassimadiun termine).
Per ogni ategoria, viene elaborato un vettore Prototipo dalla somma dei vettori di training nella
ategoria.
Assegnamo il do umento ditest alla ategoria ol vettore prototipo piùvi ino mediantela regola di
L'apprendimento siridu ealmododiimmagazzinarelerappresentazionidegliesempiditrainingin
D
. Iltest dell'istanza
x
:•
elaboralasimilaritàtrax
e tutti gliesempi inD
.•
assegna adx
la ategoriadelpiùsimile inD
.Quindi,a dierenza delRo hio, non si al olano espli itamenteiprototipi delle ategorie. Iprototipi
del Ro hiopossono avere problemi on ategorie disgiunte, mentre Nearest Neighbor tendead avere in
tal asoun omportamento migliore.
2.3 Algoritmo di apprendimento Bayesiano
Consistenell'apprenderee lassi aremedianteappro iprobabilisti i. IlteoremadiBayesgio aunruolo
riti o nell'apprendimento e lassi azione.
Sapendo he laprobabilità di
A
ondizionataaB
èpari a:P (A|B) = P (A ∩ B) P(B)
il teorema di Bayes esprime laprobabilità ondizionatarispetto allospazio degli eventi
A 1 , A 2 , . . . , A n:
P (A 1 |B) = P (B|A 1 )P (A 1 )
P (B) = P (B|A 1 )P (A 1 ) P n
i=1 P (B|A i )P (A i )
Dati l'insieme delle ategorie
{c 1 , c 2 , . . . c n }
ed una des rizione di un'istanza, determina il grado di appartenenzadiE
perognic i. P (E)
puòesseredeterminatasolosele
ategoriesono
ompleteedisgiunte.
2.4 Reti Neurali
Unareteneuronale onsisteinunpooldisempli ipro essielementari he omuni anofralorospedendosi
segnaliattraversonumerose onnessionipesate. Unareteastratosingolo onsisteinunoopiùneuroni di
output, ognuno dei qualiè onnesso on un fattore peso
w ij atutti gliinput x i. Inquesta sempli
erete
(il neurone)può essereusatopersepararegli inputindue lassi. Ipesidella reteneuralesonomodi ati
durantelafase dilearning
Si utilizza un per ettrone per ogni ategoria Learning sui do umenti di training della sua ategoria.
Durante la fase di test, il per ettrone fornis e un valore VERO/FALSO sull'appartenenza del vettore
rappresentativo ildo umento alla ategoria.
2.5 Valutare la ategorizzazione
Esistono dueparametri a ettati dalla omunitàIR:
Pre ision l'abilità nelrestituirei do umenti he sonopiùrilevanti
Re all l'abilità nelrestituire tutti ido umentirilevanti nell'intero dominio
2.6 Be MoRe
BeMoRe (BestModelRetrieval) èuna nuova metodologia di lassi azione ditesti.
Ilprepro essingprevede diverse fasi:
Suddivisione in Token L'NLPNaturalLanguagePro essing onsistenell'analizzareunafrasein
linguag-gionaturale,eseguireilparsingedappli arelostemming,noadestrarneinomieiverbi. Ilsistema,
mediante ildizionarioWordNet,assegna adognisigni ato un odi enumeri ounivo o. Dopoaver
eseguito gli algoritmi di word sense disambiguation, ad ogni nome della frase viene sostituito il
odi e delsigni ato he è risultatoesseremigliore.
Compressione prevededue fasi:
1. si appli a laTFxIDFper minimizzareilrumore
2. siappli a laEditDistan e per al olare lasomiglianzamorfologi a(suGoogleforse er avi:)
La dimensione dello spazio dei termini può ostituire un problema per hé gli algoritmi di learning non
s alano fa ilmente sugrandivaloridella dimensione. Seladimensioneèaltaspessosiveri ano fenomeni
diovertting. Abbiamo due s elte:
•
Riduzione lo ale(un insieme ditermini diversoper ias una ategoria)•
Riduzione globale(il setditermini è valido perqualunque ategoria)Alla ne dovremo trovarel'iperpiano separatore ottimo dell'insieme di training. Come formalizzare? In
due dimensioni, l'equazione della linea è data da:
w 1 x + w 2 y = b
Se l'iperpiano separatore non esiste, ovvero se i dati non sono linearmente separabili per la presenza di rumore, si possono usare le Sla kvariables, he onsentonola lassi azionenon orrettadial uni punti,tenendo ontodelrumoreneidati
L'OnLine Hyperplane onsente la ri er a in rementale della soluzione ottima. Gli elementi positivi
e negativi sono rappresentati on pesi diversi. È una Loss fun tion a basso osto omputazionale La
onvergenza è garantita dall'estensione delteoremadiNoviko.
Ereditando al une aratteristi he matemati he delle SVM, il sistemasi avvale diun modulo dikernel
perrisolvereil problemadiseparabilità non lineare.S elta delkernel miglioreattraverso modelsele tion.
L'uso della funzione kernel onsente di al olare l'iperpiano di separazione senza bisogno di eettuare
espli itamente ilmapping in
F
3 Fo used Crawling
3.1 Introduzione
Ladinami itàeledimensionidelWebnon ipermettonodi ostruiregrandibasidiinformazioniaggiornate
suqualsiasiargomento (motoridiri er a) apa idisoddisfaree a ementeevelo ementequalsiasiquery.
I normali rawler terminano periodi amente l'esplorazione e ri omin iano da apoper tenere aggiornate
le opiedelle pagine Web.
Obiettivo: partendo da una serie dipagine di partenza, navigando attraverso i link, s egliere divolta
in volta iper orsi giudi ati migliori, ridu endo le risorse ne essarie ( pue network) per analizzare tutte
le pagine, evitando di seguire i per orsi he lo portano a pagine non ani alla nostra query. Vantaggi:
più overage sullerisorse diinteresse,piùfreshness neirisultati, e unmat hingpiùsosti ato.
Il Fo used (o Intelligent) Crawling può essere usato per ostruire indi i inversi su erti topi in
alter-nativa a
meta-sear hing interroga motoridiri er aesistenti
query-time rawling avviare rawlingsul Web adogni query
query-modi ation non si ostruis e unindi e masimodi alaquerye lasiinoltra amotori diri er a
diesistenza
Nella prati asidevestabilire l'ordine delle prossimepagineda visitare,inmodo da indirizzare
l'esplora-zione sempreverso iper orsipiùinteressantiInformazioni da sfruttare:
1. ontenuto pagine visitate
2. an ore testuali deilinknelle pagine
3. struttura deilinktra pagine
3.2 Analisi del World Wide Web
Le pagine Web diun erto topi in genere possiedono linkad altre dello stesso topi (Linkage o Topi al
Lo ality).
Nella Web So ial Network Analysis oltre al ontenuto testuale delle risorse si sfruttano an he le
informazioni ontenute negli hyper-links.
Isu essivialgoritmi posso essereusati perdiversi s opi:
•
re-ranking deirisultatidiun motorediri er ainbase alleinformazioni estratte dailinks•
analizzare lastruttura e ladinami a delWeb•
indirizzare il rawlingdeimotori diri er averso lerisorse piùinteressanti (e.g. piùaltorank)Un linkpuòessereletto omeunaindi azione diautorevolezza he hil'ha reato (autore dellapagina)
vuole dare alla pagina puntata. Sipotrebbe per iò pensare diaumentare l'importanza delle pagine on
molti linkentranti(ba k-link ount).
Ma osì ilimitiamoa onsideraresololapopolarità assolutadiunapaginasenzametterlainrelazione
on un ertoargomento e on laqualità della paginagenitore.
HITSsibasasullarelazionetrapagineautorevoli(authoritative pages)perun erto topi ,epagine he
puntanoamoltepagine autorevoli (hubs). Se moltepaginedigeo ities puntanoa java.sun. om, allorale
pagine digeo itiessono hub,mentre java.sun. om è una paginaautorevole.
Unapaginaèritenuta importante (altaauthority) seri evemoltilinkdapagineimportanti( onalta
hubness). Di onseguenza e pagine hubs hanno la aratteristi a di puntare a molte pagine importanti.
Hubness e authoritysono2 misure orrelate he vengono al olate una infunzionedell'altra:
authority(p) = X
L'insieme dipaginevieneordinato perauthority. Lehubs sonovalidipunti dipartenza per esplorazioni.
3.2.2 PageRank
Adognipaginasiassegnaunasingolamisura(rank)Unapaginahaaltorankseèaltoilrankdellepagine
he lapuntano:
Il rankpuò essere visto ome la probabilità he siselezioni lapagina
p
. Lad
indi a laprobabilità he l'utente selezioniun'altrapagina.3.2.3 HyperInformation
Unapaginaipertestualehaunvalore henondipendesolodalsuo ontenutotestuale,maan hedailinkivi
ontenuti. Sevi trovateinunapagina da uipotete raggiungernealtre paginedivsinteresse,lapaginaè
moltoimportante. Quandoo orrevalutareunapagina,si onsideraan helamisuradiHyperInformation
he tiene onto della presenza dei link:
Inf ormation(A) = T extInf o(A) + HyperInf o(A) HyperInf o(A) = F 1 · T extInf o(B 1 ) + F 2 · T extInf o(B 2 )
on
0 < F < 1
lafrazione della informazione testualeraggiungibile.3.3 Fo used Crawlers
3.3.1 Chakrabarti's Fo usedCrawler
Il Chakrabarti's Fo usedCrawler èun sistemadi rawling autonomo perlari er a dirisorse inerentiun
erto topi (rappresentato daun setdipagine inizialifornite dall'utente).
È omposto da 2sotto-sistemi:
Classier determina larilevanza deido umenti rispettoaltopi diinteresse
Sfrutta una tassonomia gerar hi a (Yahoo!) di ategorie
C
per individuare gli argomenti he più interessano l'utente1. L'utente suggeris elepagine diinteresse
2. Ilsistemaproponele ategorie
C ∗ ⊂ C
piùani onalgoritmidimat hingtestuale(e.g. Ve torspa e model)
3. L'utente eventualmente ranale ategorie(s egliendoquelle piùgenerali oparti olari)
4. Le lassi nalivengonomar ate ome good.
Duranteil rawling, ad ognipagina he sivisitavieneasso iata la ategoriapiùspe i a
c
. Seunodei nodi neigenitori di
c
è mar ato ome good,allora la pagina non viene ignorata. Ad esempio,se mi interessano le GT, e se il rawler ha trovato una pagina sulla Maserati, la onsidero buona
omunqueper hé è ontenuta inGT.
Distiller identi a ilink he devono esserevisitati perprimidal rawler.
Sfrutta HITS per individuare le risorse più importanti. Periodi amente viene eseguito l'algoritmo
perindividuarelepaginere uperate onpiùalto hubs,dopodi hési estraggonoilinkivi ontenuti,
e siinseris ono nella odadelle risorse da visitaredel rawler.
3.3.2 IBM'sIntelligent Crawler
Si adatta alle risorse visitate durante il rawling stimando se una pagina è interessante per mezzo di
algoritmi dima hine learning. Non ne essita quindidel lassi atore on la gerar hia ome nel fo used
rawling
P (C)
èla prob he una paginasia diinteresse.E
sono ifatti he onos iamo riguardanti le andidate urls (testo pagine he le puntano, urls, testo an ore, et ). Esempio: er hiamo pagine su Ba h. 0.3%di pagine di interesse. Ma se la parola eshop ompare in una pagina he ha un link verso quella di
interesse,laprobabilità aumenta noal10%. La onos enza
E
puòaumentare laprob he una andidateurl soddisil predi ato.
P(C|E) > P (C)
nell'esempio infattirisulta
0.1 > 0.003
3.3.3 Agent-based Fo used Crawling
Sistemi diri er aadattativi, he prendonospunto dalparadigmadiprogrammazione Ant System:
Come ries ono gli animali a trovare il ammino e a oordinarsi? Quando una formi a trova
ibo,las iadelletra e diferomonepermar areilper orso,inmodotale helealtreformi he
possano trovarlo.
Si ha un'ar hitettura reattiva formata da un numerosi ant-agent he vagano in ambiente di
risor-se ipertestuali. Ogni agente ha sempli i omportamenti di basso livello he reagis ono a ambiamenti
nell'ambiente. Le informazioni disponibili perun agente sono:
1. il risultatotralaquery dell'utente elarisorsa orrente
2. l'intensità deivalorisui ammini diferomone, orrispondenti ailinkus enti
L'ese uzionedel sistemasidividein i li:
1. inogni i lo gliagenti ompionouna sequenzadimosseda unarisorsa a un'altra
2. alla ne del i lo,ogni agente aggiorna letra e di feromone delper orsoeettuato omefunzione
dei punteggi pervenutisulle risorse.
3. ad ogninuovo i lo, vieneposizionatol'agente inuna delle risorse iniziali
4. seunatra iaesiste,l'agentede idediseguirla onunaprobabilitàfunzionedellarispettivaintensità
diferomone
5. senon esiste al unatra ia, l'agentesi muove asualmente
Se due per orsi portano a una pagina interessante, iprimi agenti he raggiungono quella pagina sono
gli uni i he hanno seguito ilper orsopiù orto,e quindisono iprimi arilas iare il feromone he attrae
gli agenti su essiviallo stesso per orso.
Il sistemamostradue forme diadattività:
1. ranamentidella queryutente durante l'ese uzione
2. alterazione del ontenuto delle risorse
3.4 Geneti -based Fo used Crawling
Una popolazione res ente di agenti intelligenti esploranoil Web guidati dalle query utente. Una
popo-lazionedi romosomi odi ati dauna parti olarestruttura datievolvono versouna soluzionepotenziale
attraverso un insieme di operatori generi i. I romosomi he arrivano più vi ini alla soluzione migliore
hanno maggiori probabilità divivere eriprodursi.
Los opoè diimitare l'esplorazioneumana on interazionebassa onulla.
Igenotipi(1)sonouninsieme di romosomi he determinanoil omportamento diri er adegli agenti.
È formato da:
•
un insieme diparole hiaveK
inizializzate on itermini diquery.•
unvettoredipesiW
, orrispondentiall'informazionememorizzatainunareteneurale,utilizzataper giudi are qualiparole hiave nelprimo insieme dis rimanomeglio ido umentirilevanti all'utente4 Computer Vision
La Visione Arti iale(o Computer Vision oPattern Re ognition) si o upa dell'analisie
dell'interpreta-zione delle immaginidigitali(perpermetteread un omputer di apire osastaguardando).
Le appli azioni prati he sonoil re uperod'immagini in database visivi (Image Retrieval) datala
re-s entediusionediar hivid'informazionees lusivamentevisiva(musei,ar hivifotogra i,e- ommer e...).
Visione appli ata alla roboti a. Sorveglianza automati a (tramite tele amere o altri dispositivi). Guida
automati a divei oli su strada. Visione industriale, medi a,aerea, ...
Al uni sotto ampi:
low-levelvision apartiredaun'immagine
I
vieneprodottaunase onda immagineM (I)
data dall'appli- azione diltripuntuali e/o lo ali. Sitratta quindidiuna trasformazione dell'immagine.medium-level vision estrazione di predeterminate aratteristi he dall'immagine. Dall'immagine
I
(o daM (I)
) sipassa adun insieme di aratteristi heF = {f 1 , . . . , f n }
high-level vision interpretazione dell'immagine(qualioggettisonopresentioqualirelazioni inter orrono
traessi)
La onos enzadel sistema generalmente è di tipo modellisti o (model based) oppure appresa attraverso
te ni he dima hine learning.
Iproblemi prin ipalinelri onos imento diimmagini:
Condizioni di illuminazione he produ ono una variazione nella distribuzione dell'intensità luminosa
della s ena.
Trasformazionigeometri he rigide dell'oggetto(in ordinedidi olta res ente):
1. roto-traslazioni e s alamenti in2D,
Rumore
Gap tipoparti olare dirumore onsistente nella man anza dielementinell'immagine.
O lusione
Segmentazione partizionamento deidati diinputinentita semanti he distinte(linee, regioni, oggetti).
Indexing eettuare una ri er ae iente inun atalogo dimodelli.
Identi azione ri onos erel'istanzadi unoggetto inun'immagine.
Oggetti non rigidi (forbi i, volti umani, ...). Il lorori onos imento è ompli atodalla possibilita heha
la loroforma divariare.
Classi azione ri onos erel'appartenenza aduna data lassediun oggetto inun'immagine.
4.1 Il problema della segmentazione
Col termine segmentazione in Computer Vision si intende un qualsiasi partizionamento dell'immagine
(o della sequenza video)ininsiemiomogeneirispetto aduna qual he aratteristi aper ettiva.
E importantesottolineare la trasversalita ditale denizione, ovveroil fatto he essa puo essere (edin
eetti è)appli ata avarilivelli dipro essamento.
Nella low-level vision, on segmentazione si intendono quei pro essi data-driven (dipendenti solo dai
dati) he permettono, ad esempio, dipartizionare un'immagine in base al olore o un video inbase alla
luminosita della s ena
In high-level vision, lasegmentazione e uno dei problemi nora insormontabili per un ri onos imento
eettivodegli oggettirappresentati inun'immagine poi hé ène essario he ilsistema apis a he isono