Sfruttare le viste per migliorare la ri er a

6.2 Struttura del livello di presentazione

6.2.2 Sfruttare le viste per migliorare la ri er a

Unodegli aspetti innovatividi

T he

BioPrompt-box èrappresentato dallapos-

sibilitàdi ombinaretra lorofeedba k appartenenti aviste diverse del solito

spazio dei risultati al ne di generare un ranamento degli stessi nel modo

più intuitivoed e a e perl'utente. L'obiettivoprin ipaleinfattièquellodi

far navigare l'utente sulle informazioni determinate a partire da una query ,

in modo da mettere in lu e l'ambito e il signi ato dei risultatie le loro re-

lazioni, osì dapoter orientare la ri er a verso un direzione migliorein base

alleesigenzedelbiologo. Atales opol'utentehalapossibilitàdiselezionare,

perognivista,leeti hette heritienepiùinteressanti. Operataunaselezione,

possonoessere ompiute due azioni:

1. Intraprendereunanuova ri er a ombinandoivaloridellaselezioneper

produrre una nuovaquery;

2. Filtrare l'insiemedi do umenti ottenutidall'ultimari er a in maniera

tale da onservare es lusivamentequelli asso iati alleeti hette selezio-

nate.

Le due funzioni operano in direzionidiverse. La prima dà la possibilità

di espandere la ri er a produ endo una nuova query a partire dalle selezio-

ni eettuate dall'utente sulle varie viste e generando un nuovo insieme di

do umenti. Lase onda onsentedirestringere,ofo alizzare,lari er aapar-

tire dalle selezioni eettuate dall'utente, ottenendo osì un sottoinsieme dei

do umenti.

Dalmomento he ogni vistaèasso iataadun ampospe i odel forma-

to del do umento, operare una selezione signi a ssare un valore per tale

ampo. La query prodotta per eettuare la nuova ri er a (la prima delle

ampoOrganism e Immune response inquellarelativaal ampoKeyword .

Ri er are usando questa selezione produrrà la query:

organism _name:"Homo sapiens" AND keyword_ text:"Immune response "

he determinerà tutti i do umenti della ollezione he hanno entrambi i va-

lorinei ampi indi ati. Le visteverranno inoltreri reate per tale insiemedi

do umenti. La ombinazione in AND delle eti hette è solouno dei possibili

modi di impiegare la selezione. Si potrebbe ad esempiopensare dilegare in

AND elementi della solita vista e on degli OR i gruppi di elementi appar-

tenenti a vistediverse, oppure vi eversa. Il sistema potrebbe an he las iare

all'utente il ompito di stabilire ome formulare la query booleana on le

eti hette selezionate. Tuttavia questo introdurrebbe delle ompli azioni dal

puntodivistadell'usabilitàdelsistema,mentreunodegliobiettiviinizialidel

progetto era quellodi reareuno strumentodi ri er asempli emaal tempo

stessopotente. Unaspettodatenerein onsiderazioneè he laquery genera-

tanonèlegatainal unmodoallapre edente. Naturalmenteido umenti he

pre edentementeri adevano sottoentrambeleeti hette selezionateverranno

nuovamentere uperatieripresentatiall'utente. Assiemeaquestigureranno

an healtrido umenti onaltre aratteristi he he verranno evidenziatedalle

eti hette generate on le nuove viste.

L'operazionediltrare inbaseallaselezioneinve ehalos opodiisolaree

fo alizzarel'attenzione suun sotto insiemedido umentiappartenentiall'in-

sieme originale. Continuando l'esempio pre edente se ipotizziamo he sotto

l'eti hettaHomo Sapiens ri adano

20

do umentiesottoImmune Respon- se

12

, eseguendo un'operazione di ltraggio su questa selezione, il sistema restituis ei

32

do umenti. Tuttaviaène essariori ordare he undo umento può essere asso iato a più di una eti hetta per ui il numero di do umenti

Questo genere di operazioni, in parti olare quella di ltraggio, orono

la possibilità di pro edere in maniara simile a quanto proposto in [2℄. Nel-

l'arti olo gli autori teorizzano l'utilizzo del lustering dei do umenti al ne

di imporre all'utente uno stile di onsultazione più e a e. Tale metodo

è hiamato nell'arti olo s atter/gather in quanto basato su due operazioni

fondamentali:

1. Espansione ( s atter) on ui, a partire da un set di do umenti inizia-

le prodotto da una query, viene generato l'insieme di luster su ui

partizionare i do umenti stessi. L'utente inquesta fase è hiamato ad

operare una selezione dei gruppi ritenutipiù interessanti;

2. Raggruppamento( gather) on ui i do umentiasso iati ai lustersele-

zionativengonoradunatiedinuovo lusterizzati. Leeti hettedeigrup-

piprodottisarannoorapiùspe i he inbaseall'argomentotrattatodai

do umentis elti.

Questeoperazionivengonoeseguitedall'utenteinsequen zanoalladeter-

minazione dei do umenti desiderati. Ogni passo omporta un ranamento

del passo pre edentedalmomento heviene operata unaselezione diun sot-

toinsieme di do umenti. La loro tesi è he questo modo di pro edere sia

perl'utentemiglioredalpuntodivistadella omprensione deirisultatie he

portiad una più rapida determinazione del risultato voluto. L'idea portata

avanti nell'arti olo è prin ipalmente riferita a orpus di do umenti redatti

in plain text , quindi non strutturati se ondo un formato e senza informazio-

ni utili per la lassi azione, ome riferimenti ad ontologie. Inoltre l'ipotesi

iniziale è he l'utente parta da una query abbastanza generi a da innes are

il pro edimento di s atter/gather.

T he

BioPrompt-box opera su ipotesi solo

diversodieettuareileo ument lustering enontantoinunmododiversodi

esplorarli. In

T he

BioPrompt-box la generazione delle viste avviene sfruttan-

doanalogiesintatti he suivaloridial uni ampideido umentioutilizzando

analogie semanti he des ritte da Gene Ontology .

T he

BioPrompt-box inoltre

implementa un me anismo in qual he modo più generale di s atter/gather

dando l'opportunità all'utente non solo di andare in profondità suirisultati

di una query mediante l'operazione di ltraggio , ma an he la possibilità di

ambiare direzione della ri er a, potendo operare una selezione delle eti-

hette in base allaquale generare ed eseguire una nuova query .

Fa iamoun esempio on reto mostrando ome sia possibile operare un

ranamento della query per giungere ad un risultato in grado di dare una

risposta alladomanda iniziale. Ipotizziamo he un biologo sia interessato a

onos ere quali proteine in ban a dati abbiano a he fare ol glutamato, ed

in parti olare quali di queste funzionino ome re ettore o mediatore per il

glutamatoesiano oinvolte nei me anismi ditrasmissione nervosa. Inoltre,

supponiamo he ilnostro biologosia interessato a restringere questa ri er a

ai solimammiferi. Per eseguire questa ri er a on glistrumentitradizionali,

il biologo dovrebbe impostare la query per glutamate usando un qual he

strumento per la ri er a in UNIPROT, poi restringere la ri er a alla sola

lasse tassonomi a dei mammiferi. Ottenuto questo primo risultato, il bio-

logo dovrebbe analizzare manualmente le keyword asso iate a ias un dato,

o onsultare Gene Ontology , per eettuare lo s reening funzionale e isolare

i re ettori e/o mediatori er ati, e tra questi, in spe ie, quelli oinvolti ol

sistema nervoso. La ri er a ottiene i risultati attesi, ma si rivela estrema-

mente laboriosa. Mostriamo ora ome la stessa ri er a possa venir eseguita

in modomolto più immediato ed e a e usando

T he

BioPrompt-box.

Figura 6.3: Risultato per la query glutamate. I primi

100

risultati su

5.650

sono impiegatiperprodurrelavistaGOUpwardPathdi uine vienefatta una

selezione.

5.650

do umenti in risposta allaquery . Da notare he:

1. Non èpossibile formare unaquery ingrado dirispondere direttamente

alla domanda posta. Potremmo forse rius ire ad individuareun insie-

me di risposte più pre iso rispetto all'obiettivo della ri er a,ad esem-

pio ri hiedendo le entry relative ai soli mammiferi on una query del

tipo glutamate AND organism_taxonomy:mammalia. Tuttavia sa-

rebbe impossibile ssare delle ondizioni tali da selezionare solamente

Figura 6.4: Risultatodel ltroappli atosulleeti hetteselezionatenellavistaGOUp-

wardPath. Le entrypassanoda

5.650

47

esonosoloquellerelativealle funzioni mole olari selezionate. Le viste vengono ri al olate per questo

nuovo set dido umenti.

una query booleana. Piuttosto il sistema mostrerà all'utente le varie

funzioni mole olarisvoltedalle proteine selezionate,las iandoalbiolo-

go il ompito di selezionare gli insiemi di interesse tra quelli proposti,

in questo aso quelli relativi alle funzioni asso iate alla trasmissione

nervosa;

2. I risultati ritornati a fronte di una query sono ordinati per attinenza,

ossia il sistema opera un ranking dei risultati in modo da elen are in

prima posizione i risultati ritenuti più attinenti e in ultima posizione

Figura 6.5: Vista generata a partire dai riferimenti a Gene Ontology ontenuti nelle

entry. Vengonoselezionatedueeti hetterelativeadunafunzionemole o-

larespe i a edaunpro essobiologi o. L'operazionedi ltraggioridu e

ulteriormenteilset dido umenti da

47

45

la rappresentazione dei do umenti della ollezione e della misuradi si-

milaritàimpiegata,valeadirelamisuradel oseno(siveda ilCapitolo

4). Sperabilmenteirisultatielen atinelleprimeposizionisarannoquel-

li migliori perrispondere alla query dell'utente; i primi 100 vengono

quindi presi a rappresentanza della risposta fornita e su questi viene

operato il do ument- lustering per la generazione delle diverse viste.

Naturalmente il fatto di prendere i primi 100 risultati rappresenta so-

lamenteun'euristi aperevitaredi onsiderarel'interaselezione he, in

molti asi,sarebbetroppograndepergarantirebuoneprestazioni. Tut-

Figura 6.6: Tassonomiarelativaalle

45

entry selezionatein pre edenza. Viene ora fo- alizzatal'attenzionesolosuquellerelativeaimammiferimediantelasele-

zionedell'eti hettamammalia su ui verràeseguitounnuovo ltraggio.

Il risultatosarà omposto da

44

do umenti.

te a urata nel des rivere le aratteristi he e le relazionidella risposta

ottenuta, dal momento he queste sono quelle dotate di un rank più

alto,valeadirequelle he megliosoddisfanolaquery iniziale. L'ipotesi

è quella he le informazioni asso iate alle entry su essive alle prime

100 non siano osì rilevantida produrre, se venissero onsiderate, una

vistasostanzialmentediversadaquellainrealtàgeneratao,quantome-

ritenuta su iente pergenerare viste a urate.

Continuando on l'esempio onsiderato, assieme alla lista dei risultati,

viene generata lavistadelle Upward Paths , he, impiegandoGene Ontology ,

mostra qualisonole funzionimole olarioipro essi biologi ipiù rilevantisu

ui si raggruppanoi primi 100 do umenti 8

. Il biologo può ora selezionare le

eti hette relative alle funzioni mole olaridi interesse, adesempio:

•

synpati transmis sion;

•

ionotropi glutamat e re eptor a tivity ;

•

adenylate y lase inhibiti ng metabotr opi glutamat e re eptor a tivity ;

•

metabotropi glutamat e re eptor signalin g pathway;

•

ex itatory extra el lular ligand-g ated ion hannel a tivity ;

e ltrare l'insieme dei do umenti in base a tale selezione, operazione he

fa s endere il numero di entry onsiderate da

5.650

47

(vedi Figura 6.4). Queste sono tutte e sole le entry relative alle lassi di funzioni mole olari

s elte. L'utente interessato afo alizzarela suaattenzione sual unefunzioni

o pro essi biologi ispe i i, puòspostarsisulla vistaGO Terms , ontenente

la gerar hia di eti hette prodotte mediante i soli riferimenti a Gene Onto-

logy eettivamente itati dalle entry (a dierenza della vista Upward Paths

ontenente termini più generi i). In Figura 6.5 viene riportato il risultato

del ltraggio sulle eti hette glutamate re eptor a tivity e synpati

Si ri orda heinquestavistavengonoimpiegate peril lusteringan heeti hettenon

itate direttamente dai do umenti onsiderati. I gruppi generati e le relative eti hette

transmis sion, he ridu eulteriormentel'insiemedei do umentiselezionati

45

. Inne, spostandosisulla vistaTaxonomy,relativaallatassonomiadegli organismi itati dalle entry , il biologo può selezionare la lasse mammalia

(vedi Figura6.6) on ui selezionare le

44

entry relative ai mammiferi, osì da trovare la risposta allasua query iniziale.

Nel documento Sviluppo ed integrazione di strategie di clustering in strumenti di ricerca per grandi banche dati biologiche (pagine 100-109)