6.2 Struttura del livello di presentazione
6.2.2 Sfruttare le viste per migliorare la ri er a
Unodegli aspetti innovatividi
T he
BioPrompt-box èrappresentato dallapos-
sibilitàdi ombinaretra lorofeedba k appartenenti aviste diverse del solito
spazio dei risultati al ne di generare un ranamento degli stessi nel modo
più intuitivoed e a e perl'utente. L'obiettivoprin ipaleinfattièquellodi
far navigare l'utente sulle informazioni determinate a partire da una query ,
in modo da mettere in lu e l'ambito e il signi ato dei risultatie le loro re-
lazioni, osì dapoter orientare la ri er a verso un direzione migliorein base
alleesigenzedelbiologo. Atales opol'utentehalapossibilitàdiselezionare,
perognivista,leeti hette heritienepiùinteressanti. Operataunaselezione,
possonoessere ompiute due azioni:
1. Intraprendereunanuova ri er a ombinandoivaloridellaselezioneper
produrre una nuovaquery;
2. Filtrare l'insiemedi do umenti ottenutidall'ultimari er a in maniera
tale da onservare es lusivamentequelli asso iati alleeti hette selezio-
nate.
Le due funzioni operano in direzionidiverse. La prima dà la possibilità
di espandere la ri er a produ endo una nuova query a partire dalle selezio-
ni eettuate dall'utente sulle varie viste e generando un nuovo insieme di
do umenti. Lase onda onsentedirestringere,ofo alizzare,lari er aapar-
tire dalle selezioni eettuate dall'utente, ottenendo osì un sottoinsieme dei
do umenti.
Dalmomento he ogni vistaèasso iataadun ampospe i odel forma-
to del do umento, operare una selezione signi a ssare un valore per tale
ampo. La query prodotta per eettuare la nuova ri er a (la prima delle
ampoOrganism e Immune response inquellarelativaal ampoKeyword .
Ri er are usando questa selezione produrrà la query:
organism _name:"Homo sapiens" AND keyword_ text:"Immune response "
he determinerà tutti i do umenti della ollezione he hanno entrambi i va-
lorinei ampi indi ati. Le visteverranno inoltreri reate per tale insiemedi
do umenti. La ombinazione in AND delle eti hette è solouno dei possibili
modi di impiegare la selezione. Si potrebbe ad esempiopensare dilegare in
AND elementi della solita vista e on degli OR i gruppi di elementi appar-
tenenti a vistediverse, oppure vi eversa. Il sistema potrebbe an he las iare
all'utente il ompito di stabilire ome formulare la query booleana on le
eti hette selezionate. Tuttavia questo introdurrebbe delle ompli azioni dal
puntodivistadell'usabilitàdelsistema,mentreunodegliobiettiviinizialidel
progetto era quellodi reareuno strumentodi ri er asempli emaal tempo
stessopotente. Unaspettodatenerein onsiderazioneè he laquery genera-
tanonèlegatainal unmodoallapre edente. Naturalmenteido umenti he
pre edentementeri adevano sottoentrambeleeti hette selezionateverranno
nuovamentere uperatieripresentatiall'utente. Assiemeaquestigureranno
an healtrido umenti onaltre aratteristi he he verranno evidenziatedalle
eti hette generate on le nuove viste.
L'operazionediltrare inbaseallaselezioneinve ehalos opodiisolaree
fo alizzarel'attenzione suun sotto insiemedido umentiappartenentiall'in-
sieme originale. Continuando l'esempio pre edente se ipotizziamo he sotto
l'eti hettaHomo Sapiens ri adano
20
do umentiesottoImmune Respon- se12
, eseguendo un'operazione di ltraggio su questa selezione, il sistema restituis ei32
do umenti. Tuttaviaène essariori ordare he undo umento può essere asso iato a più di una eti hetta per ui il numero di do umentiQuesto genere di operazioni, in parti olare quella di ltraggio, orono
la possibilità di pro edere in maniara simile a quanto proposto in [2℄. Nel-
l'arti olo gli autori teorizzano l'utilizzo del lustering dei do umenti al ne
di imporre all'utente uno stile di onsultazione più e a e. Tale metodo
è hiamato nell'arti olo s atter/gather in quanto basato su due operazioni
fondamentali:
1. Espansione ( s atter) on ui, a partire da un set di do umenti inizia-
le prodotto da una query, viene generato l'insieme di luster su ui
partizionare i do umenti stessi. L'utente inquesta fase è hiamato ad
operare una selezione dei gruppi ritenutipiù interessanti;
2. Raggruppamento( gather) on ui i do umentiasso iati ai lustersele-
zionativengonoradunatiedinuovo lusterizzati. Leeti hettedeigrup-
piprodottisarannoorapiùspe i he inbaseall'argomentotrattatodai
do umentis elti.
Questeoperazionivengonoeseguitedall'utenteinsequen zanoalladeter-
minazione dei do umenti desiderati. Ogni passo omporta un ranamento
del passo pre edentedalmomento heviene operata unaselezione diun sot-
toinsieme di do umenti. La loro tesi è he questo modo di pro edere sia
perl'utentemiglioredalpuntodivistadella omprensione deirisultatie he
portiad una più rapida determinazione del risultato voluto. L'idea portata
avanti nell'arti olo è prin ipalmente riferita a orpus di do umenti redatti
in plain text , quindi non strutturati se ondo un formato e senza informazio-
ni utili per la lassi azione, ome riferimenti ad ontologie. Inoltre l'ipotesi
iniziale è he l'utente parta da una query abbastanza generi a da innes are
il pro edimento di s atter/gather.
T he
BioPrompt-box opera su ipotesi solo
diversodieettuareileo ument lustering enontantoinunmododiversodi
esplorarli. In
T he
BioPrompt-box la generazione delle viste avviene sfruttan-
doanalogiesintatti he suivaloridial uni ampideido umentioutilizzando
analogie semanti he des ritte da Gene Ontology .
T he
BioPrompt-box inoltre
implementa un me anismo in qual he modo più generale di s atter/gather
dando l'opportunità all'utente non solo di andare in profondità suirisultati
di una query mediante l'operazione di ltraggio , ma an he la possibilità di
ambiare direzione della ri er a, potendo operare una selezione delle eti-
hette in base allaquale generare ed eseguire una nuova query .
Fa iamoun esempio on reto mostrando ome sia possibile operare un
ranamento della query per giungere ad un risultato in grado di dare una
risposta alladomanda iniziale. Ipotizziamo he un biologo sia interessato a
onos ere quali proteine in ban a dati abbiano a he fare ol glutamato, ed
in parti olare quali di queste funzionino ome re ettore o mediatore per il
glutamatoesiano oinvolte nei me anismi ditrasmissione nervosa. Inoltre,
supponiamo he ilnostro biologosia interessato a restringere questa ri er a
ai solimammiferi. Per eseguire questa ri er a on glistrumentitradizionali,
il biologo dovrebbe impostare la query per glutamate usando un qual he
strumento per la ri er a in UNIPROT, poi restringere la ri er a alla sola
lasse tassonomi a dei mammiferi. Ottenuto questo primo risultato, il bio-
logo dovrebbe analizzare manualmente le keyword asso iate a ias un dato,
o onsultare Gene Ontology , per eettuare lo s reening funzionale e isolare
i re ettori e/o mediatori er ati, e tra questi, in spe ie, quelli oinvolti ol
sistema nervoso. La ri er a ottiene i risultati attesi, ma si rivela estrema-
mente laboriosa. Mostriamo ora ome la stessa ri er a possa venir eseguita
in modomolto più immediato ed e a e usando
T he
BioPrompt-box.
Figura 6.3: Risultato per la query glutamate. I primi
100
risultati su5.650
sono impiegatiperprodurrelavistaGOUpwardPathdi uine vienefatta unaselezione.
5.650
do umenti in risposta allaquery . Da notare he:1. Non èpossibile formare unaquery ingrado dirispondere direttamente
alla domanda posta. Potremmo forse rius ire ad individuareun insie-
me di risposte più pre iso rispetto all'obiettivo della ri er a,ad esem-
pio ri hiedendo le entry relative ai soli mammiferi on una query del
tipo glutamate AND organism_taxonomy:mammalia. Tuttavia sa-
rebbe impossibile ssare delle ondizioni tali da selezionare solamente
Figura 6.4: Risultatodel ltroappli atosulleeti hetteselezionatenellavistaGOUp-
wardPath. Le entrypassanoda
5.650
a47
esonosoloquellerelativealle funzioni mole olari selezionate. Le viste vengono ri al olate per questonuovo set dido umenti.
una query booleana. Piuttosto il sistema mostrerà all'utente le varie
funzioni mole olarisvoltedalle proteine selezionate,las iandoalbiolo-
go il ompito di selezionare gli insiemi di interesse tra quelli proposti,
in questo aso quelli relativi alle funzioni asso iate alla trasmissione
nervosa;
2. I risultati ritornati a fronte di una query sono ordinati per attinenza,
ossia il sistema opera un ranking dei risultati in modo da elen are in
prima posizione i risultati ritenuti più attinenti e in ultima posizione
Figura 6.5: Vista generata a partire dai riferimenti a Gene Ontology ontenuti nelle
entry. Vengonoselezionatedueeti hetterelativeadunafunzionemole o-
larespe i a edaunpro essobiologi o. L'operazionedi ltraggioridu e
ulteriormenteilset dido umenti da
47
a45
.la rappresentazione dei do umenti della ollezione e della misuradi si-
milaritàimpiegata,valeadirelamisuradel oseno(siveda ilCapitolo
4). Sperabilmenteirisultatielen atinelleprimeposizionisarannoquel-
li migliori perrispondere alla query dell'utente; i primi 100 vengono
quindi presi a rappresentanza della risposta fornita e su questi viene
operato il do ument- lustering per la generazione delle diverse viste.
Naturalmente il fatto di prendere i primi 100 risultati rappresenta so-
lamenteun'euristi aperevitaredi onsiderarel'interaselezione he, in
molti asi,sarebbetroppograndepergarantirebuoneprestazioni. Tut-
Figura 6.6: Tassonomiarelativaalle
45
entry selezionatein pre edenza. Viene ora fo- alizzatal'attenzionesolosuquellerelativeaimammiferimediantelasele-zionedell'eti hettamammalia su ui verràeseguitounnuovo ltraggio.
Il risultatosarà omposto da
44
do umenti.te a urata nel des rivere le aratteristi he e le relazionidella risposta
ottenuta, dal momento he queste sono quelle dotate di un rank più
alto,valeadirequelle he megliosoddisfanolaquery iniziale. L'ipotesi
è quella he le informazioni asso iate alle entry su essive alle prime
100 non siano osì rilevantida produrre, se venissero onsiderate, una
vistasostanzialmentediversadaquellainrealtàgeneratao,quantome-
ritenuta su iente pergenerare viste a urate.
Continuando on l'esempio onsiderato, assieme alla lista dei risultati,
viene generata lavistadelle Upward Paths , he, impiegandoGene Ontology ,
mostra qualisonole funzionimole olarioipro essi biologi ipiù rilevantisu
ui si raggruppanoi primi 100 do umenti 8
. Il biologo può ora selezionare le
eti hette relative alle funzioni mole olaridi interesse, adesempio:
•
synpati transmis sion;•
ionotropi glutamat e re eptor a tivity ;•
adenylate y lase inhibiti ng metabotr opi glutamat e re eptor a tivity ;•
metabotropi glutamat e re eptor signalin g pathway;•
ex itatory extra el lular ligand-g ated ion hannel a tivity ;e ltrare l'insieme dei do umenti in base a tale selezione, operazione he
fa s endere il numero di entry onsiderate da
5.650
a47
(vedi Figura 6.4). Queste sono tutte e sole le entry relative alle lassi di funzioni mole olaris elte. L'utente interessato afo alizzarela suaattenzione sual unefunzioni
o pro essi biologi ispe i i, puòspostarsisulla vistaGO Terms , ontenente
la gerar hia di eti hette prodotte mediante i soli riferimenti a Gene Onto-
logy eettivamente itati dalle entry (a dierenza della vista Upward Paths
ontenente termini più generi i). In Figura 6.5 viene riportato il risultato
del ltraggio sulle eti hette glutamate re eptor a tivity e synpati
8
Si ri orda heinquestavistavengonoimpiegate peril lusteringan heeti hettenon
itate direttamente dai do umenti onsiderati. I gruppi generati e le relative eti hette
transmis sion, he ridu eulteriormentel'insiemedei do umentiselezionati
a
45
. Inne, spostandosisulla vistaTaxonomy,relativaallatassonomiadegli organismi itati dalle entry , il biologo può selezionare la lasse mammalia(vedi Figura6.6) on ui selezionare le