6.2 Struttura del livello di presentazione
6.2.1 Raggruppamento dei risultati in viste
L'idea alla base del sistema dei suggerimenti o feedba k forniti all'utente a
supporto della sua ri er a, è quella di presentare diverse viste dello spazio
dei risultati. Data la lista delle entry generata ome risposta ad una que-
ry , il sistema ne onsidera i primi 100. Per ogni vista tale selezione viene
riorganizzata ingruppi (o luster) dotati dieti hetta, sulla base diun rite-
rio dipendente dalla vista s elta. All'utente verrà quindi mostrato l'insieme
gerar hi o delle eti hettegenerato, a orredo della lista(non gerar hi a) dei
risultati. L'utente ha la possibilità di ambiare vista in modo da ottenere
altri suggerimenti della solita lista dei risultati, generati però sulla base di
proprietà diverse dei do umenti (ad esempio in base ai riferimenti a Gene
Ontology , allatassonomiadegli organismi,al ampo keyword , e ...). Viene
oerta inoltre l'opportunità di ombinare tra loro elementi di viste diverse
osì da generare nuove query (più selettive) on l'obiettivo di indirizzare la
ri er a in una direzione più pre isa,in funzione delle ne essità dell'utente.
Per orire maggiori possibilità al biologo, è stato fatto uno studio del
formato dei do umentiindi izzati, on l'obiettivodiidenti are i ampi e le
informazioni più signi ative e sulle quali sia possibile operare un raggrup-
pamento. Analizzando il formato della ollezione UNIPROT, è stato s elto
di raggrupparei risultati infunzione dei seguenti ampi oriferimenti:
1. Keyword . Questo ampo ontieneterminitrattidaunvo abolario on-
trollatoe s eltidal uratore dellaentry . Naturalmente,vistala natura
des rittiva e ontrollata di tali valori, il ontenuto di questo ampo
risulta parti olarmente signi ativo. Tuttavia le informazioni non so-
no organizzabili se ondo una gerar hia in quanto i termini stessi non
Figura 6.2: Esempioditassonomia perilgattoe lalin e.
signi ativi 7
. Lekeyword più riferitesarannodunquequelle hemeglio
des rivono il risultato mentre le altre orono possibili interpretazioni
dello stesso.
2. Organism. E' ilnome dell'organismoda ui è tratta la proteina. Que-
sta è un'informazione omposta da due elementi: la spe ie e il nome
( omune o s ienti o). Come nel aso delle keyword non è possibile
organizzare irisultati se ondo una gerar hia.
3. Taxonomy. È la des rizione tassonomi a della spe ie a ui appartiene
l'organismo, dall'elemento più generale (il regno) al più spe i o (il
genere). Latassonomiaèstrutturataadalberoequesto ampo ontiene
unper orsodallaradi eadunafoglia. UnesempioèriportatoinFigura
6.2 he mostra l'albero relativoal gattoe allalin e.
4. GO Term . Sono i riferimenti a Gene Ontology on ui la sequen za
rappresentata dal do umento è stata annotata. Queste informazioni
vengono utilizzate per generare due tipi di raggruppamenti: il primo
mostra omeido umentisidistribuis onosuiriferimenti itati,mentre
l'altroè il metodo delle Upward Path . Sirimanda alla sezione 3.3 per
approfondimenti.
Las elta diquesti ampi non può essereritenuta denitiva. I do umenti
infatti presentano molte altre informazioni interessanti sulle quali poter ef-
fettuare il raggruppamento. Ad esempio la bibliograa stessa presenta dei
riferimenti ad una tassonomia, la Medi al Subje t Headings ( MeSH), he
potrebbe essere sfruttata per presentare all'utente una lettura dei risultati
alternativa, fattadalpunto divista bibliogra o.
InoltrelaProtein Data Bank fornis e una lassi azionedelleproteine in
base ai tipi di ripiegamento delle loro strutture tridimensionali, onsiderata
moltoutiledaibiologi. Essafornis elebasi perunari er adell'informazione
orientata allastruttura in diversi modi:
•
Ri er a per parola hiave o sequen ze;•
Navigazionefra strutture simili a vari livelligerar hi idella lassi a- zione;•
Ri er apersimilaritàdistruttura apartiredaunasequen za ampione;È inoltre possibile avere un feedba k visivo di quella he è la struttura on-
siderata, mediantelavisualizzazionedi immagini he rappresentano talifor-
mazioni tridimensionali. Il sisteman ora sviluppatopotrebbe arri hirsi di
questaulteriorevista osìda onsentireall'utentedimigliorarelasuari er a,
potendossare dei vin olian he sulla struttura della proteinastessa.
Il tema delle strutture protei he è parti olarmente aas inante non hé
omplesso. Sono attualmente note ir a 15 mila strutture protei he suddi-
vise in famiglie le ui mole ole mantengono lo stesso motivo fondamentale
una mutazione è a ompagnata di ambiamenti strutturali. Identi ando e
onfrontando oggetti orrelati, possiamo distinguere le proprietà onserva-
te e quelle variabili, individuando in tal modo quelle he sono ru iali per
la struttura e la funzione. Studi sistemati i sulle dierenze strutturali tra
oppie di proteine orrelate hanno denito una relazione quantitativa tra la
divergenza delle sequen ze aminoa idi he del nu leo protei o di una famiglia
distrutture eladivergenzadelle strutturestesse. Conladivergenzadellese-
quenze, aumentanoprogressivamenteledistorsionidella onformazionedella
atena prin ipale, mentre la frazione dei residui nel nu leo solitamente de-
res e [12℄. Questogenere di orrelazionepertantopotrebbeessere sfruttata
e a ementepergenerare unavista dei risultati hemettainlu e lerelazio-
ni strutturali delle proteine ritornate ome risultato, evidenziando analogie
e dierenze di struttura e suggerendo quali altri do umenti (proteine) sono
assimilabiliaquelle ritornate, magari asso iatea funzioni mole olaridiverse
oparte ipantiapro essi biologi idiversi. Il usso del ragionamentoinferen-
ziale dovrebbe s orrere nella direzione: sequen za
→
struttura→
funzione. Ciò nonostante, sebbene si possa essere si uri he sequen ze aminoa idi hesimili daranno vita a strutture protei he simili, la relazione tra struttura e
funzione è più omplessa. Proteine distruttura simile epersino disequen za
similepossono essereimpiegateinfunzioni moltodierenti. Proteine he di-
vergono ampiamente possono onservare funzioni simili. Uno strumento he
metta inlu e tali diversità e omologie sirivelerebbe indubbiamenteutile.
Questoaspetto, omealtri,dimostrano ome an ora isianodiversepos-
sibilitàda esplorare e valutareal ne di reare uno strumento veramentein
gradodisuggerire all'utentemoltepli iinterpretazionidel risultatoottenuto.