• Non ci sono risultati.

GENE ONTOLOGY GENE ONTOLOGY

N/A
N/A
Protected

Academic year: 2022

Condividi "GENE ONTOLOGY GENE ONTOLOGY"

Copied!
32
0
0

Testo completo

(1)

GENE ONTOLOGY GENE ONTOLOGY

Classificare la materia vivente e comprenderla Classificare la materia vivente e comprenderla

Francesca

Francesca Cordero Cordero, , Ph.D. Ph.D. Student Student

[email protected]

[email protected]

(2)
(3)

Numero di record nei diversi database / Anno Numero di record nei diversi database / Anno

Iazzetti &

Iazzetti & CorderoCordero SlidesSlides

(4)

Dove

Dove è è espresso il gene? espresso il gene?

Qual

Qual è è la sua localizzazione ( la sua localizzazione ( intra intra )cellulare del suo prodotto? )cellulare del suo prodotto?

Quando

Quando è è espresso? espresso?

Qual Qual ’ ’ è è la funzione del suo prodotto? la funzione del suo prodotto?

Qual Qual ’ ’ è è la struttura del suo prodotto? la struttura del suo prodotto?

Di quale processo pi

Di quale processo pi ù ù generale è generale è parte? parte?

Da chi o da cosa

Da chi o da cosa è è controllato? controllato?

Di quale complesso la sua funzione

Di quale complesso la sua funzione è è parte? parte?

Cosa si può chiedere ad un database?

Cosa si può chiedere ad un database?

Iazzetti &

Iazzetti & CorderoCordero SlidesSlides

(5)

SIGNIFICATO SIGNIFICATO

INTEGRAZIONE INTEGRAZIONE CON ALTRI

CON ALTRI DATABASE DATABASE ANNOTAZIONE

ANNOTAZIONE

Iazzetti &

Iazzetti & CorderoCordero SlidesSlides

(6)

Le Le OntologieOntologie differiscono dalle terminologie differiscono dalle terminologie controllate (

controllate (LexiconLexicon) poiché) poiché si tratta di una si tratta di una struttura dati gerarchica che contiene tutte le struttura dati gerarchica che contiene tutte le entit

entitàà rilevanti, le relazioni esistenti fra di esse, rilevanti, le relazioni esistenti fra di esse, le regole, gli assiomi, ed i vincoli specifici del le regole, gli assiomi, ed i vincoli specifici del dominio; mentre le terminologie controllate dominio; mentre le terminologie controllate semplicemente restringono l

semplicemente restringono l’’insieme di parole insieme di parole usate per descrivere il dominio.

usate per descrivere il dominio.

Iazzetti &

Iazzetti & CorderoCordero SlidesSlides

(7)

Questo tipo di albero esprime solo Questo tipo di albero esprime solo relazioni di appartenenza per relazioni di appartenenza per esempio

esempio “è“è un..”un..”

In questo grafo abbiamo diverse In questo grafo abbiamo diverse

relazioni tra i nodi:

relazioni tra i nodi:

Istanza,

Istanza, èè unun

Parte / Tutto, fa parte di Parte / Tutto, fa parte di Ontogenesi, origina da Ontogenesi, origina da

Come porre in relazione due oggetti (o geni)?

Come porre in relazione due oggetti (o geni)?

Iazzetti &

Iazzetti & CorderoCordero SlidesSlides

(8)

Implemetando

Implemetando correlazioni tra oggetti diverse dal semplice istanza, si correlazioni tra oggetti diverse dal semplice istanza, si ottengono grafi pi

ottengono grafi piùù complessi in cui ècomplessi in cui è possibile esprimere meglio possibile esprimere meglio complessi rapporti tra

complessi rapporti tra ““oggettioggetti”” biologici memorizzati nei database.biologici memorizzati nei database.

Iazzetti &

Iazzetti & CorderoCordero SlidesSlides

(9)

In questo grafo

In questo grafo èè possibile individuare i geni della serie MCM sia come possibile individuare i geni della serie MCM sia come ““ATP ATP dependent

dependent DNA DNA helicasehelicase”” che attraverso i concetti piche attraverso i concetti piùù generali di generali di ““ATPasiATPasi”” o o

““elicasielicasi”” che restituiranno anche altri geni. Ma che che restituiranno anche altri geni. Ma che èè anche possibile attraverso anche possibile attraverso la categoria (nodo)

la categoria (nodo) ““chromatinechromatine bindingbinding””.. Iazzetti & CorderoIazzetti & Cordero SlidesSlides

(10)

GENE ONTOLOGY GENE ONTOLOGY

CELLULAR CELLULAR COMPONENT COMPONENT

MOLECULAR MOLECULAR

FUNCTION

FUNCTION BIOLOGICAL BIOLOGICAL PROCESS

PROCESS

Descrive Descrive

localizzazioni a localizzazioni a livello di strutture

livello di strutture subcellulari

subcellulari o o complessi molecolari complessi molecolari

Descrive attivit

Descrive attivitàà a a livello molecolare.

livello molecolare. Descrive Descrive goalsgoals biologici ottenuti da biologici ottenuti da un insieme ordinato un insieme ordinato di funzioni molecolari di funzioni molecolari

Iazzetti

Iazzetti & Cordero& Cordero SlidesSlides

(11)

GENE ONTOLOGY GENE ONTOLOGY

CELLULAR CELLULAR COMPONENT COMPONENT

MOLECULAR MOLECULAR

FUNCTION

FUNCTION BIOLOGICAL BIOLOGICAL PROCESS

PROCESS

Iazzetti

Iazzetti & Cordero& Cordero SlidesSlides CellCell NucleusNucleus

Nuclear Nuclear Envelope Envelope

Nuclear

Nuclear InnerInner Membrane Membrane Cytoplasm

Cytoplasm

Kinase

Kinase ActivityActivity

6-6-phosphofructophosphofructo--kinase kinase Activity

Activity

CellCellDeathDeath

Apoptosis Apoptosis

Apoptotic Apoptotic chromosome chromosome condensation condensation

(12)

Queste 3 ontologie in GO prevedono l

Queste 3 ontologie in GO prevedono l’’uso uso di due tipi di relazioni fra gli oggetti:

di due tipi di relazioni fra gli oggetti:

Istanza, Istanza, èè unun

Parte / Tutto, fa parte di Parte / Tutto, fa parte di

Iazzetti

Iazzetti & Cordero& Cordero SlidesSlides

(13)

Iazzetti

Iazzetti & Cordero& Cordero SlidesSlides

Qualsiasi concetto espresso da un termine della gene

Qualsiasi concetto espresso da un termine della gene ontologyontology si può si può rapidamente conoscere il contesto in cui si esprime (nodi con va

rapidamente conoscere il contesto in cui si esprime (nodi con valore lore concettuale pi

concettuale piùù ampio) o discendere verso concetti con valori piùampio) o discendere verso concetti con valori più stringenti o stringenti o parziali

parziali

(14)

Iazzetti

Iazzetti & Cordero& Cordero SlidesSlides

(15)

Iazzetti

Iazzetti & Cordero& Cordero SlidesSlides

(16)

Non significativoNon significativo .00281

.00281 Non Non significativosignificativo

death death

Non significativoNon significativo .00264

.00264 Non Non significativosignificativo

cellcell deathdeath

Non significativoNon significativo .000445

.000445 .001.001

regulation

regulation of apoptosisof apoptosis

.0048 .0048 .00355

.00355 .0048

.0048 cell growth and/or

cell growth and/or maintenance maintenance

.00401 .00401 .000161

.000161 .00401

.00401 regulation of programmed cell

regulation of programmed cell death

death

.00401 .00401 .000161

.000161 .00401

.00401 induction

induction of apoptosisof apoptosis

.00401 .00401 .000161

.000161 .00401

.00401 induction of programmed cell

induction of programmed cell death

death

.00361 .00361 .000161

.000161 .00401

.00401 positive

positive regulationregulation of of apoptosis

apoptosis

.00313 .00313 .000161

.000161 .00401

.00401 positive regulation of

positive regulation of programmed cell death programmed cell death

.00286 .00286 .00182

.00182 .00313

.00313 programmed

programmed cellcell deathdeath

.00272 .00272 .0017

.0017 .00272

.00272 apoptosis

apoptosis

.00161 .00161 Non significativoNon significativo

.00161 .00161 regulation

regulation of of cellcellproliferationproliferation

p-p-valuevalue in 178in 178 p-p-valuevalue in 662in 662

p-p-valuevalue in 3172in 3172 GO categoryGO category

Cordero

Cordero SlidesSlides

(17)

Informazioni

Informazioni estraibili estraibili : :

Il contestoIl contesto in cui ilin cui il gene funzionagene funziona

FenotipoFenotipo

Correlazione con altri geniCorrelazione con altri geni

Cordero

Cordero SlidesSlides

GO non

GO non è è continuamente aggiornata. continuamente aggiornata.

L L ’ ’ unica fonte di informazione biologica aggiornata unica fonte di informazione biologica aggiornata è è PUBMED.

PUBMED.

(18)

PRIMA METODOLOGIA PRIMA METODOLOGIA

DIZIONARIO DIZIONARIO

Cordero

Cordero SlidesSlides

(19)

and VEGFR-3), and soluble form of VEGFR-1

ATTCGATCGACGATTTTAGCCCAGCTAGCCAGCTAGCCATAGC AGTTCCCAGCTAGACAGCTAGC

ATTC

TGTC GGTC TTTT TAGC

AGGC

ARPM2 PRDM16 EGFR LOC401936 KIAA0450

TACAGCCTTCCCACGTTTTAGCTAGAGTCACACAAAGTTTTGC TAGC

Conversione di tutte le lettere i simboli i numeri in un codice basato sui 4 nucleotidi

Cordero

Cordero SlidesSlides

(20)

AATCGTGACGTACAGCAGTACAAA AGTGGTGAACTACATCCATACAAA

Abstract GenBank

AATCGTGACGTACAGCAGTACAAA AGTGGTGAACTACATCCATACAAA NOTCH2

NOTCH

Non c’è soluzione

P=71,7% R=78,8%

GenBank Abstract

Cordero

Cordero SlidesSlides

(21)

Valutazione degli algoritmi

Recall (R) = TP / (TP+FN)

(= numero di geni totali dell’articolo)

Precision (P)= TP / (TP+FP)

(= numero geni riconosciuti)

F-score= 2 * P * R / (P + R)

Cordero

Cordero SlidesSlides

(22)

SECONDA METODOLOGIA SECONDA METODOLOGIA

COSTRUZIONE REGOLE COSTRUZIONE REGOLE

Cordero

Cordero SlidesSlides

(23)

Core-Term

Feature-Term

FILTRAGGIO

Cordero

Cordero SlidesSlides

(24)

FILTRAGGIO

CONCATENAZIONE

Vicinanza POS tagger

Cordero

Cordero SlidesSlides

(25)

FILTRAGGIO

Cordero

Cordero SlidesSlides

(26)

ERRORI:

Riferimenti non corretti Concatenazione

P= 94,70% R=98,84%

Cordero

Cordero SlidesSlides

(27)

TERZA METODOLOGIA TERZA METODOLOGIA

METODOLOGIE STATISTICHE METODOLOGIE STATISTICHE

Cordero

Cordero SlidesSlides

(28)

Metodologie di selezione dei termini da classificare:

Metodologie di selezione dei termini da classificare:

1.1. ShallowShallow parsingparsing (EngCG(EngCG)) 2.2. Alberi decisionaliAlberi decisionali

33. Identificazione statistica Identificazione statistica

Classificazione Classificazione

Internal

Internal evidenceevidence, , NaiveNaive BayesBayes Alberi decisionali:

Alberi decisionali: 45 categorie (nomi geni e proteine, linee cellulari, 45 categorie (nomi geni e proteine, linee cellulari, tessuti

tessuti……))

Combinazione di caratteri Combinazione di caratteri

Cordero

Cordero SlidesSlides

(29)

Valutazione dell

Valutazione dell ’ ’ algoritmo algoritmo

Cordero

Cordero SlidesSlides

(30)

SHALLOW PARSING (EngCG)

Analisi lessicale ed Analisi sintattica

Analisi lessicale Analisi lessicale

Individuazione classe di appartenenza

Scelta di regole euristiche per chiarire le ambiguità Analisi sintattica

Analisi sintattica

Individuazione frasi grammaticalmente eterogenee Estrazione regole sintattiche

Frase non analizzata Frase diagnostica

Modellare regole

Cordero

Cordero SlidesSlides

(31)

Cordero

Cordero SlidesSlides

(32)

Cordero

Cordero SlidesSlides

Riferimenti

Documenti correlati

Non è un caso che la passione di Timoteo divampi su uno sfondo veristico–decadente, quello della squallida borgata dove vive Italia (come non è un caso che,

al fine di realizzare gli obiettivi del predetto piano la Regione, nell’ambito del POR Campania 2000- 2006, Asse1-Misura 1.7., destinava una dotazione finanziaria di 170 milioni di

Tali modelli di stima, noti come Safety Performance Functions (SPFs), Accident Prediction Models (APMs) o ancora Crash Prediction Models (CPMs), si presentano nella

Quel che accade è che il comitato non lavora come tu vorresti che lavorasse: non abbiamo cominciato col fare un’analisi strategica, del mercato, dei nostri punti di forza e

In effetti, le tappe essenziali di questo segmento specifico della indagine critica circa la ricezione della poesia di Ausiàs March sono sostanzialmente ascrivibili ai

Grid based solutions can be exploited for harmonizing distributed services via internet, as well as via local 

Interestingly, significant differences were observed in pleasantness, intensity and familiarity for bottarga odor and taste qualities between women and men, shedding light on

Starting from the generation of point clouds, in the case of certain elements characterized by complex geometries, we can use, as appropriate, the