• Non ci sono risultati.

2.4 Domini Strutturati: Notazione e Metodologie

3.1.1 Descrittori Molecolari

Tra i pi`u comuni approcci alla modellazione QSAR troviamo quelli basati sui descrit- tori molecolari. Uno dei modi per trattare un’entit`a chimica, come una molecola, in un modello matematico, `e quello di codificarla mediante alcune sue propriet`a fisico chimiche. Questo ha portato all’identificazione di quelle caratteristiche fisico/chimiche che sono in qualche modo correlate ad un certo endpoint, chiamate descrittori. La caratteristica principale dei descrittori `e quella di codificare una molecola in una serie di propriet`a numeriche, utilizzabili all’interno di un modello matematico.

Esempi di semplici descrittori sono rappresentati dal peso molecolare o il momento dipolare, ma in letteratura [45] `e presente un ampio numero di tipi di descrittori diversi, ed una loro trattazione completa esula dagli scopi di questo progetto.

Ad esempio, descrittori molecolari come la polarizzabilit`a di un composto, o il suo peso molecolare, possono essere predette direttamente, oppure usate a loro volta in un modello QSAR per stabilire un’altra propriet`a di interesse. Se siamo interessati a stabilire la tossicit`a T (M ) di una certa molecola M , un semplice modello QSAR potrebbe fornire una predizione con una combinazione lineare di alcuni descrittori:

T (M ) = αP ol(M ) + βW (M ) + γ

dove W (M ) e P ol(M ) rappresentano, rispettivamente il peso molecolare e la polariz- zabilit`a del composto M e i parametri α, β e γ sono parametri propri del modello.

L’utilizzo dei descrittori presenta, tuttavia, alcuni problemi. In primo luogo la selezione dell’insieme dei descrittori da usare `e specifica dell’endpoint da predire, e necessita del supporto di un esperto del dominio. Inoltre, la codifica di una molecola nell’insieme di descrittori pu`o portare ad una perdita di informazioni potenzialmente rilevanti per la predizione dell’endpoint.

Una particolare classe di descrittori `e rappresentata dai frammenti molecolari.

3.1.1.1 Frammenti Molecolari

Dato un composto, `e possibile determinare la presenza al suo interno di uno o pi`u fram- menti. Un frammento `e una parte di molecola che ricorre frequentemente all’interno di alcune famiglie di composti chimici, e fa parte dei descrittori molecolari usati in tossi- cologia. `E noto [46] che alcune propriet`a fisico/chimiche di un composto, come il valore log P , possono essere determinate dalle propriet`a note dei suoi frammenti. I modelli QSAR che si basano sui frammenti vengono chiamati GQSAR (Group Quantitative StructureActivity Relationship) e permettono un’ampia flessibilit`a nello studio delle relazioni tra i frammenti e la variazione di risposte biologiche.

`

E possibile codificare la presenza di determinati frammenti in una molecola me- diante un vettore di bit di presenza, i cui elementi segnalano la presenza, o meno, di un certo frammento all’interno della molecola. Questo vettore prende il nome di finger- print di una molecola, il quale viene spesso usato per definire una metrica tra diverse molecole. Uno degli indici pi`u usati a questo scopo `e l’indice di Tanimoto [47], il quale, dati due vettori fingerprint F1 ed F2 associati a due molecole M1 ed M2, definisce la

3.1 Tossicologia Computazionale e Modelli QSAR 41

loro somiglianza mediante la seguente equazione: T (F1, F2) =

F1· F2

kF1k2+ kF2k2− F1· F2

∈ [0, 1]

dove, in questo caso, F1· F2 rappresenta il prodotto scalare tra i due fingerprint.

Approcci basati su questo descrittore, definiscono misure di similarit`a basate su indici come quello di Tanimoto.

3.1.2

Structural Alert

Diversi studi [48,49] hanno mostrato una certa ricorrenza di sottostrutture molecolari, chiamate structural alert associate a certe caratteristiche tossicologiche. Sebbene la semplice presenza di una di queste sottostrutture non basti a conferire una propriet`a tossicologica ad un composto, resta un utile indice per valutarne la sua pericolosit`a complessiva. (a) SA 7: Epoxides e Aziridines (b) SA 13: Gruppo Hy- drazine (c) SA 14: Gruppi Aliphatic Azo e Azoxy (d) SA 21: Gruppi Alkyl e Aryl N-nitroso

(e) SA 22: Gruppi Azide e Triazene

Figura 3.1: Esempi di structural alert mutageniche, dove R rappresenta un qualsiasi gruppo atomico e R1 un carbonio alifatico o aromatico

Nel tempo sono stati realizzati elenchi [50,51] di structural alert tossicologiche, dei quali ne vengono qui riportati alcune riguardanti la mutagenicit`a (visibili in Fig. 3.1) di nostro particolare interesse nell’ambito di questa tesi. Per seplicit`a di notazione, nel corso di questa tesi faremo riferimento numero alle structural alerts basandoci sulla numerazione riportata nell’elaborato [48].

3.2

Strumenti Disponibili

In risposta alla direttiva REACH, nel tempo, sono stati sviluppati alcuni strumenti capaci di predire alcune tra le pi`u importanti caratteristiche dei composti. Questi strumenti prendono in ingresso la molecola da predire, in uno dei formati comunemente usati nella cheminformatica come SDF [52] o SMILES [53], e restituiscono la predizione per la propriet`a di interesse, usando un modello specifico.

Nella cheminformatica il formato SDF `e comunemente usato per conservare su disco un database contenente diverse molecole, mentre il formato SMILES ha il vantaggio di poter codificare una singola molecola in un unica stringa. Formati come SMARTS sono invece usati per ricercare particolari sotto-strutture molecolari, con un formato simile a quello delle espressioni regolari.

In questa sezione faremo una breve rassegna ad alcuni tra i principali strumenti free disponibili, ponendo l’accento sul tipo di modelli usati per effettuare le predizio- ni. Accenneremo inoltre alla possibilit`a offerta dai seguenti tool di contestualizzare la loro predizione all’interno del loro dominio applicativo, ovvero di mostrare quanto la molecola predetta si discosta da quelle usate per formare i modelli.

3.2.1

EPI Suite

EPI [54] (Estimation Programs Interface) Suite `e un insieme di strumenti usati per stabilire le propriet`a fisico/chimiche di una sostanza, con particolare attenzione al suo impatto ambientale. Il tool, visibile in Fig. 3.2, permette di valutare un numero piuttosto ampio di endpoint, come ad esempio:

• stima del coefficiente log P del composto (si veda Sez. 3.1.1.1);

• punto di fusione, ebollizione e pressione del vapore di sostanze organiche; • stima del tempo di dimezzamento di diverse classi di composti chimici.

3.2 Strumenti Disponibili 43

Figura 3.2: Esempio di predizione con il tool EPI Suite.

ed ogni propriet`a viene calcolata con un modello specifico. Per ottenere il valore di diversi endpoint, EPI Suite fa affidamento a modelli di regressione lineare basati su dataset, utilizzando i descrittori molecolari come parametri. Questo approccio, sebbene da un lato semplifichi la costruzione dei modelli, dall’altro limita l’attendibilit`a della previsione.

Inoltre il tool si limita a fornire il valore della previsione senza fornire ulteriori indicazioni sul modello specifico che l’ha generata, o sull’appartenenza della molecola al suo dominio applicativo.

3.2.2

T.E.S.T.

Il sistema T.E.S.T. [55] (Toxicity Estimation Software Tool) permette all’utente, di effettuare predizioni sia di tipo tossicologico, sia rispetto ad altri parametri fisico/chi- mico. Tra gli endpoint tossicologici supportati abbiamo:

• tossicit`a dello sviluppo; • mutagenicit`a;

• fattore di bioconcentrazione;

Mentre, tra le propriet`a fisico/chimiche che `e possibile predire, abbiamo: • temperatura di ebollizione e di fusione;

• densit`a;

• solubilit`a in acqua a 25◦C; • conduttivit`a termica;

Per la predizione degli endpoint, T.E.S.T. mette a disposizione diverse metodologie QSAR, tra cui:

FDA Method (Food and Drug Administration Method) La predizione `e basata sulla propriet`a che possiede il composto noto pi`u simile a quello per cui `e richiesta la predizione;

Single-model Method La predizione viene generata da un modello a regressione non lineare. In T.E.S.T. il modello viene addestrato usando i descrittori come features, mediante un algoritmo genetico;

Group Contribution Method La predizione viene generata da un modello a regres- sione non lineare. In questo caso, il modello viene addestrato usando la conta dei frammenti presenti come features;

Hierarchical Method La tossicit`a del composto `e stimata usando una media pesata delle predizioni di diversi modelli. In T.E.S.T. i differenti modelli sono ottenuti suddividendo il dataset di addestramento in una serie di cluster strutturalmente simili, usando il metodo di Ward[56], e generando altrettanti modelli usando una serie di algoritmi genetici;

Nearest Neighbor Method La tossicit`a `e predetta sulla base del valore di tossicit`a delle molecole pi`u simili all’interno del training set;

Consensus Method Il valore predetto `e il risultato di una media tra i responsi di diversi altri metodi QSAR.

Random Forest Method Il valore di tossicit`a predetto `e stimato usando un albero di decisione che separa i composti chimici entro dei range di valori, usando i descrittori chimici come variabili decisionali.

Il risultato viene fornito mediante una serie di file HTML che racchiudono sia il risultato della predizione, sia utili informazioni sul modello che l’ha generata.

3.2 Strumenti Disponibili 45

Figura 3.3: La risposta del modello sulle molecole con propriet`a note, rispetto al valore target.

Tra gli aspetti che differenzia T.E.S.T. dagli altri strumenti simili troviamo la pos- sibilit`a di effettuare una predizione usando diversi modelli alla volta e l’attenzione che viene posta sulla trasparenza del risultato.

In questa sezione vedremo un esempio di risultato ottenuto su un composto, me- diante un modello appartenente alla classe dei Group Contribution Method.

Una volta effettuata la predizione, il sistema genera un report dettagliato sul ri- sultato. In Fig. 3.3 `e possibile osservare il grafo riportato nel report, il quale mostra la distribuzione della risposta del modello rispetto ai valori target di tutte le molecole del training set. A seconda della classe di modelli usata, nel report generato vengono forniti i dettagli sul numero e tipo di frammenti individuati nella molecola (vedere Fig

3.5) e dei descrittori usati (vedere Fig 3.6).

[h!] In questo tool, il risultato non viene solamente espresso mediante un responso netto, piuttosto la risposta numerica del modello viene affiancata al range per il quale il composto dovrebbe essere considerato tossico secondo il modello (vedere Fig3.7).

All’interno del report `e inoltre presente l’equazione usata dal modello (visibile in Fig. 3.4) con i pesi associati alla presenza dei vari frammenti nella molecola.

Figura 3.4: Esempio di equazione estesa del modello usato da T.E.S.T. disponibile nel report generato.

Figura 3.5: Frammenti individuati nel composto.

3.2 Strumenti Disponibili 47

Figura 3.7: Risultato della predizione espresso numericamente da T.E.S.T.

3.2.3

Vega

Completiamo questa breve rassegna con il tool Vega3 [57], il quale `e uno strumento che

fornisce supporto decisionale a persone esperte nella valutazione di propriet`a chimiche di composti, fornendo un’ampia gamma di informazioni sul dominio applicativo, a corredo della predizione.

Per generare la predizione, Vega fa uso di modelli QSAR e strumenti read-across (vedere Sez. 3.1) allenati su diversi dataset, usando diversi descrittori per codificare le molecole. Questi modelli permettono di effettuare una predizione su diversi endpoint, sia fisico/chimici come la predizione LogP, sia biologici come:

• Mutagenicit`a; • Carcinogenicit`a;

• Sensibilizzazione Cutanea;

3La sigla sta per Virtual Models for Evaliating the Propeties of Chemical Within a Global

Il responso, assieme alle informazioni valutative, viene fornito mediante un report ge- nerato in PDF diviso in diverse capitoli, uno per ogni endpoint analizzato. Per ogni endpoint, il pdf conterr`a due sezioni principali:

• Riepilogo della Predizione; • Dominio Applicativo;

Nelle seguenti sezioni analizzeremo nel dettaglio queste parti, rilevanti ai fini della trattazione.

3.2.3.1 Riepilogo della Predizione

Figura 3.8: Riepilogo

In questa sezione del PDF generato `e presente un’immagine del composto analiz- zato, con allegato una breve descrizione della predizione e della sua affidabilit`a (vedere Fig. 3.8). Fornisce inoltre informazioni sulla presenza:

• di structural alerts individuati all’interno della molecola (vedere Sez. 3.1.2); • di valori sperimentali legati al composto analizzato;

3.2.3.2 Dominio Applicativo

Il dominio applicativo indica l’idoneit`a del predittore nel valutare il composto specifico, ed `e definito mediante alcuni aspetti cruciali, quali:

3.2 Strumenti Disponibili 49

Composti Simili Una lista di molecole simili al composto (vedi Fig. 3.9). Ognuno presenta un indice di somiglianza, il suo valore sperimentale per la propriet`a che si vuole predire, e il relativo valore predetto da Vega per quella molecola;

Punteggi Valutati sul Dominio Applicativo Che contiene un riassunto delle in- formazioni utili a valutare la qualit`a della predizione (vedere Fig. 3.10), come ad esempio il numero di composti nel training set molto simili a quello fornito, quanto siano stati valutati correttamente, o se i parametri del composto siano entro i valori per cui `e stato addestrato il predittore;

Figura 3.9: Composti Simili

Vega riunisce tutti i dati utili a stabilire l’affidabilit`a della predizione in un insieme di indici, quali:

• Molecole simili, con un risultato sperimentale noto. Questo indice evidenzia l’eventuale presenza di molecole simili a quella predetta, tra quelle presenti nel training set su cui `e stato addestrato il modello.

• L’accuratezza della predizione tra le molecole simili.

• Concordanza tra il valore predetto e quello sperimentalmente riscontrato nelle molecole simili.

• Presenza di uno o pi`u frammenti assenti, o scarsamente presenti, nelle molecole note.

Figura 3.10: Dominio Applicativo

• Presenza di descrittori, nel composto predetto, i cui valori si discostano ampia- mente rispetto a quelli presenti nelle molecole note.