• Non ci sono risultati.

Espressione della varianza tra più variabili (66).

b) ANALIZZATORE DI MASSA

Equazione 22 Espressione della varianza tra più variabili (66).

Il numero di componenti principali che si possono estrarre è uguale al numero di variabili originali e in ciascuna di essa viene raccolta la maggior informazione possibile da quelle originali. Di conseguenza, più le variabili originali sono correlate, più sarà elevato il loro grado di associazione e il peso su una o più

componenti principali. Ad ogni componente è associata una varianza, riportata in valore relativo percentuale.

In questo caso perciò la prima componente principale corrisponde alla componente che spiega la massima varianza, mentre le successive rappresentano via via la frazione di varianza spiegata residua.

La somma di tutte le frazioni di varianza spiegata è uguale a 100%.

Solitamente, le componenti principali che contengono la quasi totalità dell’informazione utile sono le prime e in numero limitato: vi sono dei criteri che permettono di stabilire il livello ritenuto sufficiente perché l’analisi sia rappresentativa dei dati del sistema.

Un primo approccio, abbastanza arbitrario, potrebbe essere quello di fermarsi quando la varianza spiegata cumulativa (somma delle varianze relative delle prime componenti principali) supera una percentuale del 75-80%. In figura 62, sono rappresentati in tabella gli autovalori (eigenvalue), la corrispondente varianza e quella cumulativa, dimostrando che l’80% si raggiunge e supera considerando come significative le prime 4 componenti principali.

Figura 62 Tabella degli autovalori delle componenti principali.

Un metodo meno arbitrario è costituito dai diagrammi a pendio (screen plot) come in figura 63.

Figura 63 Diagramma a pendio delle componenti principali.

In questo grafico sono rappresentate, in ogni punto, le componenti principali, con la relativa varianza spiegata percentuale: in ascissa sono rappresentati i numeri delle componenti principali e in ordinata gli autovalori ossia la varianza spiegata associata a ciascun autovettore (componente principale).

All’inizio si ha un lento declino della pendenza della tangente ai punti, per poi variare rapidamente fino ad un plateaux, giustificato con il rumore di fondo sperimentale: si considera come ultima componente significativa, quella rappresentata dal punto in cui la tangente non cambia più drasticamente la sua pendenza.

Per eliminare il disturbo di fondo è possibile visualizzare lo stesso diagramma con il logaritmo degli autovalori, dove la tangente e il punto in cui la sua pendenza non varia più in modo significativo è di più facile visualizzazione.

Dopo le opportune scelte, il risultato, mostrato in figura 64, è il plot tra la prima e la seconda componente e nel secondo grafico, la prima componente contro la terza, degli stessi dati: si riescono a distinguere classi diverse di composti.

Figura 64 Esempi di PCA con le prime tre componenti principali.

I diagrammi ottenibili dal software sono numerosi: si possono introdurre i concetti di loadings e di scores. La matrice dei loadings è la matrice le cui colonne rappresentano gli autovettori della matrice di covarianza o correlazione: poiché le righe rappresentano le variabili originali, selezionando un autovettore, in ciascuna riga vi è il coefficiente numerico che rappresenta l’importanza di quella variabile in quell’autovettore. Se il valore numerico si avvicina a 1, in valore assoluto, significa che quella componente principale sarà maggiormente rappresentata da quella variabile; se 0, avrà scarso significato per quella componente: la tabella ottenuta è mostrata in figura 65.

Mentre in figura 66 si mostra un esempio di loading plot (diagramma di dispersione delle variabili sulle componenti principali): si tratta di un grafico bidimensionale in cui le componenti presenti sono scelte arbitrariamente e che, in base al software utilizzato, assumono nomi diversi, in questo caso fattori. Le variabili poste vicino all’origine degli assi, cioè quelle con poco significato per entrambe le componenti, sono in numero molto ridotto; molte invece sono le variabili poste agli estremi dell’asse delle ascisse (valore, in modulo, vicino a 1), che avranno molto peso per la prima componente .

Figura 65 Importanza dei loadings per una determinata componente.

Figura 66 Diagramma di dispersione delle variabili sulle componenti principali.

Gli scores invece sono il risultato di una combinazione lineare tra le variabili originali e, come coefficienti di combinazione, i loadings di quella componente.

Gli scores assumono valori numerici qualsiasi ma con valor medio pari a 0 e rappresentano le nuove coordinate degli oggetti di studio nello spazio delle componenti principali, solitamente due, ottenendo un grafico bidimensionale.

Lo score plot (diagramma di dispersione dei campioni) ottenuto, permette di analizzare il comportamento degli oggetti lungo le componenti principali e le loro eventuali similarità.

Allo stesso modo del loading plot (variabili nello spazio), si possono individuare gruppi, outliers, regolarità, distribuzioni degli oggetti nello spazio e peso relativo degli stessi su una determinata componente (figura 67).

Figura 67 Importanza degli score per una determinata componente.

4.1 Verifica intensità di segnale standard interno

Prima di cominciare l’analisi metabolomica, è stata verificata l’intensità di segnale dello standard interno nei campioni, con l’obiettivo di verificare la ripetibilità e la confrontabilità dei campioni. Il mantenimento di una intensità di segnale confrontabile nei diversi campioni e delle repliche effettuate, è una garanzia della ripetibilità del processo di trattamento del campione effettuato; pur non essendo lo standard interno rappresentativo per ogni classe di campioni analizzata, si è scelto di aggiungere una sola sostanza per non introdurre ulteriore complessità negli spettri di massa, con il rischio di coeluizione con altri metaboliti presenti nelle piante. L’utilizzo di un solo standard interno, come consigliato da De Vos set al., (2007) (36) viene considerato comunque una garanzia di un corretto svolgimento della procedura di trattamento del campione. Dalle verifiche sperimentali risulta che l’acido salicilico ionizza molto bene in negativo, perciò si sono misurate le intensità di segnale del fitormone con massa 143.0445 che eluisce a un tempo di ritenzione di circa 17.5 minuti.

Nella tabella in appendice III sono presenti i dati ottenuti nei campioni analizzati e nei bianchi in modalità di ionizzazione negativa, con i tempi di ritenzione e le masse esatte sperimentali dei singoli campioni.

Dall’analisi dei dati si nota la presenza di un campione non omogeneo con i restanti dati: il campione NlGR1 che, sulla base di questa rilevazione e di altre considerazioni spiegate successivamente, è stato escluso dall’elaborazione dei dati.

Nella figura 68, invece, si presenta un grafico che visivamente permette di valutare l’andamento dell’intensità di segnale dell’acido salicilico marcato nei campioni medi delle varie modificazioni e stress e nei bianchi.

Figura 68 Controllo intensità di segnale standard interno nei campioni analizzati in modalità negativa.

In figura 68 si può notare come l’intensità di segnale di acido salicilico marcato nei campioni sia pressoché stabile attorno ad un livello di 2*106.

La concentrazione media di acido salicilico nei bianchi è 4*106, il doppio di quella nei campioni: il dato può

essere giustificato dalla soppressione del segnale dovuta alla complessa matrice biologica dei campioni di Nicotiana L. che manca nei bianchi. In matrice solitamente sono presenti specie ioniche (elettroliti inorganici e sali), composti molto polari come fenoli o pigmenti, molecole organiche come carboidrati, ammine, urea, lipidi e peptidi in alte concentrazioni.

bianchi WT WTCR WTIDR WTterm NlGR GRCR GRIDR NlGRTerm

ROLC ROLCCR ROLCIDR ROLCTerm 0,00E+00 1,00E+06 2,00E+06 3,00E+06 4,00E+06 5,00E+06 0 2 4 6 8 10 12 14 In ten si d i s eg na le Numero di campioni