• Non ci sono risultati.

L’analisi cromatografica dei mieli considerati ha previsto l’identificazione e la quantificazione di un numero elevato di analiti. Inoltre, uno degli obiettivi principali del lavoro di tesi è quello di ottenere dei profili caratteristici per le varietà di mieli uniflorali analizzati. Per gestire in modo semplice il grande quantitativo di dati raccolti, e soddisfare tale obiettivo, si è scelto di trattare i risultati con l’analisi delle componenti principali (PCA). Questo metodo di analisi chemometrica permette di vi- sualizzare l’insieme dei campioni in uno spazio bidimensionale, ovvero osservando solamente due parametri per ciascun campione. Tali parametri, che prendono appunto il nome di componenti prin- cipali, sono determinati in modo da contenere la maggior quantità possibile delle informazioni pos- sedute inizialmente dai risultati complessivi delle analisi.

Si consideri, in generale, un insieme di m campioni analitici di cui vengono misurati un numero n di parametri (ad esempio la concentrazione di n analiti, o n diversi parametri chimico-fisici). Per cia- scuno degli n parametri, si potranno calcolare su tutto l’insieme dei campioni una media 𝑥̅𝑖 ed una

deviazione standard si (i = 1, …, n), utilizzando le equazioni (3.12) e (3.13). 𝑥̅𝑖 = 1 𝑚∑ 𝑥𝑖 𝑖 𝑠𝑖= 1 𝑚 − 1∑ (𝑥𝑖− 𝑥̅𝑖) 2 𝑖 (3.12) (3.13) In termini strettamente matematici, i campioni possono essere visualizzati come punti nello spazio n-dimensionale, in cui ciascuna dimensione misura il valore di uno dei parametri. In generale, questi parametri possono rappresentare grandezze molto diverse tra loro, e pertanto si potrà avere a che fare con range di valori differenti lungo ciascuna dimensione. Il primo passo per il calcolo delle componenti principali è di solito l’autoscalatura dell’insieme di dati. Questa operazione matematica rende confrontabili insiemi di dati relativi a parametri diversi tra loro. L’autoscalatura del valore xij, in cui i indica il parametro e j il campione, è ottenuta con l’equazione (3.14).

𝑥𝑖𝑗′ =

𝑥𝑖𝑗− 𝑥̅𝑖

𝑠𝑖

~ 39 ~

Si può osservare che un insieme di dati autoscalati ha media pari a 0 e deviazione standard pari a 1. Notare inoltre che l’autoscalatura conserva tutte le informazioni contenute inizialmente nell’in- sieme di dati. La deviazione standard di tutto l’insieme dei dati dopo l’autoscalatura sarà pari al numero n di parametri, poiché ciascun parametro avrà deviazione standard unitaria. La deviazione standard, che può essere vista come rappresentativa del quantitativo di informazioni fornito da ciascun parametro, sarà quindi equamente distribuita lungo tutte le dimensioni. Le componenti principali vengono calcolate a questo punto, come una trasformazione lineare delle coordinate ini- ziali dei campioni. Inoltre, tali componenti vengono calcolate in modo che la deviazione standard non sia più ripartita uniformemente tra di esse, ma sia contenuta il più possibile all’interno delle prime due o tre. In questo modo, una volta rappresentati i campioni nello spazio delle componenti principali, sarà sufficiente osservare due o al massimo tre di queste, invece che tutte, per poterli confrontare.

Come noto, una trasformazione lineare consiste nel passare da un sistema di n coordinate ad un altro, in modo che ciascuna nuova coordinata sia data da una combinazione lineare di tutte le pre- cedenti. In notazione matriciale, questo può essere riassunto nell’equazione (3.15).

𝑐⃑′ = 𝐴𝑐⃑ (3.15)

La matrice A Є Rnxn, che permette di convertire il vettore c (che descrive un campione nello spazio n-dimensionale iniziale) nel vettore c’ (che invece lo descrive nello spazio delle componenti princi- pali), è detta matrice dei loadings. Le colonne della matrice A sono a loro volta costituite dagli au- tovettori della matrice di covarianza C, i cui elementi cab corrispondono alla covarianza dei parame- tri a e b, secondo l’equazione (3.16). In alternativa alla matrice di covarianza, gli autovettori possono essere calcolati anche dalla matrice di correlazione P, i cui elementi pab sono gli indici di correlazione di Pearsons, che si calcolano secondo l’equazione (3.17).

𝑐𝑎𝑏= 1 𝑛∑ (𝑥𝑖 𝑎𝑖− 𝑥̅𝑎)(𝑥𝑏𝑖− 𝑥̅𝑏) 𝑝𝑎𝑏 = 𝑐𝑎𝑏 𝑠𝑎𝑠𝑏 (3.16) (3.17) Sia C che P sono matrici simmetriche, poiché cab = cba e pab = pba. Le matrici simmetriche sono sempre dotate di un numero di autovettori linearmente indipendenti pari alla loro dimensione, e questo assicura che sia da C che da P sia possibile ottenere un insieme di n autovettori, che costituiranno le colonne di A e permetteranno il calcolo delle componenti principali. Gli autovettori così calcolati avranno dei corrispondenti autovalori, ed anche questi hanno un significato fondamentale: ciascun autovalore indica quale parte della varianza totale iniziale è contenuta in ciascuna componente principale. Quando dunque un software di calcolo viene utilizzato per calcolare le componenti prin- cipali, verrà contato come primo vettore dei loading (prima colonna di A) l’autovettore il cui auto- valore corrispondente è il maggiore, e tutti i vettori successivi verranno ordinati in modo decre- scente a seconda del loro autovalore. L’algoritmo di calcolo è riassunto nello schema in Figura 3.3. Una volta calcolate le componenti principali (PC), i campioni vengono visualizzati in un grafico bidi- mensionale contenente le prime due di esse, denominato scatter plot. Dato che nelle prime due componenti principali è contenuta la massima varianza possibile, i campioni potranno essere visua- lizzati e confrontati sulla base di due sole PC, con una perdita minima del quantitativo di informa- zioni. Di solito, all’interno dello scatter plot si osserva il raggruppamento dei campioni in gruppi, a seconda delle caratteristiche comuni che hanno tra loro. Questo risulta particolarmente utile nel

~ 40 ~

caso dell’analisi del miele, poiché qualora i campioni con stessa origine botanica formassero dei gruppi, sarebbe possibile stabilire quali parametri sono discriminanti per ciascuna varietà uniflorale.

Figura 3.3 – Algoritmo di calcolo delle componenti principali.

Nel presente lavoro di tesi, l’analisi delle componenti principali è stata eseguita con il software XLSTAT, un’estensione del programma Microsoft Office Excel. Questa tecnica chemometrica è stata impiegata sui risultati ottenuti dalle analisi dei campioni di miele, con l’obiettivo di individuare dei gruppi di campioni e stabilire le principali differenze e caratteristiche distintive di ciascuna varietà floreale di miele. Le variabili utilizzate per descrivere i campioni sono state le aree integrate dei picchi cromatografici. Prima di calcolare la matrice C e determinarne gli autovettori, le aree sono state normalizzate in modo che la loro somma per ogni campione fosse pari a 100.

Calcolo dei vettori dei campioni nello spazio delle PC

Documenti correlati