• Non ci sono risultati.

Scopo del lavoro e stato dell’arte

3.2.2 Risultati dell’analisi HPLC-DAD

3.2.2.1 Caratterizzazione qualitativa della frazione polifenolica

Nel tentativo di individuare un profilo chimico caratteristico dei vari distillati, si è partiti dagli studi presenti in letteratura riguardanti distillati con elevato grado alcolico, così da individuare le condizioni operative ed i possibili marker per i campioni a disposizione [107]. Per identificare qualitativamente i picchi cromatografici dei distillati [108], sono stati iniettati standard di polifenoli (a concentrazioni differenti, da 1 ppm a 50 ppm) e mix degli stessi. Gli standard utilizzati sono stati analizzati in triplicata ed è stato calcolato il tempo di ritenzione medio: acido gallico (RT 2.8 min), acido clorogenico (RT 3.4 min), acido caffeico (RT 4.9 min), gallocatechina (RT 13.1 min), epicatechina (RT 13.3 min). Nella Figura 40 sono riportati a titolo di esempio i cromatogrammi registrati ad una lunghezza d’onda di 280 nm di una grappa, di un distillato di pere, di cereali e di mirtilli. Come si può notare, vi è una differenza significativa nella distribuzione polifenolica tra i distillati: ad esempio, in corrispondenza dei tempi di ritenzione delle catechine (13.1 e 13.3 min) nel cromatogramma del distillato di pere e di riso si ha una ridotta presenza di segnali, mentre, in quella stessa regione, i distillati di mirtilli, di mele e le grappe presentano picchi di intensità significativa. Per avere un panorama più completo sulla differenza tra campioni di grappa e altri distillati e per poter verificare la possibilità di costruire modelli predittivi che permettano l’autenticazione dei campioni di grappa e la loro differenziazione rispetto ad altri distillati, a partire dall’insieme dei dati cromatografici raccolti si è proceduto ad una successiva analisi chemiometrica attraverso modelli di classificazione.

99

100 3.2.2.2 Analisi chemiometrica dei dati sperimentali: modelli PLS-DA e SIMCA

Anche in questo caso, a partire dai dati cromatografici è stata utilizzato un approccio chemiometrico attraverso modelli di classificazione. Le tecniche di classificazione hanno bisogno di un numero sufficiente di campioni per i quali la categoria sia nota (denominato training set) per creare il modello, ovvero per poter stimare il valore ottimale dei suoi parametri. In particolare, per la costruzione del modello si applica la regola di Bayes, secondo la quale un campione incognito sarà assegnato alla classe la cui probabilità a posteriori di appartenenza risulti maggiore. Questa regola viene poi applicata a campioni di cui si conosce l’appartenenza, ma che sono trattati come se fossero campioni incogniti (test set), per verificare la capacità predittiva del modello. Per procedere alla classificazione, dunque, anche in questo caso i dati cromatografici sono stati suddivisi in due sotto-set: un training set per la costruzione del modello ed un test set per la validazione esterna. La divisione dei segnali è stata effettuata tramite l’algoritmo Duplex, che assicura la stessa rappresentatività delle misure di training e di test; 104 cromatogrammi sono stati selezionati per far parte del training set e 36 cromatogrammi del test set. I dati cromatografici raccolti in formato .arw sono stati esportati in Matlab per la successiva analisi chemiometrica e suddivisi in due categorie: Grappa ed Altri distillati. In particolare, dal momento che ogni profilo HPLC-DAD è rappresentato da una matrice 2701(tempi di ritenzione) x 269 (lunghezze d’onda), il data set completo, contenente i cromatogrammi (registrati almeno in duplicato) di tutti i campioni in analisi, è stato organizzato in un cubo di dati di dimensioni 140 x 2701 x 269. Una volta importati, tuttavia, i dati cromatografici non possono essere utilizzati tal quali per poter costruire i modelli chemiometrici predittivi per la classificazione dei campioni poiché risulta necessario rimuovere quanto più possibile le diverse fonti di variabilità spuria che affliggono il segnale. Per tale motivo, una volta acquisiti tutti i profili cromatografici, la correzione della linea di base è stata effettuata mediante l’algoritmo penalized asymmetric least squares (AsLs) (Figura 41(a)), e l’allineamento dei segnali è stato effettuato utilizzando iCoshift (Figura 41(b)).

I modelli discriminanti, costruiti col metodo PLS-DA, sono stati ottenuti analizzando separatamente le matrici alle tre lunghezze d’onda indagate: 280 nm, 320 nm e 360 nm. La scelta della complessità ottimale del modello è stata effettuata scegliendo il numero di variabili latenti che portasse al minore errore di classificazione in una procedura di cross-validation (CV) con 10 gruppi di cancellazione. Il modello così ottimizzato è stato poi applicato ai campioni del test set, per la successiva fase di validazione. Per quanto riguarda i modelli basati sui segnali raccolti a 280 nm si è ottenuta un’elevata percentuale di campioni classificati correttamente (superiore all’88% sia in calibrazione che in cross-validation). Tuttavia, in fase di validazione esterna, mentre la classe

101 Altri distillati è stata classificata perfettamente, si è ottenuta una percentuale più bassa (attorno al 68%) di corrette predizioni per la categoria delle grappe. Questi risultati sono riportati in Tabella 11 e possono essere visualizzati anche graficamente in Figura 42, dove è riportata la proiezione dei campioni sullo spazio delle prime tre variabili latenti.

Per interpretare i risultati ottenuti in termini chimici, si è fatto ricorso al calcolo degli indici VIP (Variable Importance in the Projection). Gli indici VIP sono dei punteggi associati a ciascuna variabile sperimentale, che ne quantificano il contributo nella definizione del modello PLS-DA (Figura 43). Come si può vedere dal grafico, le variabili rilevanti nella costruzione del modello di classificazione sono tutte regioni del cromatogramma dove cadano dei segnali, a testimonianza del fatto che non si tratti di correlazioni casuali. Inoltre, guardando i contributi relativi dei diversi picchi, sembra che il modello sia influenzato principalmente dai costituenti maggiori della frazione in analisi.

Figura 41(a). Esempio di correzione della linea di base effettuato sui cromatogrammi dei campioni ad una

lunghezza d’onda di 320 nm.

Figura 41(b). Esempio di correzione della linea di base ed allineamento, attraverso l’algoritmo iCoshift,

102

Tabella 11. Risultati dell’analisi PLS-DA sulla matrice dei cromatogrammi a 280 nm.

Classe LV Classificazioni corrette (%)

Calibrazione Cross-validation Test Grappa

7 96.9 93.8 67.9

Altri Distillati 88.8 84.0 100.0

Figura 42. Modello PLS-DA sui cromatogrammi a 280 nm: rappresentazione dei campioni sullo spazio delle

prime tre variabili latenti. Legenda: cerchi rossi vuoti – grappa training set; cerchi rossi pieni – grappa test set; quadrati blu vuoti – Altri distillati training set; quadrati blu pieni – Altri distillati test set.

Figura 43. Modello PLS-DA sui cromatogrammi a 280 nm: indici VIP (barre verdi), sovrapposti al

103 Lo stesso tipo di trattamento chemiometrico è stato ripetuto a partire dalla matrice dei cromatogrammi registrati a 320 nm. In questo caso il numero ottimale di variabili latenti è stato pari a 3 ed i risultati corrispondenti sono riportati in Tabella 12. Come si può osservare dalla Tabella, l’utilizzo del segnale a 320 nm porta a percentuali di corretta classificazione più alte, soprattutto nel caso della classe Altri distillati, in calibrazione e cross-validation. Sui campioni di validazione, invece, si ottengono risultati praticamente uguali a quelli del modello costruito sui segnali a 280 nm. Anche in questo caso, i risultati della classificazione possono essere apprezzati graficamente andando a rappresentare gli scores dei campioni sulle tre variabili latenti sui cui è basato il modello (Figura 44).

Tabella 12. Risultati dell’analisi PLS-DA sulla matrice dei cromatogrammi a 320 nm.

Classe LV Classificazioni corrette (%)

Calibrazione Cross-validation Test Grappa

3 95.8 94.4 66.7

Altri Distillati 93.1 93.1 100.0

Figura 44. Modello PLS-DA sui cromatogrammi a 320 nm: rappresentazione dei campioni sullo spazio delle

tre variabili latenti del modello. Legenda: cerchi rossi vuoti – grappa training set; cerchi rossi pieni – grappa test set; quadrati blu vuoti – Altri distillati training set; quadrati blu pieni – Altri distillati test set.

104 Anche questo modello è stato poi interpretato attraverso il calcolo e la rappresentazione degli indici VIP, che sono qui riportati in Figura 45: l’analisi dei risultati indica, anche in questo caso, che le variabili che risultano significative nella definizione del modello corrispondono a picchi o porzioni di picchi e, quindi, a segnali chimicamente rilevanti all’interno del cromatogramma. Andando a vedere l’importanza relativa delle diverse regioni del segnale, si nota ancora una volta come nella maggior parte dei casi i contributi più significativi vengano dagli analiti più abbondanti.

Figura 45. Modello PLS-DA sui cromatogrammi a 320 nm: indici VIP (barre verdi), sovrapposti al

cromatogramma medio dei campioni. La linea tratteggiata rossa indica il valore di soglia VIP = 1.

Meno interessanti invece sono i modelli costruiti sulla matrice di segnali a 360 nm: l’informazione contenuta in questi profili non è risultata discriminante per le due categorie in esame. In questo caso, la complessità ottimale del modello, valutata attraverso una cross-validation con 10 gruppi di cancellazione, è risultata essere una sola variabile latente. I risultati sono riportati in Tabella 13.

Tabella 13. Risultati dell’analisi PLS-DA sulla matrice dei cromatogrammi a 360 nm.

Classe LV Classificazioni corrette (%)

Calibrazione Cross-validation Test Grappa

1 53.3 53.3 53.3

Altri Distillati 79.3 69.0 83.3

Partendo da queste considerazioni, si è voluto verificare se l’integrazione dei segnali contenenti nei tre blocchi di dati attraverso un approccio di mid-level data fusion potesse permettere di migliorare la qualità delle predizioni, soprattutto per i campioni del set di validazione esterna.

105 A tale scopo, gli scores ottenuti dai tre modelli PLS-DA individuali sono stati concatenati ed utilizzati per descrivere e riassumere la variabilità tra i campioni in esame: questa matrice di scores concatenati è stata quindi analizzata attraverso il metodo PLS-DA. Come aspettato, la strategia di data fusion ha permesso di migliorare la capacità predittiva del modello di classificazione, soprattutto per quanto riguarda la classificazione delle grappe del test set, per le quali si è ottenuta un’accuratezza superiore al 71% (Tabella 14).

Tabella 14. Risultati dell’analisi PLS-DA effettuata sui dati fusi (mid-level).

Classe LV Classificazioni corrette (%)

Calibrazione Cross-validation Test Grappa

2 96.8 96.8 71.4

Altri Distillati 92.0 92.0 100.0

In una seconda fase, anche considerando la natura del problema merceologico, si è deciso di provare ad adottare anche un approccio basato sulla classificazione modellante, SIMCA, che prendesse in considerazione esclusivamente la classe Grappa. I modelli basati sulle matrici a 280 nm e 320 nm hanno mostrato un’elevata sensibilità in calibrazione e cross-validation (80-90%) ma specificità piuttosto bassa (Tabella 15); tuttavia, una volta applicati al set di validazione, essi sono risultati, al contrario, molto specifici, ma con una sensibilità anche inferiore al 60%. Questi risultati possono essere visualizzati in Figura 46, dove è riportata la rappresentazione dei campioni nello spazio di classe definito dalle variabili T2 e Q. In questo caso, l’analisi dei segnali a 360 nm ha dato

risultati solo di poco peggiori di quelli ottenuti considerando i profili alle altre lunghezze d’onda; inoltre, è da notare come l’uso di questi cromatogrammi abbia permesso di ottenere una buona sensibilità anche sui campioni di validazione.

Tabella 15. Risultati dell’analisi SIMCA effettuata sui dati a 280 nm e 320 nm. Classe Grappa

(280 nm) PC

Classificazioni corrette (%)

Calibrazione Cross-validation Test Sensibilità 5 87.7 87.7 57.2 Specificità 60.0 49.2 100.0 Classe Grappa (320 nm) PC Classificazioni corrette (%)

Calibrazione Cross-validation Test Sensibilità

2 90.1 84.5 43.3

106

Figura 46. Modello SIMCA sui cromatogrammi a 280 nm (sopra) e a 320 nm (sotto): rappresentazione dei

campioni sullo spazio della categoria grappe. Legenda: cerchi rossi vuoti – grappa training set; cerchi rossi pieni – grappa test set; quadrati blu vuoti – Altri distillati training set; quadrati blu pieni – Altri distillati test set.

107

PARTE III

Caratterizzazione della