• Non ci sono risultati.

POLITECNICO DI TORINO Corso di Laurea Magistrale in Ingegneria Biomedica

N/A
N/A
Protected

Academic year: 2023

Condividi "POLITECNICO DI TORINO Corso di Laurea Magistrale in Ingegneria Biomedica"

Copied!
86
0
0

Testo completo

(1)

POLITECNICO DI TORINO

Corso di Laurea Magistrale in Ingegneria Biomedica

Tesi di Laurea Magistrale

Diagnosi precoce del morbo di Parkinson tramite analisi del segnale vocale rilevato con microfono in aria e microfono a contatto

Relatore Candidato

Prof. Alessio Carullo Francesco Bozzi

237739 Correlatore

Prof. Alberto Vallan

Anno accademico 2018-2019

(2)

2

Alla mia famiglia.

(3)

3

Abstract

Il Parkinson è una malattia neurodegenerativa con evoluzione lenta ma progressiva, che coinvolge principalmente il sistema motorio con evidenti sintomi quali tremori, rigidità e blocchi nel cammino. Tuttavia, oltre a questi effetti, si riscontrano difficoltà in ambito comunicativo, in quanto il paziente perde il pieno controllo dell’apparato fonatorio, mostrando affievolimento della voce, articolazione indistinta e ripetizioni incontrollate.

Negli ultimi anni si è diffusa l'analisi oggettiva della qualità del segnale vocale grazie all’impiego di dispositivi indossabili in grado di monitorare i soggetti durante le proprie attività quotidiane. Ciò ha permesso l’identificazione di tecniche finalizzate alla diagnosi di patologie a carico dell’apparato fonatorio.

Durante l’attività di tesi, la stessa metodologia è stata applicata a pazienti affetti dalla malattia di Parkinson con l’intento di individuare modelli per una diagnosi precoce della patologia. La prima parte del lavoro svolto si è focalizzata sull’acquisizione di campioni vocali da soggetti affetti dalla malattia di Parkinson. Nel corso di tale fase sono stati sottoposti a monitoraggio 22 pazienti presso l’ambulatorio Parkinson della Città della Salute di Torino. Le registrazioni sono state effettuate in un ambiente non isolato acusticamente, tramite un microfono in aria ed un microfono a contatto, seguendo un protocollo ben definito: ripetizione di tre vocali sostenute ‘a’, ripetizione dei fonemi pa/ta/ka, lettura di un brano foneticamente bilanciato (circa un minuto) ed eloquio spontaneo (circa un minuto). Nella seconda parte del lavoro, i segnali acquisiti sono stati elaborati tramite script Matlab appositamente sviluppati per estrarre indicatori dello stato vocale dei soggetti monitorati. I parametri estratti permettono di valutare la stabilità in frequenza (jitter) e in ampiezza (shimmer) delle vocali sostenute, in aggiunta alla qualità del segnale sia per la vocale ‘a’ sia per l’eloquio spontaneo tramite parametri specifici, quali HNR (Harmonics to Noise Ratio) e CPPS (Cepstral Peak Prominence Smoothed). Per le vocali sostenute acquisite tramite microfono in aria e per l’eloquio spontaneo acquisito con entrambi i microfoni, è stata effettuata una

(4)

4

selezione dei parametri più significativi attraverso l’analisi della matrice di correlazione. I parametri così individuati sono stati analizzati attraverso l’applicativo Matlab ‘Classification Learner’ al fine di identificare due classificatori (regressione logistica e coarse tree) in grado di discriminare soggetti sani da parkinsoniani. Per la vocale sostenuta acquisita con il microfono in aria si è ottenuta la migliore accuratezza con il modello del coarse tree (92%) considerando i parametri PPQ, shimmer e CPPS skewness, paragonabile a quella ottenuta con il modello di regressione logistica (88%) con i parametri jitter, PPQ, APQ e CPPS 5°perc. Le accuratezze ottenute per l’eloquio spontaneo con i due microfoni risultano simili tra di loro: 95% con il modello del coarse tree (CPPS moda, CPPS range, CPPS kurtosis) e 79% con il modello di regressione logistica (HNR, CPPS media, CPPS kurtosis) utilizzando il microfono in aria, e 92% con il modello del coarse tree (F0, voiced/unvoiced ratio, CPPS kurtosis) e 76% con il modello di regressione logistica (voiced/unvoiced ratio, CPPS range) utilizzando il microfono a contatto.

Questa prima parte del lavoro di tesi si pone quindi alla base di uno studio il cui obiettivo futuro è migliorare modelli di analisi identificati attraverso l’incremento del database dei soggetti monitorati.

La seconda parte del lavoro di tesi si è focalizzata sulla valutazione dell’efficacia di un percorso logopedico specifico per soggetti affetti dalla malattia di Parkinson. Sono stati monitorati presso la onlus “Amici Parkinsoniani Piemonte” 6 soggetti (5 uomini e 1 donna) seguendo lo stesso protocollo e con la stessa strumentazione utilizzata per la prima parte. Lo studio si è basato sul confronto dei segnali acquisiti a due mesi di distanza, ovvero prima e dopo il corso logopedico. Dall’analisi dei risultati relativi alle vocali sostenute, si è riscontrato, a due mesi di distanza, un miglioramento dei parametri di perturbazione per tre dei soggetti analizzati. Analizzando invece, sia per il microfono in aria che il microfono a contatto, le distribuzioni del CPPS del parlato libero la maggioranza dei soggetti in esame ha mantenuto lo stesso tipo di andamento, non rilevando variazione apprezzabili. Tali confronti sono stati effettuati al termine del corso di logopedia, dunque un’analisi a breve

(5)

5

termine, riscontrando solo un lieve miglioramento nei soggetti della stabilità della fonazione, mantenendo invece stabile il proprio eloquio. Avendo tale corso insegnato ai pazienti esercizi da svolgere durante la propria vita quotidiana, sarebbe interessante un’analisi a lungo termine effettuando futuri monitoraggi.

(6)

6

Sommario

Abstract ... 2

Indice delle Figure ... 8

Indice delle Tabelle ... 10

1 Introduzione ... 11

1.1 Malattia di Parkinson ... 11

1.2 Diagnosi e valutazione della malattia ... 12

1.3 Variazioni fonetiche nel soggetto parkinsoniano ... 14

2 Stato dell’arte ... 16

2.1 Segnale vocale ... 16

2.2 Parametri del segnale vocale ... 17

2.3 Analisi basate sullo spettro e sul cepstrum ... 18

3 Monitoraggio di soggetti affetti da Parkinson ... 21

3.1 Soggetti monitorati ... 21

3.2 Catena di acquisizione dati ... 21

3.3 Protocollo per le registrazioni ... 23

3.4 Pre-processing dei dati ... 23

3.5 Parametri estratti ... 24

3.5.1 Parametri di variazione in frequenza ... 25

3.5.2 Parametri di variazione in ampiezza ... 27

3.5.3 Parametri ricavati dall’autocorrelazione del segnale ... 29

3.5.4 Distribuzione del CPPS ... 29

3.6 Elaborazione dei dati ... 32

4 Risultati ... 33

4.1 Vocale sostenuta ‘a’ con microfono in aria ... 33

4.1.1 Feature selection ... 33

(7)

7

4.1.2 Creazione classificatore ... 36

4.1.2.1 Regressione logistica ... 37

4.1.2.2 Coarse tree ... 42

4.2 Eloquio libero con microfono in aria ... 46

4.2.1 Feature selection ... 46

4.2.2 Creazione classificatore ... 48

4.2.2.1 Regressione logistica ... 48

4.2.2.2 Coarse tree ... 51

4.3 Eloquio libero con microfono a contatto ... 54

4.3.1 Feature selection ... 54

4.3.2 Creazione classificatore ... 55

4.3.2.1 Regressione logistica ... 56

4.3.2.2 Coarse tree ... 59

5 Valutazione effetti corso logopedia ... 62

5.1 Vocale sostenuta ‘a’ con microfono in aria ... 62

5.2 Eloquio libero con microfono in aria ... 69

5.3 Eloquio libero con microfono a contatto ... 75

6 Conclusioni ... 82

Bibliografia... 84

Appendice A ... 86

(8)

8

Indice delle Figure

Figura 1 Rilascio di dopamina in un neurone sano e uno affetto da Parkinson [3] ... 12

Figura 2 Foglio punteggio UPDRS... 13

Figura 3 Segnale glottico e segnale vocale di un soggetto parkinsoniano per vocale ‘a’ sostenuta ... 17

Figura 4 Esempio di Ceptrum ... 18

Figura 5 Esempio di CPPS con regressione lineare... 19

Figura 6 (a) Microfono in aria, (b) microfono a contatto e registratore ... 22

Figura 7 Rappresentazione di jitter e shimmer nel segnale vocale ... 25

Figura 8 esempio distribuzione CPPS per soggetti sani e patologici: (a) vocale sostenuta, (b) lettura, (c) eloquio libero ... 31

Figura 9 Esempio di Parallel Coordinates Plot ... 36

Figura 10 Scelta del taglio del modello di regressione lineare per la vocale a ... 38

Figura 11 Curva ROC del modello a regressione lineare della vocale a ... 39

Figura 12 Probabilità delle vocali a con il modello di regressione logistica ... 40

Figura 13 Probabilità delle vocali 'a' con il modello di regressione logistica per ogni singolo soggetto ... 40

Figura 14 Probabilità delle tre 'a' mediate per ogni singolo paziente ... 41

Figura 15 Decision tree vocale 'a' ... 43

Figura 16 Divisione dello spazio delle features con l'albero decisionale per la vocale 'a' ... 44

Figura 17 Divisione dello spazio delle features con l'albero decisionale per la media delle vocali 'a'... 45

Figura 18 Esempio di Parallel Coordinates Plot ... 48

Figura 19 Scelta del taglio del modello di regressione lineare per eloquio libro con MIPRO ... 50

Figura 20 Curva ROC del modello a regressione lineare dell'eloquio libero con MIPRO ... 50

Figura 21 Probabilità eloquio libero con MIPRO per modello di regressione logistica ... 51

(9)

9

Figura 22 Decision tree free speech MIPRO ... 52

Figura 23 Divisione dello spazio delle features con l'albero decisionale per free speech MIPRO ... 53

Figura 24 Esempio di Parallel Coordinates Plot ... 56

Figura 25 Scelta del taglio del modello di regressione lineare per eloquio libro con PIEZO ... 58

Figura 26 Curva ROC del modello a regressione lineare dell'eloquio libero con PIEZO ... 58

Figura 27 Probabilità eloquio libero con PIEZO per modello di regressione logistica ... 59

Figura 28 Grafo del free speech PIEZO ... 60

Figura 29 Divisione dello spazio delle features con l'albero decisionale per free speech PIEZO ... 61

Figura 30 Confronto PPQ pre-post corso di logopedia ... 65

Figura 31 Confronto vF0 pre-post corso di logopedia... 66

Figura 32 Confronto vAm pre-post corso di logopedia ... 67

Figura 33 Distribuzioni CPPS vocale ‘a’ MIPRO ... 68

Figura 34 Confronto CPPS deviazione standard per MIPRO ... 69

Figura 35 Distribuzioni CPPS free speech MIPRO ... 70

Figura 36 Confronto HNR free speech MIPRO ... 73

Figura 37 Confronto CPPS mean free speech MIPRO ... 74

Figura 38 Confronto CPPS std free speech MIPRO ... 74

Figura 39 Distribuzioni CPPS free speech PIEZO ... 76

Figura 40 Confronto HNR free speech PIEZO ... 79

Figura 41 Confronto CPPS mean free speech PIEZO ... 80

Figura 42 Confronto CPPS std free speech PIEZO ... 80

(10)

10

Indice delle Tabelle

Tabella 1 Soggetti monitorati ... 22

Tabella 2 Riepilogo soggetti sani e soggetti parkinsoniani analizzati ... 24

Tabella 3 Matrice di correlazione dei parametri della vocale 'a'... 35

Tabella 4 Confusion matrix regressione logistica vocale a ... 39

Tabella 5 Confusion matrix regressione logistica per le 'a' mediate ... 42

Tabella 6 Confusion matrix coarse tree vocale a ... 43

Tabella 7 Confusion matrix regressione logistica per le 'a' mediate ... 45

Tabella 8 Matrice di correlazione con indici di Pearson per parametri dell'eloquio libero con microfono in aria ... 47

Tabella 9 Confusion matrix regressione logistica eloquio libero MIPRO ... 49

Tabella 10 Confusion matrix coarse tree free speech MIPRO ... 52

Tabella 11 Matrice di correlazione con indici di Pearson per parametri dell'eloquio libero con microfono a contatto ... 55

Tabella 12 Confusion matrix eloquio libero PIEZO regressione logistica ... 57

Tabella 13 Confusion matrix coarse tree free speech PIEZO... 60

Tabella 14 Matrice di indici Pearson per vocale 'a' con MIPRO ... 63

Tabella 15 Indici Pearson pre-post logopedia free speech MIPRO ... 71

Tabella 16 Differenze parametri free speech MIPRO ... 75

Tabella 17 Indici Pearson pre-post logopedia free speech PIEZO ... 77

Tabella 18 Differenze parametri free speech PIEZO ... 81

(11)

11

1 Introduzione

Il Capitolo 1 si apre con una descrizione della malattia di Parkinson (PD: parkinson disease), come è comunemente indicato, utile a contestualizzare l'attuale lavoro di tesi. La neuropatologia è descritta ponendo l’accendo su sintomi motori e non motori associati alla PD. Al fine di completare le conoscenze di base, il capitolo include anche una descrizione della diagnosi clinica e della valutazione della PD.

1.1 Malattia di Parkinson

Il morbo di Parkinson (PD) è un disturbo progressivo neurodegenerativo, multi sistemico con sintomi motori e non motori [1], che fa parte di un gruppo di patologie definite "Disordini del Movimento".

Tradizionalmente, il PD è descritto in relazione a quattro effetti:

 rigidità

 bradicinesia

 instabilità posturale

 tremore a riposo.

La malattia è diffusa in tutto il mondo e si riscontra in entrambi i generi, con una lieve minoranza in quello femminile. L'età di esordio è tra i 57/60 anni, ma una piccola percentuale dei pazienti presenta un esordio del morbo tra i 22 ed i 40 anni. Al di sopra dei 60 anni colpisce l’ 1÷2% della popolazione, mentre la percentuale aumenta al 3÷5% quando l'età è superiore agli 86 [2].

Le strutture coinvolte nel morbo di Parkinson sono situate in aree profonde del cervello, note come gangli della base, che contribuiscono alla corretta esecuzione dei movimenti. La malattia di Parkinson si presenta quando la produzione di dopamina nel cervello cala considerevolmente. La riduzione dei livelli di dopamina è dovuta alla degenerazione di neuroni, in un'area chiamata substantia nigra.

(12)

12

Figura 1 Rilascio di dopamina in un neurone sano e uno affetto da Parkinson [3]

1.2 Diagnosi e valutazione della malattia

Non esiste un test diagnostico specifico per identificare il PD. La diagnosi è effettuata sulla base di sintomi clinici che devono soddisfare i criteri della Brain Bank della Parkinson's Disease Society (PDS) per il PD [4].

Le scale più utilizzate per classificare i sintomi clinici sono la scala di Hoehn e Yahr e la Unified Parkinson's Disease Rating Scale (UPDRS).

La scala di Hoehn e Yahr è lo strumento più comunemente impiegato per valutare la gravità generale del PD, esso utilizza un semplice approccio definendo uno stadio che va dallo 0 (nessun segno di malattia) al 5 (grave disabilità). I pazienti sono solitamente classificati in PD in stadio precoce o tardivo in base alla gravità dei sintomi motori.

L'UPDRS è composto da quattro sottosezioni: Parte I (Mentation, Behaviour e Mood), Parte II (attività della vita quotidiana), Parte III (esame motorio), Parte IV (complicanze del trattamento). Le sottosezioni II e III sono ampiamente utilizzate clinicamente e includono rispettivamente l'auto-valutazione del paziente nelle attività quotidiane ed un punteggio clinico dei segni motori. Ogni item è valutato da 0 (normale) a 4 (grave disabilità).

La sezione 1 della Parte III può essere utilizzata come una misura "globale" della valutazione della comunicazione. Comprende dizione, volume, intelligibilità ed espressione. È evidente che a causa degli innumerevoli parametri che stabiliscono il

(13)

13

grado di avanzamento della malattia, per questo studio solo tale sezione sarà utilizzata come indice della gravità del sistema vocale.

Figura 2 Foglio punteggio UPDRS

(14)

14

1.3 Variazioni fonetiche nel soggetto parkinsoniano

È abitudine consolidata associare al morbo di Parkinson quasi esclusivamente sintomi motori. Tuttavia, tale malattia comporta anche sintomi precoci minori come la variazione della voce che diventa debole e monotona. Molti pazienti hanno descritto le difficoltà di linguaggio come il sintomo più debilitante, e simili ostacoli limitano ai minimi termini la comunicazione, conseguenza che può degenerare nel completo isolamento sociale. Nella malattia di Parkinson le alterazioni della voce sono dovute ad un ridotto coordinamento di alcuni muscoli ed in particolare di quelli che controllano:

 la respirazione

 l'articolazione (pronuncia)

 la prosodia (ritmo, intonazione e velocità dell'eloquio)

 la fonazione (emissione della voce) [5]

I sintomi che possono manifestarsi come conseguenza di tali alterazioni sono:

 Affievolimento della voce:

La voce all’inizio di una frase è forte, ma si affievolisce progressivamente.

 Monotonia:

La voce rimane costantemente allo stesso livello, non variando mai e mancando di espressività.

 Cambiamento qualitativo:

Il suono della voce risulta tremolante, flebile o più acuto, a volte stridulo.

 Indebolimento del volume:

Con l’incedere del tempo la riduzione del volume può arrivare al punto di non udibilità della voce.

 Rapidità vocale:

Le sillabe o le intere parole scorrono senza pausa fino ad ammassarsi, con una lenta accelerazione delle parole verso la fine di una frase.

 Articolazione indistinta:

I suoi delle sillabe finali non sono distinguibili e la fine delle parole talvolta è omessa.

(15)

15

 Involontaria esitazione prima di parlare:

È difficile iniziare a parlare e poi mantenere la voce salda dall'inizio alla fine di una conversazione o di una frase.

 Ripetizioni incontrollate:

Le parole, le frasi e i periodi sono ripetuti involontariamente e senza controllo [6].

(16)

16

2 Stato dell’arte

Questo capitolo presenta una panoramica sui parametri utilizzati negli ultimi decenni nell’analisi del segnale vocale per valutare lo stato dell’apparato fonatorio e il carico vocale.

2.1 Segnale vocale

La fonazione è la produzione di un segnale acustico da una sorgente, che consiste essenzialmente nella vibrazione delle corde vocali. In condizioni normali, e da un punto di vista fisico, quello glottico è un segnale quasi periodico, somma algebrica di una serie di segnali sinusoidali, chiamati componenti spettrali [7]. Ogni componente è caratterizzato da una propria frequenza, intensità e fase. Se il segnale è periodico con periodo fondamentale 𝑇0, le componenti, definite anche armoniche, hanno frequenze che sono multipli interi della frequenza fondamentale 𝐹0 = 1

𝑇0 . Il termine "quasi"

suggerisce che le caratteristiche della frequenza e dell'ampiezza del segnale sono variabili nel tempo. Potrebbero verificarsi perturbazioni a breve termine tra un periodo e l’altro, o a lungo termine, ovvero tra l’inizio e la fine di un eloquio. Queste variazioni di frequenza della fondamentale e dell’ampiezza possono caratterizzare una voce patologica se superiori a determinate soglie. Le variazioni di 𝐹0 oscillano intorno ad un valore medio, che è caratteristico per ogni individuo e varia in base all'età, al genere e al tipo di attività vocale:

 255 ÷ 440 Hz per i bambini

 175 ÷ 245 Hz per le donne

 105 ÷ 160 Hz per gli uomini [7].

Una volta uscito dalle corde vocali, il segnale della glottide è sottoposto all'azione filtrante del tratto vocale, che lo trasforma nel segnale vocale. Tuttavia, la frequenza fondamentale 𝐹0 resta immutata, ad essere modificate sono solo le ampiezze delle varie componenti spettrali. La Figura 3 consente di confrontare le caratteristiche del segnale della glottide, acquisite con un microfono a contatto, e quelle del corrispondente segnale vocale acquisito con microfono in aria.

(17)

17

Figura 3 Segnale glottico e segnale vocale di un soggetto parkinsoniano per vocale ‘a’ sostenuta

2.2 Parametri del segnale vocale

Negli ultimi anni, le misure acustiche unite a tecniche di analisi e di elaborazione di segnali hanno assunto un'importanza fondamentale, essendo poco invasive, relativamente a basso costo, in tempo reale e facili da applicare. L’analisi principale è quella della valutazione delle caratteristiche nel dominio del tempo e della frequenza, specialmente la frequenza fondamentale 𝐹0, e le perturbazioni ad essa legate, in frequenza come il jitter ed in ampiezza come lo shimmer, ed il rapporto tra componenti armoniche e non armoniche (HNR) [8]. Nell’analisi acustica della produzione di una vocale sostenuta è stato osservato che maggiori variazioni in frequenza ed ampiezza dalla 𝐹0 e un incremento dell’ HNR sono indicatori di una instabilità del sistema fonatorio [9]. Si sono mostrate, infatti, significative differenze di tali parametri tra pazienti sani e pazienti affetti dalla malattia di Parkinson, specialmente l’HNR ha confermato il risultato che la voce in questi soggetti diventi più grave con l’avanzamento della patologia [10]. In recenti studi si è inoltre mostrato come durante un eloquio libero o una lettura, soggetti parkinsoniani presentano un’alterazione del ritmo e della velocità di parole, per cui parametri come speech rate

(18)

18

variation e rhytm variation risultano essere strettamente correlati con la malattia e rilevanti per identificare pazienti affetti da tale morbo [11].

2.3 Analisi basate sullo spettro e sul cepstrum

I parametri descritti in precedenza indicano le perturbazioni del segnale utili a livello clinico per la valutazione oggettiva della qualità della voce, e hanno una validità limitata all’accuratezza nel determinare la 𝐹0, per cui piccoli errori nel suo calcolo possono essere rilevanti per l’analisi dei parametri da essa derivanti. Inoltre, l’analisi ne risulta utile solo su dati provenienti da vocali sostenute e non su di un eloquio libero. Per sopperire a tali limitazioni si utilizza un parametro che non prende in considerazione la frequenza fondamentale, ovvero il CPPS (Cepstral Peak Prominence Smoothed) che permette l’analisi anche del parlato continuo [12].

Figura 4 Esempio di Ceptrum

Il metodo della densità spettrale di potenza consente di ottenere informazioni importanti sulla voce, ma la ricerca si è mossa negli ultimi anni verso un nuovo approccio importante basato sulla misurazione del cepstrum. Nel 1963 Borget et al.

[13] ha definito il concetto di cepstrum come “la trasformata di Fourier del logaritmo della trasformata di Fourier del segnale, a volte chiamato spettro dello spettro”.

Dunque il cepstrum è definito nel dominio del tempo, per cui i termini cepstrum e quefrency sono l’anagramma delle parole spectrum e frequency.

(19)

19

In particolare, il cepstrum mostra il picco di energia di ogni componente di frequenza.

Il segnale periodico evidenzia una struttura armonica ben definita e il cepstrum contiene un picco in corrispondenza della frequenza fondamentale, come è possibile vedere dalla Figura 4. L’ampiezza di questo picco è definito come CP (Cepstral Peak) e si trova tra 3 ms e 16 ms (60 ÷ 300 Hz). Questo parametro non dipende solo dalla composizione armonica del segnale, ma da tutta la sua energia, per cui è influenzato anche dal rumore. Ecco perché è stato definito un parametro alternativo, il CPP (Cepstral Peak Prominence), che è la differenza tra il picco ed il corrispondente valore di quella quefrency ottenuta con la regressione lineare. Infine, è stato definito il parametro CPPS (Cepstral Peak Prominence Smoothed) ottenuto con lo smoothing del segnale per avere un valore più significativo del picco (un esempio è mostrato in Figura 5) [14].

Figura 5 Esempio di CPPS con regressione lineare

Considerando una finestra mobile di frame lungo il segnale con segmenti di overlap si ottiene quindi un diverso valore di CPPS per ognuno di esso. Con tali valori calcolati è possibile costruire una distribuzione da cui estrarre diversi parametri statistici come la media, mediana, moda, range e deviazione tipo. [15]. L'ampia presenza di studi sul CPPS ha permesso la nascita di diversi software come praat, speech tool e ADSV, per calcolare i parametri statistici al fine di discriminare soggetti sani e soggetti affetti da patologie all’apparato vocale. I risultati di differenti studi hanno dimostrato che il 5°

(20)

20

percentile è il miglior discriminante per segnali acquisiti con microfoni in aria e la deviazione tipo per quelli con microfono a contatto in vocali sostenute ‘a’ [16], mentre il 95° percentile ha mostrato migliori risultati nella discriminazione dell’eloquio libero [17].

(21)

21

3 Monitoraggio di soggetti affetti da Parkinson

Questo capitolo è dedicato alle modalità di monitoraggio dei soggetti affetti da Parkinson, dalla raccolta dei dati alla procedura e agli strumenti con cui sono stati raccolti, includendo le fasi di pre-processing e processing.

3.1 Soggetti monitorati

In questo studio sono stati monitorati presso l’ambulatorio Parkinson della Città della Salute di Torino 22 pazienti, 14 uomini e 8 donne con età media di 68 anni, tutti affetti dalla malattia di Parkinson, come riportato dalla successiva tabella (Tabella 1), con differente grado di avanzamento della malattia.

3.2 Catena di acquisizione dati

I segnali vocali dei soggetti monitorati in questo studio sono stati acquisiti attraverso due differenti tipi di microfono:

 un microfono in aria del tipo a guancia (MIPRO MU55-HR) posto ad una distanza di circa 2.5 cm dalle labbra del soggetto;

 un microfono a contatto di tipo piezoelettrico (HX505-1-1), che è un collare il cui elemento sensibile deve essere posizionato in prossimità della fossetta del giugulo per captare le vibrazioni delle corde vocali.

Entrambi i microfoni sono stati collegati ad un registratore portatile (EDIROL ROLAND R09-HR) con ingresso stereo a due canali. Il canale destro è utilizzato per acquisizione con microfono in aria, il canale sinistro per l’acquisizione con microfono a contatto. Tutte le registrazioni sono state effettuate simultaneamente con una frequenza di campionamento 𝑓𝑠 = 44100 Sa/s e con una risoluzione di 16 bit. La strumentazione utilizzata è mostrata nella Figura 6.

(22)

22

Soggetto Sesso Età Durata malattia UPDRS Speech HY

1 M 80 3 1 2

2 M 64 1 1 2

3 F 89 7 3 4

4 M 71 3 1 2

5 F 54 6 2 2

6 M 68 11 2 2

7 F 79 8 2 4

8 M 49 19 2 2

9 M 41 2 0 1

10 M 69 8 1 2

11 M 43 5 1 2

12 F 86 3 1 2

13 M 75 1 1 2

14 M 49 6 2 2

15 F 75 17 3 4

16 M 83 6 2 2

17 F 67 7 2 2

18 M 67 3 1 2

19 M 65 6 1 2

20 F 75 2 0 1

21 M 70 6 1 2

22 F 78 6 2 2

Tabella 1 Soggetti monitorati

Figura 6 (a) Microfono in aria, (b) microfono a contatto e registratore

(a)

(b)

(23)

23

3.3 Protocollo per le registrazioni

Le acquisizioni dei segnali vocali, avvenute simultaneamente con entrambi i microfoni descritti in precedenza, hanno previsto un protocollo ben definito. Tale protocollo è stato strutturato in 4 parti distinte della durata complessiva di circa 5 minuti:

1. fonazione della vocale ‘a’ mantenuta per più tempo possibile (3 ÷ 10 secondi), con un volume di confort. È stato richiesto ai soggetti coinvolti di ripetere tre volte l’emissione della vocale lasciando il tempo necessario per riprendere fiato;

2. ripetizione dei fonemi pa/ta/ka per circa 10 volte il più velocemente possibile, senza riprendere fiato tra una ripetizione e la successiva;

3. lettura di un brano foneticamente bilanciato, riportato in Appendice A, della durata di circa 1 minuto;

4. eloquio su un tema libero della durata di circa 1 minuto.

Le acquisizioni sono state effettuate in un ambiente non controllato acusticamente, dove il un rumore di fondo medio non è mai stato inferiore a 50 dB.

3.4 Pre-processing dei dati

Una volta ottenute le registrazioni dei soggetti monitorati presso l’ambulatorio Parkinson, i file in formato .wav sono stati trasferiti su un PC, dove tramite l’applicativo Audacity (ver. 2.3.0) l’intera registrazione è stata suddivisa nelle singole parti previste dal protocollo:

 vocale sostenuta ‘a’: per ogni registrazione sono state separate le tre vocali in singoli file denominati A1, A2, A3, eliminando la parte iniziale e finale della registrazione per evitare instabilità del segnale;

 pa/ta/ka: sono state estratte dal file completo la ripetizione dei fonemi;

 lettura: la registrazione della lettura è stata tagliata dall’inizio del brano

‘Bulka’ fino alla parola ‘sanguisuga’, al fine di bilanciare il tempo di analisi con quello dell’eloquio libero e ridurre i tempi computazionali;

(24)

24

 eloquio libero: è stato tagliato dalla registrazione la parte inerente all’eloquio libero dall’inizio del parlato fino ad un massimo di 1minuto per conformarsi con la durata di analisi del file della lettura e ridurre i tempi computazionali.

Tale procedimento è stato impiegato anche su registrazioni effettuate in precedenti lavori di tesi, utilizzando gli stessi microfoni, su persone diagnosticate sane all’apparato fonatorio, al fine di costituire il gruppo di controllo. I soggetti scelti sono stati selezionati per cercare di rendere il data-set di confronto quanto più bilanciato possibile, come si può notare dalla Tabella 2 dove è riportata anche l’età media dei gruppi considerati.

Vocale A Reading Free Speech

Mipro Piezo Mipro Piezo Mipro Piezo

M F età M F età M F età M F età M F età M F età Pazienti 14 8 60 14 7 67 14 8 60 12 7 65 14 8 60 12 7 65 Sani 14 8 41 13 8 23 14 8 41 11 8 32 14 8 41 11 8 32

Tabella 2 Riepilogo soggetti sani e soggetti parkinsoniani analizzati

Come è possibile notare, il numero di soggetti monitorati risulta inferiore con il microfono a contatto, poiché trattandosi di microfono a girocollo ne risulta problematico l’utilizzo in caso di soggetti con collo troppo piccolo o troppo grande, o nel caso il cui il soggetto da monitorare sia impossibilitato ad indossarlo (es. utilizzo di ossigenatori).

I singoli file .wav ottenuti sono stati mantenuti in formato stereo.

3.5 Parametri estratti

I file segmentati delle tre ripetizioni della vocale \a\ sostenuta per i pazienti affetti dal morbo di Parkinson e per i soggetti sani, sono stati successivamente elaborati al fine

(25)

25

di estrarre parametri acustici significativi per la discriminazione dei due gruppi monitorati. Oltre alla frequenza fondamentale 𝐹0, sono stati estratti 5 parametri relativi alla variazione della frequenza (Jita, Jitt, RAP, PPQ, v𝐹0) e 4 relativi alla variazione in ampiezza (Shim, ShdB, APQ, vAm). In aggiunta ai parametri dipendenti dalla frequenza fondamentale, significativi solo per l’analisi della vocale sostenuta, sono stati estratti parametri utili anche per la discriminazione dei file di lettura ed eloquio libero. In particolare, sono stati calcolati 3 parametri analizzando l’autocorrelazione del segnale (HNR, V/uV, V/S), e le distribuzioni del CPPS con 9 statistiche descrittive (media, mediana, moda, standard deviation, range, 5°

percentile, 95° percentile, skewness, kurtosis)

Figura 7 Rappresentazione di jitter e shimmer nel segnale vocale

3.5.1 Parametri di variazione in frequenza

Dopo il calcolo della frequenza fondamentale 𝐹0 sono stati estratti i seguenti parametri di variazione del periodo:

 Jita (µs) è il jitter assoluto e descrive la variazione del periodo fondamentale 𝑇0, calcolando la media in valore assoluto tra due consecutivi valori del periodo.

(26)

26

𝐽𝑖𝑡𝑎 = 1

𝑁 − 1∑|𝑇0(𝑖) − 𝑇0(𝑖+1)|

𝑁−1

𝑖=1

(1)

Con 𝑇0(𝑖) i periodi estratti dal segnale vocale e 𝑖 = 1,2, … , 𝑁 il numero dei periodi.

 Jitt (%) è il jitter locale e descrive come il Jita la variazione del periodo fondamentale 𝑇0, calcolando il rapporto della media in valore assoluto tra due consecutivi valori del periodo rispetto alla media del periodo fondamentale dell’intero segnale.

𝐽𝑖𝑡𝑡 = 1

𝑁 − 1∑𝑁−1𝑖=1|𝑇0(𝑖)− 𝑇0(𝑖+1)| 1

𝑁∑𝑁𝑖=1𝑇0(𝑖)

(2)

Con 𝑇0(𝑖) i periodi estratti dal segnale vocale e 𝑖 = 1,2, … , 𝑁 il numero dei periodi.

 RAP (%) è il Relative Average Perturbation di tre periodo, ovvero il periodo fondamentale e i suoi 2 consecutivi, muovendosi con passo di uno.

𝑅𝐴𝑃 = 1

𝑁 − 2∑ |𝑇0(𝑖−1)+ 𝑇0(𝑖) + 𝑇0(𝑖+1)

3 − 𝑇0(𝑖)|

𝑁−1𝑖=2

1

𝑁∑𝑁𝑖=1𝑇0(𝑖)

(3)

Con 𝑇0(𝑖) i periodi estratti dal segnale vocale e 𝑖 = 1,2, … , 𝑁 il numero dei periodi. Questo parametro è simile al jitter ma invece di calcolare la media tra due periodi successivi effettua uno smoothing su 3 periodi sottraendo quello centrale.

(27)

27

 PPQ (%) è il Pitch Period Perturbation Quotient di 5 periodi consecutivi, ovvero la media relativa al periodo fondamentale con un fattore di smoothing pari a 5.

𝑃𝑃𝑄 = 1

𝑁 − 4∑ |1

5∑4𝑟=0𝑇0(𝑖+𝑟)− 𝑇0(𝑖+2)|

𝑁−4𝑖=1

1

𝑁∑𝑁𝑖=1𝑇0(𝑖)

(4)

Con 𝑇0(𝑖) i periodi estratti dal segnale vocale e 𝑖 = 1,2, … , 𝑁 il numero dei periodi.

 v𝐅𝟎 (%) è Fundamental Frequency Variation relativo alla variabilità della standard deviation della frequenza fondamentale 𝐹0 rispetto alla media della stessa

𝑣𝐹0 = 𝜎

𝐹0× 100 =

√1𝑁∑𝑁𝑖=1(𝐹0 − 𝐹0(𝑖))2 1

𝑁∑𝑁𝑖=1𝑓0(𝑖)

× 100 (5)

Con 𝐹0 la media della frequenza fondamentale, 𝜎 la deviazione tipo della 𝑓0, e 𝑓0(𝑖) la singola frequenza estratta.

3.5.2 Parametri di variazione in ampiezza

Così come per la variazioni in frequenza, sono stati estratti parametri legati all’instabilità in ampiezza per ogni ciclo consecutivo della fondamentale 𝐹0:

 Shdb (dB) è lo shimmer assoluto che descrive la variabilità in valore assoluto dell’ampiezza picco per picco in ogni periodo consecutivo

𝑆ℎ𝑑𝐵 = 1

𝑁 − 1∑ |20 log𝐴(𝑖+1)

𝐴(𝑖) | (6)

𝑁−1

𝑖=1

(28)

28

Dove A(i) i valori picco-picco estratti dal segnale vocale e 𝑖 = 1,2, … , 𝑁 il numero di impulsi.

 Shim (%) è lo shimmer locale che descrive le variazioni relative del valore picco-picco in periodi consecutivi

𝑆ℎ𝑖𝑚 = 1

𝑁 − 1∑𝑁−1𝑖=1|𝐴(𝑖) − 𝐴(𝑖+1)| 1

𝑁∑𝑁𝑖=1𝐴(𝑖)

(7) Dove A(i) i valori picco-picco estratti dal segnale vocale e 𝑖 = 1,2, … , 𝑁 il numero di impulsi. Sia lo Shim che il ShdB sono relative allo stesso tipo di variazione in ampiezza ma misurate in maniera differenti.

 APQ (%) è l’Amplitude Perturbation Quotient che descrivere la variazione relativa tra 11 periodi consecutivi con passo di 1:

𝐴𝑃𝑄 = 1

𝑁 − 10∑ |1

11∑10𝑟=0𝐴(𝑖+𝑟)− 𝐴(𝑖+5)|

𝑁−10𝑖=1

1

𝑁∑𝑁𝑖=1𝐴(𝑖)

(8)

Dove A(i) i valori picco-picco estratti dal segnale vocale e 𝑖 = 1,2, … , 𝑁 il numero di impulsi. L’APQ è il parametro meno sensibile all’errore di variazione ma non riesce ad analizzare una variazione a breve termine dell’ampiezza del segnale vocale.

 vAm (%) è il Peak Amplitude Variation e fornisce una variabilità relativa delle variazioni dell'ampiezza picco-picco (a breve-lungo termine) all'interno del campione vocale analizzato:

𝑣𝐴𝑚 = 𝜎

𝐴0 × 100 =

√1𝑁∑𝑁𝑖=1(𝐴0− 𝐴(𝑖))2 1

𝑁∑𝑁𝑖=1𝐴(𝑖)

× 100 (9)

(29)

29

Dove A(i) i valori picco-picco estratti dal segnale vocale e 𝑖 = 1,2, … , 𝑁 il numero di impulsi, 𝐴0 è il valor medio dei valori di picco-picco estratti [18].

3.5.3 Parametri ricavati dall’autocorrelazione del segnale

 HNR (dB) è l’Harmonics to noise ratio ovvero la misura del rumore additivo sul segnale di interesse:

𝐻𝑁𝑅 = 10𝑙𝑜𝑔10[ 𝐴𝐶𝑣(𝑇)

𝐴𝐶𝑣(0) − 𝐴𝐶𝑣(𝑇) ] (10)

Dove 𝐴𝐶𝑣(0) è l’autocorrelazione al ritardo 0 (la potenza) e 𝐴𝐶𝑣(𝑇) è il valore di autocorrelazione al ritardo T.

 V/uV (%) è il Voiced/unvoiced ratio, ovvero il rapporto tra i frame sonori e quelli non sonori all’interno del singolo file estratto. Questa misura è eseguita considerando la porzione di frame con un HNR positivo (fonemi sonori) rispetto alla lunghezza delle parti non armoniche (fonemi silenti).

 V/S (%) è il Voiced/silence ratio, ovvero il rapporto tra parte armonica e non armonica del segnale rispetto all’intera durata del file (considerando anche le pause).

3.5.4 Distribuzione del CPPS

Il Cepstral Peak Prominence Smoothed è una misura dell’ampiezza del picco del cepstrum normalizzata per l’ampiezza complessiva. Dato il segnale vocale y, è possibile definire:

(30)

30

𝑦𝐹𝐹𝑇 = 20𝑙𝑜𝑔|𝐹𝐹𝑇(𝑦)|

𝑦𝐹𝐹𝑇2 = 20𝑙𝑜𝑔|𝐹𝐹𝑇(𝑦𝐹𝐹𝑇)|

Dove la yFFT2 è definita come il cepstrum del segnale y [19]. Generalmente il Cepstrum è calcolato per diverse finestre in cui il segnale è diviso, eseguendo uno smoothing nel dominio del tempo e nel dominio della frequenza. Il valore del CPPS è la differenza tra l'ampiezza del picco e il valore corrispondente nella regressione lineare calcolata sul cepstrum. È calcolato quindi un singolo valore di CPPS per ogni finestra di analisi, per cui è possibile costruire una sua distribuzione (come mostrato in Figura 8) estraendo 9 parametri statistici: media, mediana, moda, standard deviation, range, 5° percentile, 95° percentile, skewness e kurtosis.

(a)

(31)

31

Figura 8 esempio distribuzione CPPS per soggetti sani e patologici: (a) vocale sostenuta, (b) lettura, (c) eloquio libero

(c) (b)

(32)

32

3.6 Elaborazione dei dati

Per permettere l’elaborazione dei segnali acquisti e l’estrazione dei dati descritti nel capitolo precedente, sono stati sviluppati due appositi script per l’ambiente di calcolo numerico Matlab® R2018b.

1. Il primo script è utilizzato soltanto per l’elaborazione dei file contenenti la vocale sostenuta ‘a’. E’ stato sviluppato per permettere l’estrazione della frequenza fondamentale 𝐹0 e il calcolo dei parametri relativi alla variazione in frequenza ed in ampiezza descritti nei paragrafi precedenti.

Inoltre tale script permette di calcolare il valore di 𝐹0, SPL e di HNR per ogni frame di analisi, per potersi ricostruire eventualmente in futuro un grafico a dispersione per analizzare la distribuzione di tali valori. I frame di analisi sono calcolati su finestre di 1024 campioni. Prima di effettuare l’analisi, i segnali sono stati sovracampionati di un fattore 8 per aumentare la risoluzione temporale e dell'ampiezza.

2. Il secondo script è utilizzato per l’elaborazione dei file sia contenenti la vocale sostenuta ‘a’, sia quelli contenenti la lettura e l’eloquio libero. Lo script sviluppato permette di calcolare i valori di CPPS e di analizzare le distribuzioni ad essi associati. I segnali registrati, con frequenza di campionamento pari a 44100 Hz, vengono sottocampionati con fattore pari a 2 per ottenere una frequenza di campionamento pari a 22050 Hz conforme al calcolo del CPPS e delle sue distribuzioni [19], considerando così frame di 1024 campioni (~22 ms), con passo di sovrapposizione pari a 88 campioni (~2 ms). All’interno dello script vi è anche l’estrazione dei parametri di HNR, V/uV e V/S.

(33)

33

4 Risultati

In questo capitolo vengono presentati i risultati dei modelli ottenuti per la discriminazione di soggetti sani e soggetti affetti da malattia di Parkinson per la vocale sostenuta registrata con microfono in aria e per l’eloquio libero registrato con entrambi i microfoni. In primis, vengono proposti i metodi di scelta dei parametri descrittivi utili alla classificazione dei pazienti, successivamente i modelli di classificazione utilizzati per la discriminazione e i risultati ottenuti in termini di accuratezza, sensibilità e specificità.

4.1 Vocale sostenuta ‘a’ con microfono in aria

Come già specificato nel capitolo precedente, per l’analisi della vocale sostenuta ‘a’

sono stati ricavati 21 parametri descrittivi, 5 di variazione in frequenza: Jitt, Jita, RAP, PPQ, v𝐹0, 𝐹0 media; 4 di variazione in ampiezza: Shim, ShdB, APQ, vAm; 2 ricavati dall’autocorrelazione del segnale: HNR, V/Uv, e 9 statistiche descrittive della distribuzione del CPPS: media, mediana, moda, standard deviation, range, 5 percentile, 95°percentile, skweness, kurtosis.

4.1.1 Feature selection

Per creare un classificatore che meglio potesse discriminare i soggetti in analisi, una volta ottenuti tutti i parametri è stata effettuata una selezione degli stessi, allo scopo di creare un subset minimo di features non correlate tra di loro, comparandole l’una con le altre attraverso l’indice di correlazione di Pearson ′𝜌′. Questo coefficiente è la misura della correlazione lineare tra due variabili X e Y:

𝜌(𝑋, 𝑌) =𝑐𝑜𝑣(𝑋, 𝑌) 𝜎𝑋𝜎𝑌

Dove 𝑐𝑜𝑣(𝑋, 𝑌) è la convoluzione tra X e Y, mentre 𝜎𝑋 e 𝜎𝑌 le deviazioni tipo di X e Y. Il risultato è un valore tra +1 e -1, con +1 correlazione lineare positiva, -1 correlazione lineare negativa, 0 non correlazione.

(34)

34

Nella Tabella 3 sono mostrati i coefficienti di correlazione di Pearson ottenuti comparando ogni parametro della vocale sostenuta ‘a’ con tutti i restanti parametri, tenendo in considerazione la loro significatività ai fini statistici andando a considerare solo quelli che risultano avere un 𝑝𝑉𝑎𝑙𝑢𝑒 > 0.05, non verificando quindi l’ipotesi nulla. Tali coefficienti infatti, non sono riportati. Il parametro V/S, irrilevante per l’analisi della vocale ‘a’, non è stato riportato poiché il suo valore risulta essere sempre pari a ~100%, avendo opportunamente segmentato in precedenza il file. I coefficienti sulla diagonale sono evidenziati perché rappresentano la correlazione del parametro con se stesso, per cui non restituisce alcuna informazione. I coefficienti evidenziati in azzurro, invece, rappresentano quelli maggiormente correlati tra di loro, i seguenti in modo particolare:

 Jitt, Jita, Shim, ShdB;

 Shim, ShdB, HNR;

 CPPS media, CPPS mediana, CPPS moda, CPPS 5°percentile, CPPS 95°percentile;

 CPPS standard deviation, CPPS range.

Al fine di effettuare una prima scrematura dei parametri ridondanti per le successive analisi, ci si è focalizzati sul subset di parametri: Jitt, PPQ, 𝑣𝐹0, APQ, vAm, HNR, V/Uv, CPPS media, CPPS range, CPPS skewness, CPPS kurtosis.

La matrice è stata ottenuta per il microfono in aria Mipro.

(35)

35

MIPRO Jitt Jita RAP PPQ 𝒗𝑭𝟎 Shim ShdB APQ vAm 𝑭𝟎 HNR V/Uv Media CPPS Median CPPS CPPS Moda CPPS Std Range CPPS CPPS 5°prc 95°prc CPPS CPPS Skew CPPS Kurt Jitt 1 0,99 1,00 0,72 0,65 0,82 0,87 0,77 0,36 -0,65 -0,57 -0,41 -0,39 -0,42 0,62 0,52 -0,58 -0,18

Jita 1 0,98 0,71 0,64 0,79 0,85 0,77 0,38 -0,65 -0,55 -0,36 -0,34 -0,37 0,63 0,56 -0,54

RAP 1 0,71 0,65 0,81 0,86 0,76 0,35 -0,64 -0,55 -0,41 -0,38 -0,42 0,60 0,50 -0,56 -0,18

PPQ 1 0,54 0,66 0,68 0,66 -0,58 -0,42 -0,24 0,66 0,42 -0,38

𝒗𝑭𝟎 1 0,53 0,56 0,52 0,28 0,20 -0,45 -0,41 -0,34 -0,30 -0,32 0,51 0,46 -0,48 -0,22

Shim 1 0,99 0,97 0,43 -0,82 -0,52 -0,37 -0,34 -0,34 0,63 0,49 -0,54

ShdB 1 0,97 0,43 -0,82 -0,55 -0,39 -0,36 -0,36 0,65 0,52 -0,56

APQ 1 0,42 -0,82 -0,55 -0,33 -0,31 -0,30 0,66 0,52 -0,53

vAm 1 -0,44 -0,27 -0,24 -0,19 0,45 0,48 -0,42 -0,24

𝑭𝟎 1 -0,23 -0,51 -0,50 -0,48 -0,46 -0,47 -0,20

HNR 1 0,37 0,20 -0,56 -0,48 0,39 0,22

V/Uv 1 0,39 0,38 0,38 -0,34 -0,19 0,44 0,25

CPPS

Media 1 1,00 0,93 -0,31 0,90 0,90 -0,23 0,21

CPPS

Median 1 0,94 -0,28 0,87 0,90 -0,30 0,23

CPPS

Moda 1 -0,28 0,81 0,82 -0,31 0,22

CPPS

Std 1 0,82 -0,66 -0,26

CPPS

Range 1 -0,44 0,19 -0,42 0,45

CPPS

5°prc 1 0,67

CPPS

95°prc 1 -0,22 0,19

CPPS

Skew 1 -0,58

CPPS

Kurt 1

Tabella 3 Matrice di correlazione dei parametri della vocale 'a'

(36)

36

4.1.2 Creazione classificatore

Considerando solo uno dei parametri di ogni set delle features ridondanti presentate nel paragrafo precedente, si è utilizzata l’applicazione di Matlab ‘Classification Learning’ per la creazione di un classificatore. Grazie all’analisi del Parallel Coordinates Plot è stato possibile verificare quali fossero i parametri utili per separare le classi, in modo da poterlo addestrare solo con le features più utili.

Figura 9 Esempio di Parallel Coordinates Plot

Lo scopo di quest’analisi statistica è stata quella di scegliere quali parametri meglio potessero discriminare soggetti sani da soggetti affetti dalla malattia di Parkinson. Per questo motivo si è scelta di creare due modelli di classificatore: regressione logistica e coarse tree. La scelta è caduta su questi due modelli perché:

 Regressione logistica: è un modello di regressione non lineare in presenza di una variabile dipendente di tipo dicotomica, utile per stabilire la probabilità con cui un certo dato appartenga o meno ad uno dei due valori della variabile dipendente. L’impiego è finalizzato a classificare un dato che può assumere

(37)

37

come unici valori 0 o 1, restituendo la probabilità che esso appartenga alla classe 1 con la seguente funzione:

𝑃(1) = 𝑒𝛽0+𝛽1𝑋1+⋯+𝛽𝑘𝑋𝑘 1 + 𝑒𝛽0+𝛽1𝑋1+⋯+𝛽𝑘𝑋𝑘

Con P che indica la probabilità, X il vettore delle variabili indipendenti, 𝛽 il vettore dei parametri.

 Coarse tree: è un modello di classificazione del tipo albero decisionale.

Scompone un set di dati in sottoinsiemi sempre più piccoli, mentre è sviluppato un nuovo albero decisionale. Il risultato è un albero con nodi decisionali e nodi a fogli, in cui il nodo decisionale ha due o più rami per la decisione, mentre quello a foglia rappresenta la classificazione finale. Il nodo decisionale più in alto corrisponde al miglior predittore chiamato nodo radice [20]. Nel caso della tipologia ‘coarse’, l’albero presenta al massimo 4 nodi, utile nel caso di piccoli dataset per evitare il problema dell’overfitting.

Per la costruzione dei modelli di classificatore per la vocale ‘a’ sostenuta, si è scelto di utilizzare le tre vocali singolarmente in modo da poter creare un classificatore più robusto avendo come input un dataset non da 44 elementi (22 soggetti affetti da Parkinson e 22 soggetti sani), ma da 132-

4.1.2.1 Regressione logistica

Per la creazione del modello di regressione lineare, oltre all’aver analizzato il Parallel Coordinates Plot, per la scelta dei parametri ci si è anche aiutati andando a verificare il p-value delle features. Se tale valore risulta infatti inferiore a 0.05, l’ipotesi nulla non è rifiutata e il parametro risulta significativamente irrilevante alla creazione del modello.

Il modello di regressione logistica che meglio è riuscito a discriminare la due classi è risultato il seguente:

(38)

38

𝑃(𝐻𝑒𝑎𝑙𝑡ℎ𝑦) = 𝑒−3.99+3.45∙𝐽𝑖𝑡𝑡−3.66∙𝑃𝑃𝑄−0.93∙𝐴𝑃𝑄+0.75∙𝐶𝑃𝑃𝑆_5𝑝𝑟

1 + 𝑒−3.99+3.45∙𝐽𝑖𝑡𝑡−3.66∙𝑃𝑃𝑄−0.93∙𝐴𝑃𝑄+0.75∙𝐶𝑃𝑃𝑆_5𝑝𝑟

Ovvero un modello a quattro parametri: Jitt, PPQ, APQ e CPPS 5°percentile.

Una volta creato il modello, si è provveduto a scegliere la soglia ottimale per la distinzione nelle due classi analizzando i grafici di sensibilità (veri positivi) e specificità (veri negativi), concedendo priorità alla sensibilità.

Figura 10 Scelta del taglio del modello di regressione lineare per la vocale a

(39)

39

Figura 11 Curva ROC del modello a regressione lineare della vocale a

Lascelta è ricaduta su una soglia per la distinzione pari a 0.56 tra le due classi, in modo da ottenere una sensibilità migliore lasciando inalterata la specificità.. Come è possibile notare dalla Figura 12, il classificatore così costruito presenta una confusion matrix del tipo (Tabella 4):

Classe predetta

0 1

Classe reale 0 58 8

1 7 59

Tabella 4 Confusion matrix regressione logistica vocale a

Con:

 0 classe Parkinson

 1 classe Sani

(40)

40

Figura 12 Probabilità delle vocali a con il modello di regressione logistica

Figura 13 Probabilità delle vocali 'a' con il modello di regressione logistica per ogni singolo soggetto

(41)

41

Ottenendo così ottime prestazioni in termini di accuratezza, sensibilità e specificità:

 𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = 88.6%

 𝑆𝑒𝑛𝑠𝑖𝑡𝑖𝑣𝑖𝑡𝑦 = 87.8%

 𝑆𝑝𝑒𝑐𝑖𝑓𝑖𝑐𝑖𝑡𝑦 = 89.4%

Infine il classificato creato è stato testato considerando le un’unica ‘a’ per soggetto, in modo che ogni paziente avesse un singolo responso. Per ottenere i nuovi parametri delle ‘a’, sono stati considerati i valor medi delle singole ‘a’ registrate da ogni soggetto monitorato.

Figura 14 Probabilità delle tre 'a' mediate per ogni singolo paziente

Come si nota dalla Figura 14, le prestazioni del modello risultano essere pressoché invariate:

(42)

42

Classe predetta

0 1

Classe reale 0 20 2

1 2 20

Tabella 5 Confusion matrix regressione logistica per le 'a' mediate

Ottenendo così prestazioni in termini di accuratezza, sensibilità e specificità:

 𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = 90.9%

 𝑆𝑒𝑛𝑠𝑖𝑡𝑖𝑣𝑖𝑡𝑦 = 90.9%

 𝑆𝑝𝑒𝑐𝑖𝑓𝑖𝑐𝑖𝑡𝑦 = 90.9%

4.1.2.2 Coarse tree

Il classificatore con il modello del coarse tree, a differenza della regressione logistica, non restituisce una probabilità di appartenenza alla classe, ma è del tipo in/out, ovvero appartiene ad una determinata classe o meno. Questo perché il modello divide lo spazio in n dimensioni con n pari al numero di parametri rilevanti (Figura 16), che meglio riesce a discriminare il dataset nelle due classi di appartenenza.

In seguito (Figura 15) è riportato l’albero di decisione per la distinzioni nelle due classi.

(43)

43

Figura 15 Decision tree vocale 'a'

Come si nota dal grafo, i parametri scelti per la classificazione sono risultati: Shim, PPQ e CPPS skewness.

Il classificatore così costruito presenta una confusion matrix del tipo (Tabella 6):

Classe predetta

0 1

Classe reale 0 60 6

1 4 62

Tabella 6 Confusion matrix coarse tree vocale a

Con:

 0 classe Parkinson

 1 classe Sani

(44)

44

Ottenendo così ottime prestazioni in termini di accuratezza, sensibilità e specificità:

 𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = 92.4%

 𝑆𝑒𝑛𝑠𝑖𝑡𝑖𝑣𝑖𝑡𝑦 = 90.9%

 𝑆𝑝𝑒𝑐𝑖𝑓𝑖𝑐𝑖𝑡𝑦 = 93.9%

Figura 16 Divisione dello spazio delle features con l'albero decisionale per la vocale 'a'

Anche in questo caso il classificatore creato è stato testato considerando le medie dei parametri delle tre \a\ di ogni soggetto monitorato per ottenere un’unica discriminante tra le due classi di appartenenza per ogni singolo paziente.

(45)

45

Figura 17 Divisione dello spazio delle features con l'albero decisionale per la media delle vocali 'a'

Le prestazioni del modello risultano essere pressoché invariate:

Classe predetta

0 1

Classe reale

0 19 3

1 2 20

Tabella 7 Confusion matrix regressione logistica per le 'a' mediate

(46)

46

Ottenendo così prestazioni in termini di accuratezza, sensibilità e specificità:

 𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = 88.6%

 𝑆𝑒𝑛𝑠𝑖𝑡𝑖𝑣𝑖𝑡𝑦 = 86.3%

 𝑆𝑝𝑒𝑐𝑖𝑓𝑖𝑐𝑖𝑡𝑦 = 90.9%

4.2 Eloquio libero con microfono in aria

Per l’analisi dell’eloqui libero registrato con il microfono in aria, come descritto nei paragrafi precedenti, sono stati calcolati 13 parametri, 1 di variazione in frequenza:

𝐹0 media; 2 ricavati dall’autocorrelazione del segnale HNR, V/Uv,; e 9 parametri statistici relativi al CPPS: media, mediana, moda, standard deviation, range, 5 percentile, 95°percentile, skewness, kurtosis.

Come già specificato parametri descrittivi di variazione in frequenza e in ampiezza come: Jitt, Jita, RAP, PPQ, v𝐹0, Shim, ShdB, APQ, vAm; non sono stati calcolati a differenza della vocale ‘a’ sostenuta perché irrilevanti per la discriminazione di patologie all’apparato fonatorio.

4.2.1 Feature selection

Come per la vocale ‘a’ la prima discriminazione effettuata sui parametri descrittivi è stata effettuata analizzando l’indice di correlazione di Pearson ′𝜌′. Nella Tabella 8 riportata in seguito, sono presentati i coefficienti di correlazione di Pearson ottenuti comparando ogni parametro ricavato dai file dell’eloquio libero con tutti i restanti parametri.

(47)

47

MIPRO 𝑭𝟎 HNR V/Uv Media Median Moda CPPS Std

CPPS Range

CPPS 5°pr

CPPS 95°pr

CPPS Skew

CPPS Kurt

𝑭𝟎 1 -0,39 0,41

HNR 1 0,70 0,33 0,30 0,41 -0,40 0,35

V/Uv 1 0,33 0,32 0,35 -0,36

CPPS

Media 1 1,00 0,88 0,67 0,87 0,92 -0,95 0,57

CPPS

Median 1 0,91 0,69 0,85 0,92 -0,96 0,57

CPPS

Moda 1 0,70 0,70 0,80 -0,87 0,48

CPPS

Std 1 0,38 -0,42 0,36 -0,67

CPPS

Range 1 0,36 0,76 -0,63

CPPS

5°prc 1 0,68 -0,82 0,75

CPPS

95°prc 1 -0,81

CPPS

Skew 1 -0,67

CPPS

Kurt 1

Tabella 8 Matrice di correlazione con indici di Pearson per parametri dell'eloquio libero con microfono in aria

I coefficienti sulla diagonale sono evidenziati perché rappresentano la correlazione del parametro con se stesso, per cui non restituisce nessuna informazione. I coefficienti evidenziati in azzurro invece rappresentano i coefficienti maggiormente correlati tra di loro, in particolare i seguenti:

 CPPS media, CPPS mediana, CPPS moda, CPPS 5°percentile, CPPS 95°percentile, CPPS skewness.

Al fine di effettuare una prima scrematura dei parametri ridondanti per le successive analisi ci si è focalizzati sul subset di parametri: 𝐹0,HNR, V/Uv, CPPS media, CPPS standard deviation, CPPS range, CPPS kurtosis.

La matrice è stata ottenuta per il microfono in aria MIPRO. Inoltre si può notare che alcuni coefficienti non sono stati riportati. Tali valori omessi non risultavano statisticamente significativi, avendo un 𝑝𝑉𝑎𝑙𝑢𝑒 > 0.05, non verificando quindi l’ipotesi nulla.

Riferimenti

Documenti correlati

L’obiettivo, in questo caso, è creare una rete neurale artificiale che, ricevendo in input gli 84 valori di deformazione misurati (la configurazione estensimetrica scelta è formata da

Si è analizzato il moto ondoso, mediante le misure di profondità acquisite indirettamente mediante il trasduttore di pressione integrato nel D-ADP, andando

A key point of OpenCL is its portability not only on devices (GPUs from different vendors) but also on hosts (CPUs from different vendors and with different

Inoltre, a seconda della posizione che queste tane assumono all’interno del corpo diga, possono generare delle condizioni peggiorative in termini di distribuzione di

Per far sì che tutto il processo si svolga in modo efficace, ci sono delle unità informative chiamate UDC (Unità Di Cambiamento) che permettono il passaggio

La regressione stepwise può non funzionare in differenti casi: innanzitutto quando si hanno molti predittori potenziali ma pochi dati per stimare coefficienti significativi,

Dopo un’approfondita analisi bibliografica sulla vitamina D 3 , le sue applicazioni e i sistemi per somministrarla, è stata effettuata una parte sperimentale in cui il

variabili osservate negli studi già citati anche voci di bilancio di cui non possiamo escludere la rilevanza come le spese in conto capitale, relative agli investimenti pluriennali