Hidden semi Markov model - Metodi statistic

1.2.5 Analisi delle tecniche di stima della RUL

1.2.5.1 Metodi statistic

1.2.5.1.3 Hidden semi Markov model

Una generalizzazione dell’HMM è il modello Hidden Semi Markov (HSMM) che si utilizza in molte applicazioni ingegneristiche e il cui processo di stato inosservato è una catena semi-markov (Si et al., 2011). Infatti, nei modelli HMM standard, a causa dell'assunzione Markoviana, il tempo trascorso in uno stato è o geometrico distribuito, nel caso temporale discreto, oppure esponenziale distribuito, nel caso temporale continuo, ma poiché la maggior parte dei sistemi reali non esibisce tale proprietà si utilizza, in sostituzione, il processo semi-markov (Le et al., 2015). Nonostante i risultati da HSMM siano promettenti, questo possiede lo stesso difetto dell’HMM nell’assumere che le osservazioni siano indipendenti dal tempo. Inoltre, un altro grande limite è che tali metodi, come per gli HMM, possono solo predire il RUL e la sua varianza e non possono fornire la funzione di densità di probabilità (probability density function, PDF) del RUL. Nonostante l’HSMM sia più potente dell’HMM per stimare il RUL, l’HSMM porta a maggiori problemi di identificazione dei parametri complessi (Si et al., 2011). A differenza dell'HMM standard, il tempo di permanenza dello stato in HSMM può seguire qualsiasi distribuzione arbitraria, come la Gaussiana. Una volta inserito uno stato, il processo rimane in tale stato per un periodo di tempo la cui lunghezza è determinata dalla distribuzione arbitraria. Alla fine di questo periodo, il processo si sposta casualmente in un altro stato in base alla matrice di probabilità di transizione dello stato. Si assume che il

processo semi-markov nell'HSMM sia rigorosamente sinistro-destro e che le osservazioni siano distribuzioni gaussiane. Analogamente all'HMM standard, un HSMM può essere caratterizzato dai seguenti parametri: la distribuzione dello stato iniziale p, il modello di transizione A, la distribuzione della durata dello stato indicata da D e il modello di osservazione B. Quindi, un HSMM può essere scritto come: λ = (p , A , D , B ) (Le et al., 2015).

1.2.5.1.4 Applicazioni

Nei seguenti articoli viene utilizzata una catena hidden markov:

1. Multi-branch Hidden semi-Markov modeling for RUL prognosis (Le et al., 2015);

2. Optimal state selection and tuning parameters for a degradation model in bearings using Mel- Frequency Cepstral Coefficients and Hidden Markov Chains (Holguín et al., 2016).

1. Viene analizzato il modello semi-hidden markov in una variazione multi-branch per ovviare al fatto che gli HSMM siano adatti a modellare solo una modalità di deterioramento alla volta. Il caso applicativo viene svolto su un cuscinetto i cui dati sulla propagazione della fessura vengono raccolti con un modello Fatique Crack Growth (FGC) basato sulla legge Paris-Erdogan. Il multi-branch viene usato per affrontare la coesistenza di molteplici modalità di deterioramento concorrenti. Il modello proposto è composto da diversi rami, ognuno dei quali rappresenta una modalità di deterioramento. Alcune importanti ipotesi sono state fatte nella costruzione del modello. In primo luogo, si presume che una volta che il degrado sia iniziato seguendo un determinato percorso, l'apparecchiatura segua questa modalità di deterioramento fino a quando non raggiunge la fine della vita, ovvero non vi è alcun passaggio consentito tra i rami. La seconda ipotesi è che la condizione normale può durare molto a lungo senza segni anormali nelle osservazioni. Le osservazioni emesse in questo stato non sono quindi di interesse nel quadro della modellizzazione del deterioramento. Inoltre, una volta che l'apparecchiatura ha fallito, viene fermata e non è possibile ottenere ulteriori misure. Da questi punti, quello iniziale Socosì come il finale Sfsono gli

stati considerati come stati fittizi senza emissione di osservazione nel modello. Pertanto, ogni ramo può essere visto come un singolo modello HSMM a cui viene assegnata una probabilità a priori (Figura 1.23).

Figura 1.23 Schema del modello HSMM

Viene proposta una struttura a due fasi basata sul modello MB-HSMM per la diagnosi e la prognosi (Figura 1.24):

Figura 1.24 Modello MB-HSMM di diagnostica e prognostica

Fase offline: Questa fase ha lo scopo di apprendere un modello MB-HSMM dai dati storici. L'idea è di allenare ogni ramo individualmente e quindi combinarli per ottenere un modello finale. Per fare ciò, dividiamo dapprima il set di dati in M diversi gruppi in cui ognuno corrisponde a una modalità di deterioramento. In questo studio, si suppone che il numero di gruppi M sia conosciuto in anticipo. Ciascun gruppo di dati viene quindi utilizzato per addestrare un HSMM costituente utilizzando l'algoritmo che utilizza il forward-backward (FB) come processo chiave per l'apprendimento dei parametri e la stima della probabilità. Dopo aver addestrato i rami costitutivi, le probabilità a priori possono essere stimate mediante l'equazione: 𝑝𝑘 = 𝑃(𝜆𝑘) = 𝐾𝑘 𝐾 , ∑ 𝑝𝑘 𝑀 𝑘=1 = 1 (2)

e si ottiene un modello MB-HSMM completo, dove λk denota l'HSMM costituente per il ramo k, Kk è il

numero di sequenze di dati di allenamento corrispondenti alla modalità k, K è il numero delle sequenze di dati di allenamento totali e M è il numero totale dei rami.

Fase online: In questa fase, il modello generato viene utilizzato per valutare lo stato di salute effettivo dell'apparecchiatura monitorata e per stimare la RUL. Al fine di minimizzare il tasso di errata classificazione, il ramo che ha il massimo di probabilità posteriore considerando i dati, può essere considerato corrispondente al meccanismo di deterioramento attuale, cioè:

Ǩ = 𝑎𝑟𝑔𝑚𝑎𝑥𝑘 𝑃(𝜆𝑘|𝑂)

Usando il teorema di Bayes, queste probabilità possono essere date da: 𝑃(𝜆𝑘|𝑂) =

𝑃(𝑂|𝜆_𝑘)𝑃(𝜆𝑘)

∑𝑀𝑘=1𝑃(𝑂|𝜆_𝑘)𝑃(𝜆𝑘) (3)

Dove:

• 𝑃(𝑂|𝜆𝑘) è la probabilità del modello 𝜆𝑘 considerati i dati O e possono essere calcolati attraverso

l'algoritmo forward-backward; • 𝑃(𝜆_𝑘) è calcolato dall'equazione: 𝑝𝑘 = 𝑃(𝜆𝑘) = 𝐾_𝑘 𝐾 , ∑ 𝑝𝑘 𝑀 𝑘=1 = 1.

Dopo aver identificato la modalità di deterioramento, la fase successiva della diagnosi è riconoscere lo stato di salute effettivo dell'apparecchiatura. Questo può essere eseguito grazie all'algoritmo di Viterbi, generalmente utilizzato per trovare la migliore sequenza di stati (detta Viterbi path) in una sequenza di eventi osservati in un processo markoviano. Data la modalità rilevata, la sequenza singolo stato più probabile è quella che fornisce la massima probabilità congiunta del percorso e delle osservazioni:

𝑄∗= 𝑎𝑟𝑔𝑚𝑎𝑥_𝑄Ǩ 𝑃(𝑂, 𝑄_Ǩ|𝜆_Ǩ)

Dove QǨ rappresenta un possibile percorso sotto la modalità K. Lo stato di salute effettivo

dell'apparecchiatura è considerato come l'ultimo del percorso Q*.

La distribuzione RUL è calcolata come media delle distribuzioni posteriori in modalità costitutive, ponderate in base alle probabilità della modalità posteriore:

𝑃(𝑅𝑈𝐿|𝑂) = ∑𝑀𝑘=1𝑃(𝑅𝑈𝐿|𝜆𝑘, 𝑂)𝑃(𝜆𝑘|𝑂) (4)

La procedura può ora passare alla stima del RUL per ogni singolo modello HSMM costituente. Si suppone che il componente attraversi stati degradati S1, S2, ... , SN prima di raggiungere lo stato di errore Sf e che

sia nello stato Si al momento attuale t. Poiché il modello è rigorosamente sinistra-destra, il RUL può

essere calcolato come la somma di due termini: il tempo residuo di permanenza nello stato corrente e la durata per l'apparecchiatura di rimanere negli stati di salute futuri prima di entrare nell'errore. Definiti 𝐷𝑖

e 𝐷𝑖𝑡 come variabili casuali che rappresentano rispettivamente il tempo totale e il tempo residuo della

permanenza nello stato Si per i = 1 , 2 , Kn, si ha:

𝑅𝑈𝐿𝑡𝑖 = 𝐷𝑖𝑡+ ∑ 𝐷𝑗 𝑁 𝑗=𝑖+1

Intuitivamente, il tempo residuo è una variabile casuale condizionale 𝐷𝑖𝑡 = 𝐷𝑖− 𝐷̅̅̅| 𝐷𝑙 𝑖 > 𝐷̅̅̅ dove 𝐷𝑙 ̅̅̅ è il 𝑙

tempo trascorso dall'attrezzatura nello stato Si che può essere calcolato grazie all'algoritmo di Viterbi

dalla fase diagnostica. Dato che Di è distribuito come una gaussiana, come ad esempio Di: N (μi, σi), si può

dedurre che il tempo residuo 𝐷𝑖𝑡| 𝐷𝑖𝑡> 0 segue una distribuzione normale con media μi e deviazione

standard σi.

Oltre a ciò, dovuto anche all'assunzione Gaussiana, l'elemento Σ è distribuito normalmente. Si vede come:

𝑍 = ∑𝑁𝑗=𝑖+1𝐷𝑗, abbiamo 𝑍: 𝑁(𝜇𝑧, 𝜎𝑧) dove 𝑧 = ∑𝑗=𝑖+1𝑁 𝜇𝑗 e 𝜎𝑧= √∑𝑁𝑗=𝑖+1𝜎𝑗2

La RUL diventa la somma di una distribuzione normale troncata 𝐷𝑖𝑡 e una variabile distribuita normale Z.

La funzione di distribuzione cumulativa del RUL è, quindi, data da:

𝐹𝑅𝑈𝐿(𝑥) = 1 1 − 𝜙 (_𝜎)𝑎 ∫ [𝜙 ( 𝑥 − 𝑢 𝜎 ) − 𝜙 ( 𝑎 𝜎)] 𝜑(𝑢)𝑑𝑢 𝑥−1 −𝑖𝑛𝑓 Dove: 𝑎 = −𝜇𝑡−𝐷̅̅̅𝑡 𝜎_𝑧 , 𝜎 = − 𝜎_𝑡 𝜎_𝑧 e 𝜙(𝜉) = 1 √2𝜋𝑒 −𝜉2

2 è la funzione di densità di probabilità della distribuzione

normale standard e ɸ(⋅) è la sua funzione di distribuzione cumulativa.

Dopo aver valutato tutti i singoli rami, la stima RUL sotto MB-HSMM può essere eseguita con l'equazione (4).

In conclusione, la MB-HSMM mostra un risultato molto promettente nell'affrontare il meccanismo di deterioramento multimodale.

2. Questo articolo presenta lo sviluppo di un sistema automatizzato che identifica tipi di guasti nei cuscinetti di macchinari elettrici etichettandoli secondo tre livelli di gravità (basso, medio, alto) in tre differenti elementi dei cuscinetti -anello interno, esterno ed elemento rotante- di cui viene studiato il segnale di vibrazione. Una sintesi del metodo proposto può essere osservata in Figura 1.25.

Figura 1.25 Metodologia utilizzata nell’articolo

Tale metodo inizia con i Cepstral Coefficients on the Mel scale (MFCC) che sono dei coefficienti che collettivamente rappresentano uno spettro di potenza e che abilitano informazioni sul segnale dal dominio di tempo e di frequenza e permettono l’estrazione di caratteristiche dinamiche lineari e non. Tale fase viene seguita da un Code Book in cui le osservazioni continue vengono associate al centroide discreto più vicino; la tecnica più utilizzata per far ciò è l’algoritmo k-means. Infatti, per addestrare una catena hidden markov con osservazioni discrete, è obbligatorio rendere discrete le caratteristiche. Qui le osservazioni sono vettori di dimensione d (numero di caratteristiche) organizzati in X = {x1, x2, ..., xy}.

L'algoritmo k-means permette di prendere le osservazioni e di dividerle in k sottoinsiemi S = S1, S2, ..., Sk.

Tale algoritmo itera in due fasi principali:

• In primo luogo, le osservazioni che sono vicine l'una all'altra sono associate a risorse: 𝑆_𝑖𝑡{𝑥𝑝: ||𝑥𝑝− 𝑚𝑖𝑡|| ≤ 𝑥𝑝− 𝑚𝑗𝑡||} con 1 ≤ j ≤ k

• Viene, in seguito, fatto un aggiornamento stimando nuove misure per i centroidi di ogni divisione: 𝑚𝑖𝑡+1

|𝑆_𝑖𝑡| ∑ 𝑋𝑗

𝑋𝑗∈𝑆𝑖𝑡

L’algoritmo, infine, converge quando non si verificano modifiche significative nel passaggio di attualizzazione.

Successivamente si ha una catena hidden markov con osservazioni discrete che viene utilizzata come metodo di classificazione e rappresentazione delle osservazioni.

La catena hidden markov ha le seguenti caratteristiche: • N: numero di stati del modello

• M: numero di simboli di differenti stati osservabili, noti come V = {v1, v2, …, vM}.

• A = [ai,j]: distribuzione di probabilità di una transizione di stato.

• B = [bi,j(k)]: distribuzione di probabilità di un’osservazione simbolo nello stato j

• π = [πi]: distribuzione di stato iniziale dove πi = P{ql= Si }.

• O: sequenza di osservazione, dove O={O1, O2,…, OT}, con Ot ∈ V.

• λ: Set di parametri del modello HMC, dove λ ={A, B, π}. Con l’aiuto della catena hidden markov, si può osservare che:

• data la sequenza di osservazione e un modello, stima in modo efficiente P {O | λ}, cioè la probabilità della sequenza di osservazione dal modello specificato.

• vista la sequenza di osservazione e un modello, seleziona la migliore sequenza di stato che spiega meglio le osservazioni.

• date le osservazioni, regolarizza i parametri del modello per massimizzare P {O | λ}

Per addestrare i modelli HMC, i parametri λ = {A, B, π} devono essere regolati in base alle osservazioni, in modo da massimizzare P {O|λ}. Viene usato l’algoritmo Expectation Maximization (EM) dove la probabilità di essere nello stato 𝑖 al tempo 𝑡 e in uno stato 𝑗 al tempo 𝑡 + 1, in modo da stimare i parametri del modello, è:

𝜉𝑡(𝑖, 𝑗) = 𝑃{𝑞𝑡 = 𝑖, 𝑞𝑡+1= 𝑗|𝑂, 𝜆} =

𝑃{𝑞𝑡 = 𝑖, 𝑞𝑡+1= 𝑗|𝑂, 𝜆}

𝑃{𝑂|𝜆}

𝜉𝑡(𝑖, 𝑗) = 𝑎𝑡(𝑖)𝑎𝑖,𝑗𝑏𝑗(𝑜𝑡+1)𝛽𝑡+1(𝑗) ∑ ∑𝑁 𝛼(𝑖) 𝑗=1 𝑁 𝑖=1 𝑎𝑖,𝑗𝑏𝑗(𝑜𝑡+1)𝛽𝑡+1(𝑗)

Dove i parametri nuovamente stimati sono:

𝑎′𝑖,𝑗= ∑𝑇−1𝑡=1𝑎𝑡(𝑖)𝑎𝑖,𝑗𝑏𝑗(𝑜𝑡+1)𝛽𝑡+1(𝑗) ∑𝑇−1_𝑖=1 ∑𝑁_𝑗=1𝛼(𝑖)𝑎𝑖,𝑗𝑏𝑗(𝑜𝑡+1)𝛽𝑡+1(𝑗) 𝑏′𝑗(𝑘) = ∑𝑇𝑡=1∑𝑡=1𝑁 ∑𝑡=1𝑇−1𝑎𝑡(𝑖)𝑎𝑖,𝑗𝑏𝑗(𝑜𝑡+1)𝛽𝑡 = 𝜐𝑘 ∑𝑇−1_𝑖=1 ∑𝑁_𝑗=1𝛼(𝑖)𝑎𝑖,𝑗𝑏𝑗(𝑜𝑡+1)𝛽𝑡+1(𝑗)

Le iterazioni vengono eseguite fino a P {O | λ'}. Per valutare i differenti modelli HMC che meglio rappresentano le osservazioni, è stata utilizzata una curva ROC (Receiver Operating Characteristics, ROC) definita come un insieme di schemi grafici per un classificatore binario, dalle quali è risultato che quattro è il numero consigliato di stati per i quali un modello hidden markov dovrebbe essere addestrato per ottenere una precisione diagnostica con un costo computazionale inferiore.

Nel documento Analisi ed applicazione di modelli diagnostici e prognostici per guasti e prestazioni di componenti di impianti industriali nell’era I4.0 (pagine 73-80)