C APITOLO 3: A NOMALIE DEL T RAFFICO DI R ETE

(1)

45

C

APITOLO

3:

A

NOMALIE DEL

T

RAFFICO DI

R

ETE

Fin ora sono stati analizzati i dati relativi al traffico di rete radiomobile della Milano GRID sotto un aspetto di tipo strettamente “antropologico”, individuando le zone geografiche legate a determinati CC di interesse rilevante e valutando, seppur sinteticamente, la loro evoluzione geografica e temporale.

Nelle sezioni che seguiranno sarà affrontata, invece, un tipo di analisi diversa, incentrata sulla rilevazioni di anomalie del traffico di rete intese, in senso lato, come variazione del valor medio dei livelli di traffico.

In letteratura esistono algoritmi di varia natura che svolgono questa funzione, individuando aumenti e diminuzioni del valor medio del segnale analizzato, sotto opportune condizioni. Un esempio è l’algoritmo CUSUM, così definito poiché, in modo sequenziale, effettua somme cumulative di combinazioni dei campioni utilizzando alcune statistiche, a priori, del segnale analizzato per impostare “sensibilità” e soglie di tolleranza nella rilevazione delle “anomalie” ricercate [18]. Una sua variante largamente usata e il NP-CUSUM (Non-Parametric-NP-CUSUM), usato nei casi in cui si lavora con sequenze la cui distribuzione non è nota a priori (e quindi non caratterizzata statisticamente), utilizzando i dati “in-line” per la stima dei parametri necessari. Entrambe le due “famiglie” di algoritmi hanno quindi lo svantaggio di dover usare dei parametri di lavoro strettamente dipendenti dal segnale analizzato, ricavando tali parametri da ipotesi o conoscenze a priori (CUSUM classico) o eseguendo una stima a partire dagli stessi campioni per i quali si vogliono individuare le “anomalie”.

3.1 A

LGORITMO

SW-CLT

L’algoritmo SW-CLT (Sliding Window-Central Limit Theorem) è uno schema sequenziale di rilevazione delle variazioni in valor medio (“Change Point”) per serie temporali, basato, come ne suggerisce il nome, sul Teorema del Limite Centrale. Esso ha l'obiettivo di identificare variazioni di valor medio nell’ampiezza dei dati analizzati, in modo del tutto automatico e al fine di focalizzare l’attenzione sui punti in cui le variazioni sono avvenute, per successive valutazioni a posteriori sull’entità degli eventi stessi. A differenza di algoritmi simili per finalità (CUSUM, NP-CUSUM), lo SW-CLT non richiede l’utilizzo di soglie di decisione prefissate (scelte sulla base di ipotesi statistiche a priori sui dati in esame), bensì lavora con soglie adattative e strettamente legate alla porzione di dati analizzati nelle varie fasi di applicazione. Ciò si traduce nel calcolo di soglie sempre diverse istante per istante (da cui la natura sequenziale dell’algoritmo), che tengono conto delle variazioni dinamiche delle misurazioni [19].

(2)

46

3.1.1 I

L

T

EOREMA DEL

L

IMITE

C

ENTRALE

Come già sopra accennato, lo SW-CLT fonda la sua base teorica sul Teorema del Limite Centrale (TLC). Il TLC, in estrema sintesi, enuncia e dimostra che la distribuzione di una variabile aleatoria (V.A.) risultante dalla somma di un “gran numero” di V.A. indipendenti e con la stessa distribuzione, converge ad una distribuzione normale, indipendentemente dalla distribuzione originaria soggiacente [20]. Con qualche dettaglio in più ciò si formalizzare come segue. Siano:

𝑯𝑯

𝟏𝟏

, 𝑯𝑯

𝟐𝟐

… . . 𝑯𝑯

𝒏𝒏

n

variabili aleatorie indipendenti e identicamente distribuite, con media

_µ

e varianza finita

𝛔𝛔

𝟐𝟐

_.

_{Allora, il teorema afferma che, per}

_n>>1

_,

_{la V.A.}

𝑺𝑺

𝒏𝒏

= � 𝑯𝑯

𝒊𝒊 𝒏𝒏 𝒊𝒊=𝟎𝟎

appartiene ad una distribuzione Normale con valor medio e varianza rispettivamente pari a

_{𝑴𝑴 =}

𝒏𝒏

×

µ

e

𝑽𝑽𝑽𝑽𝑽𝑽 = 𝒏𝒏

×

𝝈𝝈

𝟐𝟐 o più sinteticamente

𝑺𝑺

_𝒏𝒏

ϵ

N

(M, VAR)

.

Naturalmente, se le V.A. di partenza appartengono già di per se ad una distribuzione Normale, ciò implica l’applicabilità del TLC per qualsiasi valore di

n

data la proprietà della somma di V.A. Normali di essere a sua volta Normale. In tutti gli altri casi il valore di

n

è critico e non trascurabile: la regola euristica è che un valore di

n≥30

sia sufficientemente grande a giustificare l’applicazione del TLC. Inoltre, alcune distribuzioni possono, sotto opportune condizioni, ricondursi ad una distribuzione Normale. Per chiarire il concetto si citano due casi noti di quanto appena enunciato.

Se V è una V.A. distribuita come una Binomiale di parametri

p

e

q=1-p

, con

n

molto grande (

n>30

), e approssimativamente

n×p>10

, allora la Binomiale può essere approssimata con una Normale di valor medio

n×p

e varianza

n×p×q (N

(n×p ; n×p×q)).

Se V è una V.A. distribuita come una Poissoniana di parametro

λ

molto grande (

λ > 10

), allora la Poissoniana può essere approssimata con una Normale di valor medio e varianza entrambi uguali a λ (

N

(λ ; λ) ).

3.1.2 S

TRUTTURA E

F

UNZIONAMENTO DELL

’

ALGORITMO

Esaurita, dunque, la dovuta premessa teorica per introdurre l’algoritmo, si passa ora ad analizzarne la sua struttura vera e propria. Come già il suo nome suggerisce, lo schema adottato nello SW-CLT si basa sull’utilizzo di finestre (Window) che in modo sequenziale “abbracciano” i dati da analizzare, sommandoli rispettivamente in delle finestre (dalla somma si intuisce il riferimento al TLC). Le finestre, nel dettaglio, sono due, di dimensione

(3)

47

uguale fra loro e simmetriche rispetto al campione in esame in un generico istante. Schematicamente, quindi, valgono le seguenti definizioni. Siano:



𝒙𝒙

_𝟏𝟏

, 𝒙𝒙

_𝟐𝟐

… . . 𝒙𝒙

_𝒏𝒏 la sequenza di dati di input di lunghezza

n

;



m

la dimensione di entrambe le due finestre a cavallo del campione in esame all’istante

_t

;



0≤

t

≤

n-2

×

m

il range temporale di applicazione dell’algoritmo;

Siano inoltre

_𝒀𝒀

_𝟏𝟏

_(𝒕𝒕)

e

_𝒀𝒀

_𝟐𝟐

_(𝒕𝒕)

le due variabili ottenute sommando i campioni all’istante

_t

rispettivamente nella prima e nella seconda finestra, ovvero:

𝒀𝒀

_𝟏𝟏

(𝒕𝒕) = � 𝒙𝒙

𝒊𝒊

𝒕𝒕+𝒎𝒎 𝒊𝒊=𝒕𝒕+𝟏𝟏

𝒀𝒀

_𝟐𝟐

(𝒕𝒕) = � 𝒙𝒙

𝒊𝒊 𝒕𝒕+𝟐𝟐∗𝒎𝒎 𝒊𝒊=𝒕𝒕+𝒎𝒎+𝟏𝟏

Dalle due variabili

_𝒀𝒀

_𝟏𝟏

_(𝒕𝒕)

e

_𝒀𝒀

_𝟐𝟐

_(𝒕𝒕)

viene ricavata

_{𝑫𝑫(𝒕𝒕)}

, che è la vera e propria statistica di decisione dell’algoritmo, consistente nel valore assoluto della differenza tra le somme effettuate nelle due finestre e definita come:

𝑫𝑫(𝒕𝒕) = |𝒀𝒀

𝟐𝟐

(𝒕𝒕) − 𝒀𝒀

𝟏𝟏

(𝒕𝒕)|

Sulla variabile

_{𝑫𝑫(𝒕𝒕)}

viene effettuata una decisione a soglia, individuando una variazione

nel valor medio dei campioni in esame (Change Point) ogni qual volta il valore della statistica di decisione supera la soglia

_𝑫𝑫

_{𝒕𝒕𝒕𝒕} , calcolata per i campioni appartenenti alle due finestre. L’algoritmo decide, quindi, che è avvenuto un evento del tipo “Change Point” nel punto di separazione delle due finestre (

_𝝁𝝁�

=

_t+m

) ogni qual volta si verifica la condizione

𝑫𝑫(𝒕𝒕) ≥ 𝑫𝑫

𝒕𝒕𝒕𝒕

Per ricavare un opportuno valore di soglia

_𝑫𝑫

_{𝒕𝒕𝒕𝒕}bisogna ragionare in termini probabilistici, mutuando concetti di ambito radaristico, come è prassi nella valutazione di algoritmi del tipo di quello in esame. Si possono definire in quest’ottica le seguenti entità:

 A = {evento “Change Point”} (inteso come variazione di valor medio)  B = {evento “No Change Point”}



𝐏𝐏

_{𝐅𝐅𝐅𝐅}= Probabilità di FALSO ALLARME

 Pr {a > d} = 1-Pr {a ≤ d} (probabilità di un evento associato alla V.A. D(t) )  _{𝚽𝚽(∙) = Funzione di distribuzione di una V.A. Normale standard}

N

(0,1)

(4)

48

Ipotizzando di voler fissare preventivamente (a priori) un certo valore

_ϵ

per la

_𝐏𝐏

_{𝐅𝐅𝐅𝐅}, si può

scrivere l’equazione:

𝐏𝐏

𝐅𝐅𝐅𝐅

= 𝛜𝛜

La

_𝐏𝐏

_{𝐅𝐅𝐅𝐅}è, però, per definizione, una probabilità condizionata, quindi esplicitando rispetto alle grandezze definite poco sopra si può scrivere:

𝐏𝐏

𝐅𝐅𝐅𝐅

= 𝐏𝐏𝐏𝐏{𝑽𝑽|𝑩𝑩} = 𝛜𝛜

Applicando alla variabile

_{𝑫𝑫(𝒕𝒕)}

, vale l’equivalenza:

𝐏𝐏

_{𝐅𝐅𝐅𝐅}

= 𝐏𝐏𝐏𝐏{𝐝𝐝 < 𝑫𝑫

_{𝒕𝒕𝒕𝒕}

|𝐁𝐁} = 𝟏𝟏 − 𝐏𝐏𝐏𝐏{𝐝𝐝 ≥ 𝑫𝑫

𝒕𝒕𝒕𝒕

|𝐁𝐁} = 𝛜𝛜

Si osservi che il condizionamento all’evento

B

si traduce nell’assenza di variazione in valor medio tra le due finestre (con varianza presumibilmente costante nello stesso range di osservazione). Adottando valori di

_m

tali da poter considerare verificato il TLC di cui al paragrafo 3.1.1, si possono ipotizzare i singoli

_𝒙𝒙

_𝒊𝒊 delle due finestre come indipendenti ed identicamente distribuiti con generico valor medio

µ

e varianza

_𝝈𝝈

𝟐𝟐

_.

Ciò detto, visto il condizionamento all’evento

B

e riprendendo la definizione della variabile

_{𝑫𝑫(𝒕𝒕)}

𝑫𝑫(𝒕𝒕) = |𝒀𝒀

𝟐𝟐

(𝒕𝒕) − 𝒀𝒀

𝟏𝟏

(𝒕𝒕)| = |𝒁𝒁(𝒕𝒕)|

è lecito affermare che la variabile

_{𝒁𝒁(𝒕𝒕)}

segue una distribuzione Normale di valor medio nullo e varianza

_𝝈𝝈

_𝒁𝒁𝟐𝟐

_{= 𝟐𝟐 × 𝒎𝒎 × 𝝈𝝈}

𝟐𝟐. Ricordando, però, le proprietà di simmetria della distribuzione Normale rispetto al proprio valor medio, è altrettanto lecito affermare che anche la variabile

_{𝑫𝑫(𝒕𝒕)}

appartiene alla stessa distribuzione con i medesimi parametri ovverosia:

𝑫𝑫(𝒕𝒕)

ϵ

N

(0,

𝟐𝟐 × 𝒎𝒎 × 𝝈𝝈

𝟐𝟐

₎

Riprendendo, infine, l’espressione relativa alla

_𝐏𝐏

_{𝐅𝐅𝐅𝐅}, effettuato l’opportuno cambiamento di variabile per ricondursi alla funzione

_{𝚽𝚽(∙)}

(unica distribuzione Normale i cui valori sono noti in letteratura) e ricordando la condizione per cui l’algoritmo rileva un “Change Point”:

𝑫𝑫(𝒕𝒕) ≥ 𝑫𝑫

𝒕𝒕𝒕𝒕, è possibile scrivere

𝐏𝐏

𝐅𝐅𝐅𝐅

= 𝟏𝟏 − 𝐏𝐏𝐏𝐏{𝐝𝐝 ≥ 𝑫𝑫

𝒕𝒕𝒕𝒕

|𝐁𝐁} = 𝟏𝟏 − 𝚽𝚽(𝛚𝛚) = 𝛜𝛜

da cui si ricava per inversione della

_{𝚽𝚽(∙)}

(5)

49

3.2 V

ALUTAZIONE DELLE PRESTAZIONI DELL

’

ALGORITMO

Una trattazione esaustiva di un algoritmo in generale, e quindi in particolare di quello in esame, non può prescindere dalla valutazione sperimentale delle sue prestazioni, espresse, ovviamente, in termini statistici e probabilistici. Dopo la presentazione dell’algoritmo nella sua struttura si passa quindi all’analisi del suo comportamento in casi particolari e controllabili (test). Come già per tutta la parte precedente dell’elaborato, anche in questa sezione lo strumento software utilizzato è stato Matlab®.

3.2.1 S

ERIE TEMPORALE DI TESTING

Per estrarre i risultati relativi alle prestazioni dell’algoritmo, lo SW-CLT è stato applicato ad una particolare serie temporale le cui caratteristiche sono note a priori e variabili (a piacere) tra una simulazione e l’altra, al fine di produrre una serie di stress-test, valutandone a posteriori i risultati. Nello specifico sono stati fissati un certo numero di eventi N, di durata pari al parametro Event-time. All’interno di un evento si succedono due tipi di situazioni: un sotto-evento di durata Gate-time che inizia con un UP-Change Point e termina con il corrispettivo DOWN-Change Point, ed un secondo evento di durata Inter-Gate-time inteso come la distanza temporale fino all’evento successivo. Per tutta la durata Event-time sono stati generati quindi dei campioni random estratti da una distribuzione Normale non standard. I valor medi della Normale “generatrice” sono

_𝝁𝝁

_𝟐𝟐e

_𝝁𝝁

_𝟏𝟏(con

𝝁𝝁

_𝟐𝟐

_>

𝝁𝝁

𝟏𝟏 ) rispettivamente durante il Gate-time e l’Inter-Gate-time come da precedente

definizione (per semplicità si farà riferimento al rapporto

_{𝑽𝑽 = 𝝁𝝁}

_𝟐𝟐

_/𝝁𝝁

_𝟏𝟏). Stessa varianza, invece, per tutti i campioni. La serie temporale di testing vera e propria è stata quindi sintetizzata semplicemente concatenando gli N eventi come appena descritto e aggiungendo una fase iniziale di durata T con le stesse caratteristiche di un Inter-Gate-time (valor medio

_𝝁𝝁

_𝟏𝟏). Quanto appena descritto è raffigurato in Figura 45.

(6)

50

3.2.2 S

IMULAZIONI PARAMETRICHE

Dopo le prime simulazione, ma intuendolo anche concettualmente in fase di implementazione dell’algoritmo, è emersa la natura “sequenziale” dello SW-CLT, il quale, di fronte a una serie temporale come in Figura 45 reagisce con un “grappolo” di rilevazione attorno ai due tipi di “Change Point” (Up e Down) come evidenziato in Figura 46. Con il termine “grappolo” si intendono dunque tanti allarmi consecutivi a cavallo della stessa entità “Change Point” (Up e Down che sia) e generati dall’entità stessa.

Figura 46: Detection a "grappolo “intorno agli eventi Change Point

Ciò è dovuto al funzionamento sequenziale dell’algoritmo stesso (già descritto nel paragrafo 3.1.2): le due finestre adiacenti scorrono per valori

di t: 0≤

_t

≤

_n-2

×

_m

, segnalando un evento associato al superamento della soglia all’istante

𝝁𝝁� = t+m.

Ipotizzando che due o più detection consecutive e dello stesso tipo siano da considerarsi un evento unico, nell’implementazione standard dello SW-CLT tale evento è considerato (e rilevato) almeno

m

volte (dimensione di una delle finestre) dando origine ad una serie di allarmi ripetuti.

Per ovviare a questo problema, soprattutto in prospettiva dei conteggi delle singole detection per l’estrapolazione delle varie probabilità prestazionali, si è scelto, in fase implementativa, di imporre una sola detection finale in caso di detection adiacenti e consecutive, controllando ad ogni istante

t

se all’istante precedendone (

t-1

) si fosse già verificata una detection dello stesso tipo (Up o Down). Così facendo si perdono variazioni in valor medio a distanza di un istante ma certamente non di due o più. Il risultato, per un esperimento con gli stessi parametri di quello in Figura 46 è riportato in Figura 47.

(7)

51 Figura 47: No detection a “grappolo” con algoritmo modificato.

Inoltre, la struttura a finestre adiacenti e la rilevazione di una variazione in valor medio all’istante di separazione delle due finestre (

𝝁𝝁� =t+m)

ha evidenziato, sperimentalmente un anticipo nella rilevazione degli eventi prefissati, rendendo l’algoritmo fastidiosamente non causale. Ecco perché in fase di implementazione si è scelto di ritardare tale rilevazione di un a quantità

m

e pari esattamente alla dimensione di una finestra. Così facendo le rilevazioni potranno subire solo ritardi ma sicuramente non anticipi.

Infine, per aumentare l’accuratezza delle soglie

_𝑫𝑫

_{𝒕𝒕𝒕𝒕} calcolate di volta in volta, si è scelto di differenziare la stima della la varianza necessaria a tale scopo. Fin quando non si verifica un evento (superamento soglia) la varianza all’istante successivo a quello attuale è stimata a partire dall’origine dei tempi fino all’istante 𝒕𝒕𝟎𝟎= 𝒕𝒕 + 𝟐𝟐 × 𝒎𝒎

(ovvero la fine della seconda

finestra all’istante

t

)

.

Nel caso invece si verifichi un superamento della soglia, la varianza all’istante successivo viene azzerata e calcolata a partite dall’istante

t

di effettiva occorrenza del superamento della soglia, iterando lo stesso ragionamento agli istanti successivi. La varianza, in entrambi i casi, è calcolata per mezzo di uno stimatore della varianza campionaria corretta, disponibile attraverso il comando Matlab® var(·)5_.

Ciò detto, considerando tali variazione nell’implementazione dello SW-CLT, sono state estratte le sue prestazioni, usando serie temporali di testing come descritto nel paragrafo 3.2.1, variando di volta in volta alcuni parametri, tenendone contemporaneamente costati altri e costruendo quindi delle tabelle che descrivono il comportamento della strategia di detection analizzata in un ampio range di situazioni. Si è scelto, infine, di lasciare all’algoritmo un fase di training di

L=200

campioni. Per completezza si riporta di seguito un elenco dei parametri in gioco (in assoluta coerenza con la nomenclatura fin qui usata):

5_{𝑣𝑣𝑣𝑣𝑣𝑣(𝑋𝑋) =} 1

𝑁𝑁−1∑𝑛𝑛𝑖𝑖=0|𝑋𝑋𝑖𝑖− 𝜇𝜇̅|2 è la varianza campionaria corretta dal fattore 𝑁𝑁 𝑁𝑁−1 : lim𝑁𝑁→∞

𝑁𝑁 𝑁𝑁−1 =1;

(8)

52

 m : dimensione di una delle due finestre; 

𝝐𝝐

: probabilità di Falso Allarme a priori;



𝝁𝝁

_𝟐𝟐: valor della serie di testing tra un UP-Change-Point e un DOWN-Change-Point; 

𝝁𝝁

_𝟏𝟏: valor della serie di testing tra un DOWN-Change-Point e un UP-Change-Point;

 Event-time: durata di un evento (Gate-time + Inter-Gate-time);

 Gate-time: distanza (temporale) tra due variazioni in valor medio (rispettivamente UP e

DOWN) preconfigurate per il testing;

 Inter-Gate-time: distanza (temporale) tra due variazioni in valor medio (rispettivamente

DOWN e UP) preconfigurate per il testing;

 D = massimo ritaro consentito per una rilevazione (scelto uguale alla metà del valore Gate-time o uguale ad altri valori scelti a seconda della simulazione);

(9)

53

3.2.3 R

ISULTATI DELLE SIMULAZIONI

I valori riportati nelle tabelle successive, sono il risultato di una media effettuata su 10 realizzazioni delle serie temporali descritte sopra, con la stessa configurazione tra una simulazione e l’altra. Il riepilogo dei parametri usati per ogni simulazione è sinteticamente riportati in basso alla tabella stessa. Per maggiore semplicità nella valutazione dei risultati, le varie configurazioni dei parametri coinvolti sono state raggruppate in set di casi: in ogni set è stato variato un solo parametro da caso a caso, valutando l’effetto di tale variazione sui parametri rimanenti. Come indicato in fondo ad ogni tabella, per il ritardo medio nella detection sperimentato tra le 10 realizzazioni è stato calcolato il corrispettivo intervallo di confidenza al 95%.

3.2.3.1 SET 1 - CASI 1 ÷ 5

Tabella 3: prestazioni dell'algoritmo SW-CLT per il CASO 1

(10)

54

(11)

55

Nei 5 casi analizzati, al variare della dimensione della finestra

m

, è stata simulata una variazione in valor medio corrispondente ad un range di valori del parametro R= 6, 8, 10, 15, 20, con una durata degli eventi pari a 30, una distanza tra due eventi pari a 114 (fissato per definizione l’Event-time a 144), con massimo ritardo consentito nella rilevazione pari a 15 (la metà esatta della durata di un evento) ed una Probabilità di Falso Allarme a Priori pari a 10^-3. Dai risultati ottenuti, si nota immediatamente il peso del parametro m rispetto al Gate-time: quanto più i due parametri tendono ad assumere valori confrontabili, tanto più le prestazioni dell’algoritmo degradano sia per quanto riguarda la detection che i falsi allarmi sperimentati. Addirittura la probabilità di corretto avvistamento si dimezza per m ≥ Gate-time. Ciò può esser ragionevolmente giustificato dal fatto che avere una finestra di lunghezza m: m > Gate-time implica un “gate” quasi “trasparente” nei suoi effetti rispetto ad una finestra troppo ampia. Ovviamente vale il ragionamento opposto in quanto per valori di m: m < Gate-time si sperimentano probabilità di detection corrette prossime ad 1 ed esigui falsi allarmi. Dallo stesso set di simulazioni si può notare, inoltre, la “reazione” dell’algoritmo rispetto all’entità della variazione in valor medio: valori di R più elevati corrispondono a migliori detection e minori falsi allarmi il che, ricordando che R è il rapporto tra i valor medi pre-impostati nella serie temporale di testing all’interno e al di fuori di un evento (definizioni nel paragrafo 3.2.1), denota una maggiore sensibilità dell’algoritmo a grandi variazioni nel valor medio della serie analizzata piuttosto che a variazioni esigue della stessa.

3.2.3.2 SET 2 - CASI 6 ÷ 10

Nei casi appartenenti al secondo set vengono proposte 5 simulazioni in cui a variare è il parametro relativo al Gate-time: esso è stato incrementato da 20 a 60 dal caso 6 al caso 10, producendo la conseguente diminuzione del parametro Inter-Gate-time (ricordando che Event-Time = Gate-time + Inter-Gate-time). Assodati i risultati del set precedente, in questo secondo set, il range di variazione del parametro m è stato scelto a cavallo del Gate-time per ogni singolo caso (e non fisso come nei casi precedenti). Tale scelta ha come giustificazione quella di far emergere eventuali comportamenti anomali proprio intorno al valore Gate-time che è la variabile sotto analisi nel Set 2.

(12)

56

(13)

57 Tabella 11: prestazioni dell'algoritmo SW-CLT per il CASO 9

Dai risultati sintetizzati nelle 5 tabelle che precedono (casi 6÷10) sono confermate le considerazioni già fatte per il Set 1 e riguardanti l’implicazione dei parametri m e Gate-time nelle prestazioni intese come P_fa e P_det. Un risultato interessante (e nuovo) emerge nell’ultima simulazione (caso 15) nel quale si vede che non solo per m ≥ Gate-time la P_det si dimezza ma addirittura per m ≈ Inter-Gate-time i valori di inizio tabella di P_det e P_fa quasi si invertono rispetto alle condizioni m = 45, sintomo che l’algoritmo produce quasi esclusivamente falsi allarmi e pochissime detection valide. Ciò lo si può intuitivamente spiegare considerando che gli effetti dei fronti in salita e discesa nella variazione del valor medio della serie temporale si compensano addirittura tra un Event-Time e quello successivo poiché la dimensione m è abbastanza grande da “abbracciare” fronti in salita/discesa di due eventi adiacenti, rendendo completamente “cieco” l’algoritmo nei riguardi dei fronti del singolo evento.

(14)

58

3.2.3.3 SET 3 - CASI 11÷ 15

Per completezza nello studio dell’algoritmo vengono infine proposti gli ultimi 5 casi (11÷ 15) in cui le simulazioni sono state effettuate con gli stessi identici parametri del SET 1, fatta eccezione per la Probabilità di Falso Allarme a Priori, pari questa volta a 10^-4;

(15)

59 Tabella 15: prestazioni dell'algoritmo SW-CLT per il CASO 13

(16)

60

Le considerazioni che si possono fare per il SET 3 sono essenzialmente due: innanzitutto la P_fa sperimentata, rispetto al SET 1, diminuisce di un ordine di grandezza come ci si aspettava, avendo impostato la stessa diminuzione come parametro di lavoro dell’algoritmo ed avendo sperimentato quindi la bontà dell’algoritmo sesso nel rispettare i propri parametri di lavoro. Inoltre già per R=8 e piccoli valori di m si sperimentano P_det prossime ad 1, mentre nel SET 1 questo accadeva per valori di R superiori. Ciò è indice dell’influenza della Probabilità di Falso Allarme a Priori sulla detection.

3.2.4 R

APPORTO TRA PARAMETRI DI LAVORO E PRESTAZIONI

Nell’ultimo paragrafo di questo capitolo vengono riepilogati i rapporti tra i diversi parametri variati nei SET 1÷3 e le prestazioni sperimentate dell’algoritmo. Poiché la motivazione euristica di tali implicazioni è già stata affrontata set per set nei sotto paragrafi del 3.2.3, in questo paragrafo ne sarà proposta una trattazione molto sintetica e puntuale. Le implicazioni riscontrate sono le seguenti:

1. Per m ≥ Gate-time la P_det si dimezza ed in modo duale per m < Gate-time la P_det migliora (P_det ≅ 1). A tal proposito, con riferimento alle tabelle del SET 1 e all’analogo SET 3, si definisce Pre-WRORST_CASE_m il valore di m più grande prima del dimezzamento della P_det. A conferma di tale comportamento, si riporta di seguito in

Figura 48 l’estratto delle tabelle del SET 1 per alcuni valori di R, a parità del parametro

ϵ

= 10^-3 e Gate-time= 30):

Figura 48: P_det e P_fa al variare di m per il SET 1 e per i valori di R =6, 8 ,15 (da sinistra a destra)

(17)

61

2. Per m ≥ Gate-time la P_fa tende ad aumentare mentre per m < Gate-time la P_fa tende asintoticamente al valore

ϵ

impostato a priori. Sempre con riferimento alle tabelle del SET 1 e del SET 3, tale inversione di tendenza si verifica per il valore di m successivo a quello già definito in precedenza come Pre-WRORST_CASE_m ;

3. Le affermazioni del punto 1 e 2 sono tanto più vere quanto più alto è il valore assunto dal parametro R. A conferma di ciò si riportano gli andamenti di P_fa e P_det al variare di R, per due valori di

ϵ

e per m = Pre-WRORST_CASE_m.

Figura 49: P_det al variare di R e per due valori del parametro _ϵ

Figura 50: P_fa al variare di R e per due valori del parametro _ϵ

4. Con rifermento al SET 3 - caso 15, si nota che per m ≅ Inter-Gate-time le probabilità P_det e P_fa quasi si invertono rispetto alla situazione con m = 45 dello stesso caso;