2 14:30-15:30 (Attilio) Panoramica sui pacchetti Ganglia e Nagios!1h00'

(1)

Formazione Regione Marche 4/5 Aprile 2013

Giovedi’ 4

1 14:00 - 14:30 (Livio)

Introduzione al Monitoring!30' 2 14:30 - 15:30 (Attilio)

Panoramica sui pacchetti Ganglia e Nagios!1h00' 3 15:30 - 16:00 (Livio/Hassen)

Metriche, Architettura e integrazione in OpenStack!30' 4 16:15 - 16:45 (Andrea)

Ciclo di vita delle immagini virtuali: automatismi per alta affidabilità!30' 5 16:45 - 17:45 (Hassen/Andrea)

Descrizione delle funzionalità del pacchetto MMC (Monitor per Marche Cloud)!1h00'

" " 1. Contestualizzazione nell'infrastruttura!20'

" " 2. Integrazione di Ganglia/Nagios nella Dashboard!20'

" " 3. Scripting e Plugin realizzati!20'

Venerdi' 5

6 09:00 - 09:30 (Livio)

Lezioni dal periodo di rodaggio 12/12-2/13!30' 7 09:30 - 11:15 (Andrea/Hassen)

Laboratorio - Training specifico sulla Dashboard, pratica all'uso dei livelli di monitoring in MMC!2h00

" 1. Installazione passo per passo di MMC (1h00)

" " installazione standard di Nagios

" " installazione standard di Ganglia

" " installazione del User-Level Monitoring

" " integrazione nella Dashboard

" " " 2. Configurazione di MMC 1h00

" " " " configurazione e tests di Nagios e Ganglia

" " " " configurazione e tests di user level monitoring

(2)

Formazione Regione Marche 4/5 Aprile 2013

Giovedi’ 4

1 14:00 - 14:30 (Livio)

Introduzione al Monitoring!30' 2 14:30 - 15:30 (Attilio)

Panoramica sui pacchetti Ganglia e Nagios!1h00' 3 15:30 - 16:00 (Livio/Hassen)

Metriche, Architettura e integrazione in OpenStack!30' 4 16:15 - 16:45 (Andrea)

Ciclo di vita delle immagini virtuali: automatismi per alta affidabilità!30' 5 16:45 - 17:45 (Hassen/Andrea)

Descrizione delle funzionalità del pacchetto MMC (Monitor per Marche Cloud)!1h00'

" " 1. Contestualizzazione nell'infrastruttura!20'

" " 2. Integrazione di Ganglia/Nagios nella Dashboard!20'

" " 3. Scripting e Plugin realizzati!20'

Venerdi' 5

6 09:00 - 09:30 (Livio)

Lezioni dal periodo di rodaggio 12/12-2/13!30' 7 09:30 - 11:15 (Andrea/Hassen)

Laboratorio - Training specifico sulla Dashboard, pratica all'uso dei livelli di monitoring in MMC!2h00

" 1. Installazione passo per passo di MMC (1h00)

" " installazione standard di Nagios

" " installazione standard di Ganglia

" " installazione del User-Level Monitoring

" " integrazione nella Dashboard

" " " 2. Configurazione di MMC 1h00

" " " " configurazione e tests di Nagios e Ganglia

" " " " configurazione e tests di user level monitoring 8 12:00 - 13:30 (Andrea/Hassen)

Training su simulazioni di condizioni specifiche (istanza che muore, sovraccarica, hanged...)!1h45'

" " " 1. Overview dei plugins esistente in Nagios (30 min)

" " " 2. Abilitare/Disabilitare un plugin esistente

" " " 3. Modificare l’azione associata

9 14:30 - 16:30 (Andrea/Hassen)

Personalizzazione delle soluzioni di monitoring (realizzazione di allarmi su eventi specifici)!2h00'

" " " 1. Event handler che riavvia tomcat se httpd non risponde

" " " 2. Se una delle partizioni e’ occupata > 90%, un event handler:

" " " " 2.1 cancella tutti file in /tmp che matchano un dato pattern

" " " " 2.2 se lo spazio utlizzato e' ancora > 90% notifica le

" " " " cartelle che usano piu' spazio agli admin

" " " 3. Plugin in nagios che controlla i tentativi ssh falliti:

" " " " 3.1 se i tentativi di un dato indirizzo supera una certa soglia

" " " " manda una mail che contiene l’indirizzo agli admin e cambia

" " " " le regole del firewall per bloccare l’indirizzo

(3)

Cloud

Monitoring

Livio Fanò

INFN - Perugia

(4)

• Background

• Il Cloud Monitoring

– System-‐level – User-‐level

– Network-‐level

(5)

Background

• Complessità e pun> cri>ci di una Cloud

– Scala ed eterogeneità dell’infrastru3ura

• Servers, network devices, storages, etc.

• cen9naia, migliaia di macchine

– Alto numero di applicazioni

• Possibili conseguenze catastroﬁche per failure / security breach / performance degrada9on

• Il Monitoring e’ Indispensabile

– Availability, failure detec9on – Performance, provisioning – Security, anomaly detec9on – Applica9on-‐level monitoring

(6)

Background

• Monitoring-‐as-‐a-‐Service

– Simile ad altri Servizi-‐Cloud

• Database service

• Storage service

• Applica9on service

– Beneﬁci

• Supporto End-‐to-‐end, integrato e facile da usare, mantenere

• Implementazione condivisa

(7)

Systems Monitoring

(8)

Systems Monitoring

(9)

External Monitor

website, ﬁleserver, mail server, VoIP, DB

HTTP/HTTPS GET/POST, PING, TCP, UDP, POP3, IMAP, SMTP,

FTP, VOIP, DNS, MySQL Check Response Time and

Availability

(10)

perchè un sito è in crash ?

(11)

Server Monitor

CPU, Memory, Processes, Storage;

Linux, Windows, FreeBSD, Solaris Agents

es: agen9 mandano i da9 al sistema di monitoring

nessuna necessità di modiﬁcare il ﬁrewall

supporto na9vo per infrastru3ure distribuite

(12)

problemi di networking ?

(13)

Network Monitor

SNMP, ping, h?p, ssh, discovery

“Agentless check” dei disposi>vi di networking e

servers

(14)

tuR gli aspeR di un sito sono

soSo controllo ?

(15)

Transac>on Monitor

Mul>-‐step applica>ons, scenario-‐based

Applica9on workﬂow, checks, simulazioni di azioni

da parte dell’end-‐user

(16)

16

(17)

ho il controllo sulle applicazioni/da>

nella cloud?

(18)

Cloud Monitor

instances, automa>on, usage

monitor delle istanze, auto-‐

deploy di monitoring tool per server e applicazioni, controllo

dell’u9lizzo

(19)

quale livello di traﬃco per un sito ?

(20)

Web Traﬃc Monitor

visitors, page views, keywords, referrers

Real-‐>me web traﬃc

tracking

(21)

un po’ piu’ in deSaglio...

(22)

Background

• Monitoring di Stato -‐ ﬂusso logico

– Osserva lo stato di un sistema / applicazione / servizio

– Dove per “stato” si intende un valore scalare che descrive un certo parametro di funzionamento, V

• ad esempio l’uso della CPU, tempo medio di risposta ecc...

– Condizione di violazione de V > T

(23)

Background

• Monitoring di Stato distribuito

– Il valore di stato V è aggregato tra diversi oggeR – Monitor e ColleSore

– Ad esempio un “web server monitoring” (consumo medio della CPU)

(24)

Background

• ArchiteSura

– Monitor Server

– Coordinator Server

(25)

Preroga>ve a Livello di Sistema

• Scalabilità

– Possibilità di supportare mol> tasks separa> di monitoring – Costo eﬀeRvo: minimizzare l’uso di risorse

• QoS (priorità diﬀeren> ad applicazioni diﬀeren>) – Mul>-‐tenancy environment

– Minimizzazione dei conﬂiR di risorse tra i task di monitoring

(26)

Scalabilità

• Massive Scale

– Mol9 task di monitoring sono intrinsecamente di larga scala

• Es. ServiceLevelAgreement monitoring

– Numero grande di uten9

• Infrastructure monitoring

• Applica9on monitoring

– Task speciﬁci ad “alto costo”

• Es. “heavy hi3er” detec9on basato su un qualche algoritmo

• Costo eﬀeRvo

– Monitoring e’ un servizio che deve aiutare (semplice) – Deve coinvolgere meno risorse possibile

(27)

Scalabilità

• Osservazione

– Non tuR i task hanno bisogno di un monitoring intensivo

– Un task potrebbe non averne bisogno sempre

(28)

Scalabilità

• Probabilità di violazione

– Monitoring intensivo quando

• solo per i task con alta probabilità di violazione

• solo quando la probabilità locale di un task è alta

– Un metodo eﬃciente di s9ma della violazione è basato sul campionamento del diﬀerenziale δ

– La frequenza del campionamento è deﬁnita dall’a3endibilità della s9ma probabilis9ca (tolleranza)

V2

V1 δ

Time Monitored

Value

(29)

Scalabilità

• variabilità dell’osservabile

• Distribuire la tolleranza tra nodi di monitoring mul>pli

Error Allowance

(30)

Scalabilità

• Monitoring sta>co VS dinamico

(31)

Preroga>ve a Livello di Sistema

• Scalabilità

– Possibilità di supportare mol> tasks separa> di monitoring – Costo eﬀeRvo: minimizzare l’uso di risorse

• QoS

– Mul>-‐tenancy environment

– Minimizzazione dei conﬂiR di risorse tra i task di monitoring

(32)

Quality-‐of-‐Service

• Implicazioni del Mul>-‐Tenancy (singola istanza -‐> mol> uten>) – Monitoring tasks (aggiungere, rimuovere...)

– ConﬂiSo delle risorse tra i task

• Capire l’impaSo del conﬂiSo di risorse

• Implementazione di un monitoring server

(33)

Quality-‐of-‐Service

• Threading per Monitor Servers

– ObieRvi di scalabilità e prestazioni – Implementazione Naïve

• Un thread per nodo

• Gran numero di task simultanei

• Costo di threading elevato

– Implementazione basata su un Thread-‐pool

• Scheduling globale per tua i nodi di monitor associa9 ad un server

–Sampling condizionato (trigger) –Scalabilità: sorted triggers

(34)

Quality-‐of-‐Service

• ImpaSo del conﬂiSo di risorse

– Sampling job possono ﬁnire a tempi diversi (mis-‐deadlines) – I task potrebbero perdere alcuni pun9 di sampling (misﬁring)

(35)

Quality-‐of-‐Service

• La risoluzione dei conﬂiR:

– Non è suﬃciente l’uso medio di una risorsa

• potrebbe portare a decisioni sbagliate

– Il Monitor dello stesso task dovrebbe essere eseguito allo stesso tempo

• minimizzare il 9me shic

60 secs 60 secs 60 secs

(36)

Quality-‐of-‐Service

• La risoluzione dei conﬂiR:

(37)

Quality-‐of-‐Service

• La risoluzione dei conﬂiR:

(38)

Quality-‐of-‐Service

• La risoluzione dei conﬂiR:

(39)

Quality-‐of-‐Service

• Approccio intui>vo

– CaSura di paSern per

• Task di consumo delle risorse

• Disponibilità di risorse

– Matching eﬃciente dei paSern d’uso e di disponibilità

– Riduzione del 50%-‐80% delle mis-‐deadlines e misﬁring

(40)

Preroga>ve a Livello Utente

• Budget-‐Aware Monitoring

– PermeSe una risoluzione dinamica del monitoring in base al budget disponibile

• Distributed Con>nuous Viola>on Detec>on

– Incontra i bisogni di modelli diﬀeren>

– Eﬃciente

(41)

Budget-‐Aware Monitoring

• Cloud e “Pay-‐as-‐You-‐Go”

– Associa dire3amente i cos9 computazionali con quelli monetari – Perme3e un provisioning ﬂessibile basato sul budget disponibile

• Overhead nel Cloud Monitoring

– costo di processamento della violazione

• Es. nuovi server in corrispondenza di un allarme rela>vo al degrado delle prestazioni – consumo di per se del budget dell’utente

• Cosa manca alle tecniche di monitoring a3uali ?

– assenza in generale di una connessione tra u9lity di monitoring e costo del monitoring –Es. il consumo del budget di un task di monitoring è sconosciuto

– un modello di monitoring ideale

(42)

Budget-‐Aware Monitoring

• Perchè è necessaria una nuova interfaccia

– auto-‐scaling delle web-‐applica>on

• aggiunge/rimuove server in base alle prestazioni

• dato un budget, come si dovrebbe conﬁgurare un task di monitoring ?

(43)

Budget-‐Aware Monitoring

• Risoluzione

– Granularità del monitoring – “sliding windows”

• Es. mediare i valori di riferimento in una certa ﬁnestra temporale

(44)

Budget-‐Aware Monitoring

• Risoluzione

– Granularità del monitoring – “sliding windows”

• Es. mediare i valori di riferimento in una certa ﬁnestra temporale

(45)

Budget-‐Aware Monitoring

• come funziona ?

– Si determina la risoluzione del monitoring in base al budget disponibile

• budget abbondante

–risoluzione ad alta granularità

–vengono risolte violazioni di ogni 9po

• budget limitato

–risoluzione peggiore

–vengonoo risolte solo le violazioni principali

(46)

Budget-‐Aware Monitoring

• esempio architeSura

(47)

• Distributed Con>nuous Viola>on Detec>on

– Modello di rilevazione istantanea – Modello a rilevazione con>nua

Short-term burst Persistent violation

L L

Preroga>ve a Livello Utente

(48)

Network Level

• Resource-‐Aware Monitoring -‐ struSura

– Monitor del funzionamento sia dei sistemi che delle applicazioni su larga scala

– Raccolta con9nua e de3agliata dei valori di monitoring

• alto numero di nodi

• alto numero di osservabili

– Overhead cresce rapidamente se l’infrastru3ura, le applicazioni ed i task di monitoring crescono

• Goal

– organizzare i nodi in stru3ure di monitoring – non violare il “per-‐node resource constraint”

– minimizzare il numero di osservabili

2 14:30-15:30 (Attilio) Panoramica sui pacchetti Ganglia e Nagios!1h00'

Formazione Regione Marche 4/5 Aprile 2013

Cloud

Monitoring

• Background

• Il Cloud Monitoring

– System-­‐level – User-­‐level

– Network-­‐level

Background

• Complessità e pun> cri>ci di una Cloud

• Il Monitoring e’ Indispensabile

Background

• Monitoring-­‐as-­‐a-­‐Service

Systems Monitoring

Systems Monitoring

External Monitor

website, ﬁleserver, mail server, VoIP, DB

perchè un sito è in crash ?

Server Monitor

CPU, Memory, Processes, Storage;

Linux, Windows, FreeBSD, Solaris Agents

problemi di networking ?

Network Monitor

SNMP, ping, h?p, ssh, discovery

tuR gli aspeR di un sito sono

soSo controllo ?

Transac>on Monitor

Mul>-­‐step applica>ons, scenario-­‐based

ho il controllo sulle applicazioni/da>

nella cloud?

Cloud Monitor

instances, automa>on, usage

quale livello di traﬃco per un sito ?

Web Traﬃc Monitor

visitors, page views, keywords, referrers

Real-­‐>me web traﬃc

tracking

un po’ piu’ in deSaglio...

Background

• Monitoring di Stato -­‐ ﬂusso logico

– Osserva lo stato di un sistema / applicazione / servizio

– Dove per “stato” si intende un valore scalare che descrive un certo parametro di funzionamento, V

– Condizione di violazione de V > T

Background

• Monitoring di Stato distribuito

– Il valore di stato V è aggregato tra diversi oggeR – Monitor e ColleSore

– Ad esempio un “web server monitoring” (consumo medio della CPU)

Background

• ArchiteSura

– Monitor Server

– Coordinator Server

Preroga>ve a Livello di Sistema

• Scalabilità

– Possibilità di supportare mol> tasks separa> di monitoring – Costo eﬀeRvo: minimizzare l’uso di risorse

• QoS (priorità diﬀeren> ad applicazioni diﬀeren>) – Mul>-­‐tenancy environment

– Minimizzazione dei conﬂiR di risorse tra i task di monitoring

Scalabilità

• Massive Scale

• Costo eﬀeRvo

Scalabilità

• Osservazione

– Non tuR i task hanno bisogno di un monitoring intensivo

– Un task potrebbe non averne bisogno sempre

Scalabilità

• Probabilità di violazione

Scalabilità

• variabilità dell’osservabile

• Distribuire la tolleranza tra nodi di monitoring mul>pli

Scalabilità

• Monitoring sta>co VS dinamico

Preroga>ve a Livello di Sistema

• Scalabilità

– Possibilità di supportare mol> tasks separa> di monitoring – Costo eﬀeRvo: minimizzare l’uso di risorse

• QoS

– Mul>-­‐tenancy environment

– Minimizzazione dei conﬂiR di risorse tra i task di monitoring

Quality-­‐of-­‐Service

• Implicazioni del Mul>-­‐Tenancy (singola istanza -­‐> mol> uten>) – Monitoring tasks (aggiungere, rimuovere...)

– ConﬂiSo delle risorse tra i task

• Capire l’impaSo del conﬂiSo di risorse

– System-‐level – User-‐level

– Network-‐level

• Monitoring-‐as-‐a-‐Service

Mul>-‐step applica>ons, scenario-‐based

Real-‐>me web traﬃc

• Monitoring di Stato -‐ ﬂusso logico

• QoS (priorità diﬀeren> ad applicazioni diﬀeren>) – Mul>-‐tenancy environment

– Mul>-‐tenancy environment

Quality-‐of-‐Service

• Implicazioni del Mul>-‐Tenancy (singola istanza -‐> mol> uten>) – Monitoring tasks (aggiungere, rimuovere...)

Quality-‐of-‐Service

– Implementazione basata su un Thread-‐pool

Quality-‐of-‐Service

Quality-‐of-‐Service

Quality-‐of-‐Service

Quality-‐of-‐Service

Quality-‐of-‐Service

Quality-‐of-‐Service

– Riduzione del 50%-‐80% delle mis-‐deadlines e misﬁring

• Budget-‐Aware Monitoring

Budget-‐Aware Monitoring

Budget-‐Aware Monitoring

– auto-‐scaling delle web-‐applica>on

Budget-‐Aware Monitoring

Budget-‐Aware Monitoring

Budget-‐Aware Monitoring

Budget-‐Aware Monitoring

• Resource-‐Aware Monitoring -‐ struSura