sysadmin:resmonitor
Differences
This shows you the differences between two versions of the page.
| Next revision | Previous revision | ||
| sysadmin:resmonitor [2015/01/11 14:48] – creata kobe | sysadmin:resmonitor [Unknown date] (current) – removed - external edit (Unknown date) 127.0.0.1 | ||
|---|---|---|---|
| Line 1: | Line 1: | ||
| - | ====== Monitoraggio delle risorse ====== | ||
| - | Al momento vengono archiviati i dati relativi al load_avg e alla memoria. | ||
| - | |||
| - | E' possibile accedere all' | ||
| - | |||
| - | $ ssh root@befair2 -L 8889: | ||
| - | |||
| - | Ora visitare http:// | ||
| - | |||
| - | Ho aggiunto solo un paio di grafici, ma se ne possono aggiungere altri (anche se non vengono memorizzati sul server <- IMHO questo e' l' | ||
| - | |||
| - | Inoltre e' possibile accedere ai dati da client Python: | ||
| - | |||
| - | $ ssh root@befair2 | ||
| - | |||
| - | # workon 1ring && ipython | ||
| - | |||
| - | > from influxdb import InfluxDBClient | ||
| - | > client = InfluxDBClient(host=' | ||
| - | | ||
| - | |||
| - | Ecco 3 query di esempio: | ||
| - | |||
| - | > client.get_list_series() | ||
| - | | ||
| - | > client.query(' | ||
| - | | ||
| - | > client.query(' | ||
| - | |||
| - | Per info sul linguaggio per le query vedere http:// | ||
| - | |||
| - | ===== Alert per CPU ===== | ||
| - | |||
| - | Il limite e' sul load_avg normalizzato, | ||
| - | |||
| - | ===== Alert per memoria e disco ===== | ||
| - | |||
| - | Sono attive notifiche via Mail e XMPP (che in futuro potrebbero passare a Telegram, al momento non c' | ||
| - | * se un valore supera il limite che ci siamo dati (es: 80% spazio di una partizione) --> warning --> notifica XMPP | ||
| - | * se un valore supera la meta' di quel che e' rimasto (es: 90% di una partizione) --> critical --> notifica mail a '' | ||
| - | |||
| - | Quindi se un limite e' all' | ||
| - | |||
| - | ===== Ricevere gli alert ===== | ||
| - | |||
| - | Per modificare gli account a cui inviare gli alert via XMPP, modificare il file '' | ||
| - | |||
| - | Per gli alert via mail, modificare il file ''/ | ||
| - | |||
| - | ===== Standard per metriche ===== | ||
| - | |||
| - | Formato proposto da Luca: | ||
| - | |||
| - | server: [ | ||
| - | { | ||
| - | timestamp: unix epoch, | ||
| - | id-del-controllo1 : < | ||
| - | id-del-controllo2 : < | ||
| - | alert-limit : { | ||
| - | id-del-controllo1 : < | ||
| - | id-del-controllo2 : < | ||
| - | } | ||
| - | }, | ||
| - | { ... }, | ||
| - | { ... } | ||
| - | ] | ||
| - | |||
| - | Questa proposta e' stata poi riadattata per InfluxDB 0.8 ed entrata in produzione da inizio dicembre 2014: | ||
| - | |||
| - | [{ | ||
| - | " | ||
| - | " | ||
| - | " | ||
| - | " | ||
| - | " | ||
| - | ], | ||
| - | " | ||
| - | [ | ||
| - | timestamp, | ||
| - | valore1, | ||
| - | valore2, | ||
| - | valore3 | ||
| - | ], | ||
| - | [ | ||
| - | timestampB, | ||
| - | valore1B, | ||
| - | valore2B, | ||
| - | valore3B | ||
| - | ], | ||
| - | ... | ||
| - | ] | ||
| - | }] | ||
| - | |||
| - | Al momento mancano tuttavia da archiviare i dati relativi all' | ||
| - | |||
| - | Inoltre bisognerebbe standardizzare il formato su InfluxDB secondo le nuove funzionalita' | ||
| - | |||
| - | * cAdvisor: [[https:// | ||
| - | * Salt ha il modulo [[http:// | ||
| - | |||
| - | check_load: | ||
| - | status.loadavg: | ||
| - | - name: 1-min | ||
| - | - maximum: 1.2 | ||
| - | - minimum: 0.05 | ||
| - | - onfail: | ||
| - | - pagerduty: loadavg_trigger | ||
sysadmin/resmonitor.1420987694.txt.gz · Last modified: 2015/01/11 14:48 by kobe
