Risparmiare con il monitoraggio di rete? Certo!
In anni di assistenza sistemistica Linux su infrastrutture critiche abbiamo maturato la necessità di affidarci a un sistema di monitoraggio profondo e affidabile, che ci permettesse di avere in tempo reale notifica di qualsiasi malfunzionamento software o hardware delle nostre infrastrutture
Da qui è nata l'esigenza di adottare un monitoraggio realtime che superasse le molte criticità dei più comuni software NMS e ne estendesse le funzionalità
Trascrizione presentazione:
Risparimare utilizzando il network monitoring
I processi che portano all'intervento da remoto o on-site, possono essere lunghi e dispendiosi per la nostra azienda, questo si traduce in una perdita di tempo e in un costo morto.
Per migliorare l’efficienza è necessario analizzare i passaggi che portano agli interventi sui disservizi.
In particolare il confronto tra:
- Processo standard (senza monitoraggio)
- Monitoraggio con notifica
Come si può notare negli schemi presenti nelle slide, il processo di rilevazione e notifica sposta tutta la valutazione durante il tempo di operatività del cliente, diminuendo il tempo di down.
Inoltre offre la possibilità di intervenire in maniera proattiva, prima del blocco, senza causare disservizi al cliente, avvertendo l'assistenza al superamento di soglie prefissate di warning
Perchè se ne accorge sempre prima il cliente?
Limiti comuni nei software di monitoring
Buona parte dei sistemi di monitoraggio soffre di problemi come:
- Difficile implementazione: configurazioni complesse da linea di comando
- Bassa flessibilità sui servizi supportati e sulle metriche
- Poca o nessuna possibilità di estenderne le funzioni e i software supportati e scarsa disponibilità di plugin
- Impossibilità di applicare regole ricorsive e template
- Costo elevato del software o della configurazione
Qual’è l’impatto per la nostra azienda
- Perdita di immagine (difficilmente calcolabile)
- Inefficienza (tempo speso per la diagnostica)
- Perdita di lavoro
Quanto ci costa un blocco?
IIl costo è calcolato moltiplicando, il numero di utenti, il costo orario e le ore di fermo.
Esempio: 50 utenti * 28,3 €/ora * 2 ore = 2.830 €*
*Costo orario medio Italiano 2015 fonte Eurostat
Nagios
Monitoring Opensource basato su plugins, sistema integrato di comunicazione dei problemi tramite mail in caso di failure, visione centralizzata dello stato dell'infrastruttura
Nagios Core vs XI
La versione a pagamento di Nagios, denominata Nagios XI offre grafici avanzati, wizard per la configurazione, modifica degli host dal web e modifica multipla di host
Migliore features
Plugins opensource tramite i quali è possibile monitorare praticamente ogni dispositivo o servizio.
L’exchange contiene migliaia di plugin pronti per l’uso
Maggiore problematica
Difficoltà di definizione degli oggetti:
- Host
- Check
- Soglie
- Template
- Plugin
Valutazione:
A 17 anni dal rilascio di Nagios, è stato uno dei migliori Network monitoring della storia, ma…
- È ancora adatto ai nostri tempi?
- È pronto per le sfide di domani?
- È possibile che da allora non sia cambiato nulla?
Cos'è cambiato?
Moltiplicarsi del valore dei dati e dei sistemi
- Cloud: Private/Public/Hibrid
- Infrastrutture sempre più complesse
Aumento della criticità dei servizi
- Utilizzo h24
- Alta affidabilità
- Distribuzione geografica
Automazione dell’allocamento di risorse
- Deploy istantaneo
- Istanze “usa e getta”
In sostanza:
- Più servizi
- Maggiore affidabilità
- Maggiore complessità
- Meno tempo per gestirli
Inoltre, è diffusa una scarsa percezione della criticità e complessità:
...abbiamo sempre fatto così!
…ha sempre funzionato, ora non va più!
…come fate a non saperlo?
...nessuno mi ha avvisato che dovevo cambiare la cassetta!
…per quello che dobbiamo farci noi è già anche troppo!
Come sopravvivere?
- Monitoraggio granulare delle applicazioni e dei sistemi
- Notifiche e collaborazione in tempo reale fra i team interessati
- Integrazione nel processo di sviluppo e testing
- Reportistica dettagliata e visuale
- Flessibilità e affidabilità del software di monitoraggio
In una parola? Icinga2
- Interfaccia semplice
- Responsive
- Integrazione Team
- Notifiche Slack, con chat di team, gestione inviti e bot
- Notifiche avanzate
- Notifiche multiple su cellulare, app mobili, mail, sms
- Grafici
- Grafici avanzati delle performaces, con selezione dell’intervallo, confronto fra più host e servizi…
- Infrastruttura
- Basata su container Docker
- Multi Master su cloud server internazionali ad alta affidabilità
- Software Open disegnato per l’alta affidabilità in cluster
- Comunicazioni cifrate fra nodi, zone e cluster
- Velocità: 10x Nagios + Gearman (benchmark su 1.000.000 di check su servizi)
- Ad oggi disponibili 200 check (sulla nostra infrastruttura), compatibilità con i nagios plugins, oltre 3000 disponibili
- Store dei risultati in Mysql o Postresql
- Deploy tramite Ansible e API degli host e dei servizi
La nostra scelta dopo la valutazione delle soluzioni proposte per il monitoring black e white box è Icinga2 e Grafana
A questo link potete trovare il nostro servizio di network monitoring utilizzato su tutti i nostri clienti
Software utilizzati:
- Debian
- Docker
- Ansible
- Rest API
- Graylog
- Logstash
- Gitlab
- Grafana
Condividi anche tu la nostra passione per l'Opensource!
Ringraziamenti
Un particolare ringraziamento a chi ha permesso questo evento e chi ha supportato lo sviluppo dell’infrastruttura e i test