Risparmiare con il monitoraggio di rete? Certo!

Lun, 24/10/2016 - 11:16

In anni di assistenza sistemistica Linux su infrastrutture critiche abbiamo maturato la necessità di affidarci a un sistema di monitoraggio profondo e affidabile, che ci permettesse di avere in tempo reale notifica di qualsiasi malfunzionamento software o hardware delle nostre infrastrutture
Da qui è nata l'esigenza di adottare un monitoraggio realtime che superasse le molte criticità dei più comuni software NMS e ne estendesse le funzionalità

Trascrizione presentazione:

Risparimare utilizzando il network monitoring

I processi che portano all'intervento da remoto o on-site, possono essere lunghi e dispendiosi per la nostra azienda, questo si traduce in una perdita di tempo e in un costo morto.
Per migliorare l’efficienza è necessario analizzare i passaggi che portano agli interventi sui disservizi.
In particolare il confronto tra:

Processo standard (senza monitoraggio)
Monitoraggio con notifica

Come si può notare negli schemi presenti nelle slide, il processo di rilevazione e notifica sposta tutta la valutazione durante il tempo di operatività del cliente, diminuendo il tempo di down.
Inoltre offre la possibilità di intervenire in maniera proattiva, prima del blocco, senza causare disservizi al cliente, avvertendo l'assistenza al superamento di soglie prefissate di warning

Perchè se ne accorge sempre prima il cliente?

Limiti comuni nei software di monitoring

Buona parte dei sistemi di monitoraggio soffre di problemi come:

Difficile implementazione: configurazioni complesse da linea di comando
Bassa flessibilità sui servizi supportati e sulle metriche
Poca o nessuna possibilità di estenderne le funzioni e i software supportati e scarsa disponibilità di plugin
Impossibilità di applicare regole ricorsive e template
Costo elevato del software o della configurazione

Qual’è l’impatto per la nostra azienda

Perdita di immagine (difficilmente calcolabile)
Inefficienza (tempo speso per la diagnostica)
Perdita di lavoro

Quanto ci costa un blocco?

IIl costo è calcolato moltiplicando, il numero di utenti, il costo orario e le ore di fermo.
Esempio: 50 utenti * 28,3 €/ora * 2 ore = 2.830 €*
*Costo orario medio Italiano 2015 fonte Eurostat

Nagios

Monitoring Opensource basato su plugins, sistema integrato di comunicazione dei problemi tramite mail in caso di failure, visione centralizzata dello stato dell'infrastruttura

Nagios Core vs XI

La versione a pagamento di Nagios, denominata Nagios XI offre grafici avanzati, wizard per la configurazione, modifica degli host dal web e modifica multipla di host

Migliore features

Plugins opensource tramite i quali è possibile monitorare praticamente ogni dispositivo o servizio.
L’exchange contiene migliaia di plugin pronti per l’uso

Maggiore problematica

Difficoltà di definizione degli oggetti:

Host
Check
Soglie
Template
Plugin

Valutazione:

A 17 anni dal rilascio di Nagios, è stato uno dei migliori Network monitoring della storia, ma…

È ancora adatto ai nostri tempi?
È pronto per le sfide di domani?
È possibile che da allora non sia cambiato nulla?

Cos'è cambiato?

Moltiplicarsi del valore dei dati e dei sistemi

Cloud: Private/Public/Hibrid
Infrastrutture sempre più complesse

Aumento della criticità dei servizi

Utilizzo h24
Alta affidabilità
Distribuzione geografica

Automazione dell’allocamento di risorse

Deploy istantaneo
Istanze “usa e getta”

In sostanza:

Più servizi
Maggiore affidabilità
Maggiore complessità
Meno tempo per gestirli

Inoltre, è diffusa una scarsa percezione della criticità e complessità:
...abbiamo sempre fatto così!
…ha sempre funzionato, ora non va più!
…come fate a non saperlo?
...nessuno mi ha avvisato che dovevo cambiare la cassetta!
…per quello che dobbiamo farci noi è già anche troppo!

Come sopravvivere?

Monitoraggio granulare delle applicazioni e dei sistemi
Notifiche e collaborazione in tempo reale fra i team interessati
Integrazione nel processo di sviluppo e testing
Reportistica dettagliata e visuale
Flessibilità e affidabilità del software di monitoraggio

In una parola? Icinga2

Interfaccia semplice
Responsive
Integrazione Team
- Notifiche Slack, con chat di team, gestione inviti e bot
Notifiche avanzate
- Notifiche multiple su cellulare, app mobili, mail, sms
Grafici
- Grafici avanzati delle performaces, con selezione dell’intervallo, confronto fra più host e servizi…
Infrastruttura
- Basata su container Docker
- Multi Master su cloud server internazionali ad alta affidabilità
- Software Open disegnato per l’alta affidabilità in cluster
- Comunicazioni cifrate fra nodi, zone e cluster
- Velocità: 10x Nagios + Gearman (benchmark su 1.000.000 di check su servizi)
- Ad oggi disponibili 200 check (sulla nostra infrastruttura), compatibilità con i nagios plugins, oltre 3000 disponibili
- Store dei risultati in Mysql o Postresql
- Deploy tramite Ansible e API degli host e dei servizi

La nostra scelta dopo la valutazione delle soluzioni proposte per il monitoring black e white box è Icinga2 e Grafana
A questo link potete trovare il nostro servizio di network monitoring utilizzato su tutti i nostri clienti

Software utilizzati:

Debian
Docker
Ansible
Rest API
Graylog
Logstash
Gitlab
Grafana

Condividi anche tu la nostra passione per l'Opensource!

Ringraziamenti

Un particolare ringraziamento a chi ha permesso questo evento e chi ha supportato lo sviluppo dell’infrastruttura e i test

Relug
CNA Digitale
Particles

Orario