Risparmiare con il monitoraggio di rete?

Galleria: 
Risparmiare con il network monitoring possibile?
Italiano

In anni di assistenza sistemistica Linux su infrastrutture critiche abbiamo maturato la necessità di affidarci a un sistema di monitoraggio profondo e affidabile, che ci permettesse di avere in tempo reale notifica di qualsiasi malfunzionamento software o hardware delle nostre infrastrutture

Da qui è nata l'esigenza di adottare un monitoraggio realtime che superasse le molte criticità dei più comuni software NMS e ne estendesse le funzionalità

Trascrizione presentazione:

Risparimare utilizzando il network monitoring

I processi che portano all'intervento da remoto o on-site, possono essere lunghi e dispendiosi per la nostra azienda, questo si traduce in una perdita di tempo e in un costo morto.

Per migliorare l’efficienza è necessario analizzare i passaggi che portano agli interventi sui disservizi.

In particolare il confronto tra:

  • Processo standard (senza monitoraggio)
  • Monitoraggio con notifica

Come si può notare negli schemi presenti nelle slide, il processo di rilevazione e notifica sposta tutta la valutazione durante il tempo di operatività del cliente, diminuendo il tempo di down.

Inoltre offre la possibilità di intervenire in maniera proattiva, prima del blocco, senza causare disservizi al cliente, avvertendo l'assistenza al superamento di soglie prefissate di warning

Perchè se ne accorge sempre prima il cliente?

Limiti comuni nei software di monitoring

Buona parte dei sistemi di monitoraggio soffre di problemi come:

  • Difficile implementazione: configurazioni complesse da linea di comando
  • Bassa flessibilità sui servizi supportati e sulle metriche
  • Poca o nessuna possibilità di estenderne le funzioni e i software supportati e scarsa disponibilità di plugin
  • Impossibilità di applicare regole ricorsive e template
  • Costo elevato del software o della configurazione

Qual’è l’impatto per la nostra azienda

  • Perdita di immagine (difficilmente calcolabile)
  • Inefficienza (tempo speso per la diagnostica)
  • Perdita di lavoro

Quanto ci costa un blocco?

IIl costo è calcolato moltiplicando, il numero di utenti, il costo orario e le ore di fermo.

Esempio: 50 utenti * 28,3 €/ora * 2 ore = 2.830 €*

*Costo orario medio Italiano 2015 fonte Eurostat

Nagios

Monitoring Opensource basato su plugins, sistema integrato di comunicazione dei problemi tramite mail in caso di failure, visione centralizzata dello stato dell'infrastruttura

Nagios Core vs XI

La versione a pagamento di Nagios, denominata Nagios XI offre grafici avanzati, wizard per la configurazione, modifica degli host dal web e modifica multipla di host

Migliore features

Plugins opensource tramite i quali è possibile monitorare praticamente ogni dispositivo o servizio.

L’exchange contiene migliaia di plugin pronti per l’uso

Maggiore problematica

Difficoltà di definizione degli oggetti:

  • Host
  • Check
  • Soglie
  • Template
  • Plugin

Valutazione:

A 17 anni dal rilascio di Nagios, è stato uno dei migliori Network monitoring della storia, ma…

  • È ancora adatto ai nostri tempi?
  • È pronto per le sfide di domani?
  • È possibile che da allora non sia cambiato nulla?

Cos'è cambiato?

Moltiplicarsi del valore dei dati e dei sistemi

  • Cloud: Private/Public/Hibrid
  • Infrastrutture sempre più complesse

Aumento della criticità dei servizi

  • Utilizzo h24
  • Alta affidabilità
  • Distribuzione geografica

Automazione dell’allocamento di risorse

  • Deploy istantaneo
  • Istanze “usa e getta”

In sostanza:

  • Più servizi
  • Maggiore affidabilità
  • Maggiore complessità
  • Meno tempo per gestirli

Inoltre, è diffusa una scarsa percezione della criticità e complessità:

...abbiamo sempre fatto così!

…ha sempre funzionato, ora non va più!

…come fate a non saperlo?

...nessuno mi ha avvisato che dovevo cambiare la cassetta!

…per quello che dobbiamo farci noi è già anche troppo!

Come sopravvivere?

  • Monitoraggio granulare delle applicazioni e dei sistemi
  • Notifiche e collaborazione in tempo reale fra i team interessati
  • Integrazione nel processo di sviluppo e testing
  • Reportistica dettagliata e visuale
  • Flessibilità e affidabilità del software di monitoraggio

In una parola? Icinga2

  • Interfaccia semplice
  • Responsive
  • Integrazione Team
    • Notifiche Slack, con chat di team, gestione inviti e bot
  • Notifiche avanzate
    • Notifiche multiple su cellulare, app mobili, mail, sms
  • Grafici
    • Grafici avanzati delle performaces, con selezione dell’intervallo, confronto fra più host e servizi…
  • Infrastruttura
    • Basata su container Docker
    • Multi Master su cloud server internazionali ad alta affidabilità
    • Software Open disegnato per l’alta affidabilità in cluster
    • Comunicazioni cifrate fra nodi, zone e cluster
    • Velocità: 10x Nagios + Gearman (benchmark su 1.000.000 di check su servizi)
    • Ad oggi disponibili 200 check (sulla nostra infrastruttura), compatibilità con i nagios plugins, oltre 3000 disponibili
    • Store dei risultati in Mysql o Postresql
    • Deploy tramite Ansible e API degli host e dei servizi

La nostra scelta dopo la valutazione delle soluzioni proposte per il monitoring black e white box è Icinga2 e Grafana

A questo link potete trovare il nostro servizio di network monitoring utilizzato su tutti i nostri clienti

Software utilizzati:

  • Debian
  • Docker
  • Ansible
  • Rest API
  • Graylog
  • Logstash
  • Gitlab
  • Grafana

Condividi anche tu la nostra passione per l'Opensource!

Ringraziamenti

Un particolare ringraziamento a chi ha permesso questo evento e chi ha supportato lo sviluppo dell’infrastruttura e i test

Relug

CNA Digitale

Particles