Disclaimer: dopo aver realizzato questa serie di articoli su questa tecnologia, Moresi.Com SA, la società per cui lavoro, ha siglato un accordo con ExaGrid e siamo diventati Value Added Reseller, con in più l’autorizzazione ad acquistare e rivendere direttamente i prodotti senza l’intermediazione di un distributore.
Tuttavia, non ho avuto nessun obbligo da parte di ExaGrid nello scrivere questi articoli, e nemmeno gli stessi sono stati validati o approvati da ExaGrid prima della loro pubblicazione, se non per una validazione tecnica.
La virtualizzazione e i problemi coi backup
Come tutti sappiamo, la virtualizzazione è una grandissima soluzione per migliorare l’agilità e l’efficienza dell’IT. Tuttavia uno dei problemi con cui dobbiamo confrontarci in un ambiente virtuale, e specificatamente VMware, è come fare i backup delle virtual machines e dei loro dati.
Nuove soluzioni software sono uscite negli ultimi anni, specificatamente disegnate per VMware, come VMware Data Recovery, Veeam Backup & Replication, o Quest vRanger. Ognuno di essi da agli amministratori VMware la possibilità di effettuare i backup dell VM usando le vStorage API piuttosto che vecchi metodi basati su agenti installati dentro ai Guest OS.
Tuttavia, cosa possiamo dire delle finestre di backup, e dello spazio consumato nello storage di backup?
Beh, il VM sprawl (l’effetto collaterale di avere un grande prodotto come VMware, dove gli amministratori creano sempre più VMs semplicemente perchè è così facile farlo) porta ad avere datacenters pieni di VM. Ancor di più, gli ultimi OS come Windows 2008 R2 hanno incrementato i requisiti minimi di spazio su disco.
Questi fattori portano alla necessità di avere sempre più spazio per i backup, mentre le operazioni di business solitamente richiedono finestre di backup sempre minori.
Il primo effetto è già visibile oggigiorno: il backup su nastro non è più così comodo, e le nuove soluzioni sono tutte basate su disco. Software come Veeam ad esempio possono inviare i loro backup solo verso una share di rete. I backup su disco sono più affidabili, ma ancor più importante possono garantire tempi di ripristino inferiori. Sappiamo tutti che non facciamo i backup per il gusto di farli, ma “solo” per doverli poi ripristinare in seguito.
Solitamente, la prima soluzione che ogni sysadmin prova ad usare è un’unità NAS: con questa possono soddisfare uno dei problemi maggiori, lo spazio disco. Usando economici dischi SATA, aggregati in grandi array RAID5, danno la possibilità di avere parecchi terabytes di spazio libero per i backup, contenendo i costi, “quasi” ai prezzi per Gb di un nastro.
Ma cosa otteniamo in termini di velocità e finestre di backup? Un sATA-based NAS non può essere economico e veloce allo stesso tempo, e questo limite cresce al crescere del numero di VM e della frequenza di backup desiderata.
Deduplication
C’è una soluzione per questi problemi?
Sì, e si chiama deduplica. E’ la capacità di salvare solo i dati modificati rispetto al precedente backup, e di guadagnare quindi nello spazio disco e nei tempi di esecuzione.
Ma, ci sono problemi anche con questa tecnologia. Soluzioni software come VDR, Veeam e altri, si basano tutte su una deduplica software on-the-fly. Il processo è questo: il software di backup effettua innanzitutto obbligatoriamente un full backup; durante l’esecuzione successiva, controlla quali blocchi di dati sono cambiati rispetto alla precedente esecuzione, e copia unicamente le differenze. Il processo di deduplica è differente nei diversi software, alcuni di essi usano la tecnologia CBT derivata direttamente dalle vStorage API, altri utlizzano ulteriori livelli di deduplica e ispezionano il contenuti dei dati.
Qualunque siano i dettagli delle specifiche tecnologie, tutte queste soluzioni sono affamate di cpu (guardate i requisiti hardware dei server di backup, a volte devono essere più potenti degli application servers che devono proteggere…) e questo carico di lavoro si traduce in finestre di backup ampie.
Hardware Deduplication?
Sì, ed è ciò di cui si occupa ExaGrid.
Ho scoperto questa società alcuni mesi fa, e dalle prime letture circa la loro soluzione ne sono rimasto affascinato. ExaGrid è una società statunitense, fondata nel 2001 e con un unico prodotto a catalogo, l’appliance ExaGrid appunto.
La loro idea di fondo è al tempo stesso semplice (da spiegare) e credo difficile (da realizzare): il software di backup deve completare le operazioni di backup nel minor tempo possibile, evitando complessi calcoli di deduplica o compressione.
Una volta che il backup è completamente salvato dentro ExaGrid, l’ExaGrid stessa ha tutta la tecnologia e la potenza hardware per effettuare una “post-backup deduplication”.
Suona bene, vero?
Inoltre, ExaGrid possiede ulteriori funzioni e specifiche che la rendono spettacolare:
– quando create una share per i backup (CIFS, NFS o OST per Symantec) dovete dichiarare per quale tipo di backup verrà utilizzata. Mettiamo scegliate Veeam, ExaGrid utilizzerà algoritmi specifici per ottimizzare ulteriormente i backup di Veeam
– la deduplica è effettuata analizzando tutti i backup inviati dal software a livello di byte. Questo garantisce il massimo livello di deduplica, e infatti ExaGrid dichiara la possibilità di ottenere livelli da 10:1 fino a uno spaventoso 50:1, a dipendenza di che tipo di dati riceve
– l’appliance ExaGrid è equipaggiata con cpu Intel Xeon, un buon quantitativo di ram e dischi SATA in raid6. Queste specifiche sono completamente differenti da quelle di altri NAS usati per backup, e sono state implementate per garantire la potenza necessaria per l’analisi post-backup. Se ne osservate una in azione, vedrete molta più attività “dopo” che il backup è stato completato.
La deduplica post-backup interna non coinvolge il traffico di rete o la cpu del backup server, e può anche essere effettuata durante il giorno.
Rapport Prezzo/prestazioni
Dischi SATA in Raid-6 e potenza di tipo server suonano come qualcosa che non è economico. Ma se ragionate con la deduplica, i calcoli economici cambiano radicalmente.
Valutando il modello entry-level (EX-1000) con 2 Tb di spazio utilizzate e dal costo di 15.000 usd, lo spazio disco grezzo costa circa 7.32 dollari a Gb, molto più di un nastro. Ma se tenete in considerazione la deduplica, questa unità può contenere circa 20 Tb di dati, anche considerando il minimo livello di deduplcia di 10:1. Con queste cifre, il costo per Gb scende a 0,732 dollari per Gb.
Velocità di Backup
Altre appliance di deduplica hanno un disegno hardware tipico delle SANs. In parole povere, uno o due Storage processor con un grande numero di dischi. In questo modo, mentre aggiungete spazio aggiungendo dischi, la velocità degli storage processors resta la stessa, e quindi più VMs dovete salvare, più le finestre di backup crescono invece di diminuire.
ExaGrid, come suggerisce il nome, usa un approccio differente, basato su grid.
Una singola macchina ExaGrid possiede uno spazio disco fisso, ma la struttura può crescere installando ulterori unità, mischiando anche differenti modelli. In questo modo, si ottengono due vantaggi:
– le prime unità sono ancora utilizzabile, evitando di doverle cambiare quando va aggiunto spazio
– ogni unità può ricevere backup a una determinata velocità massima: basta installarne due in rete, e abbiamo comodamente raddoppiato la velocità complessiva.
Giochiamo!
ho contattato i ragazzi di ExaGrid dato che volevo testare la loro tecnologia, quindi permettetemi di usare questo piccolo spazio per un “Grazie!”, in particolare a Graham Woods, Director of System Engineers, EMEA.
Sono stati entusiasti fin dal primo momento e mi hanno supportato alla grande: abbiamo avuto lunghe sessioni telefoniche parlando di tecnologia, configurazioni, best practices, e mi hanno inviato un’unità EX-1000 da provare per alcuni mesi senza il minimo problema.
Avremo modo di addentrarci nella loro tecnologia nei prossimi articoli.
Restate sintonizzati!