Dicas Storage: Há mais de uma maneira de fazer backup de seus dados

No mundo da protecção de dados que você não se demitido por perder dinheiro, você ser demitido por perda de dados.

As empresas tendem a fazer muitas cópias de dados, alguns dos quais penduram ao redor, como zumbis, há anos. Proteção de dados é, sem dúvida, extremamente importante e precisamos entender como ele evoluiu, se quisermos decidir quais métodos de escolher para qual cenário.

Os quatro principais métodos de proteção de dados em uso hoje são:

Backups tradicionais

Réplica

Proteção contínua de dados

Snapshots

Cada categoria pode desfocar um pouco para o lado, como as empresas a implementar esses conceitos de diferentes maneiras. Isto faz para encantadoras debates sobre qual a terminologia deve ser usado onde.

Empresas de backup brigar sobre quem implementa o que e quem é melhor em fazê-lo. Alguns escolher um ou dois métodos de proteção de dados como a sua coisa e, em seguida, passar a eternidade slagging fora os outros métodos.

Outros falam de como seu produto é flexível - e as interfaces entretanto crescer cada vez mais complexo, facilidade de uso é deixado à beira do caminho e implementação de protecção de dados torna-se cada vez mais tedioso.

O medo do fracasso

Antes de mergulhar em diferentes categorias, devemos entender que a protecção de dados é um termo genérico que engloba a proteção de diferentes eventos.

O evento mais básico é falha de hardware (a falha no disco, uma falha no servidor, uma falha de switch ou o que você quiser). Aqui nós iremos encontrar soluções, tais como RAID (amarração de vários discos juntos para proteger contra falhas de disco) e chuva (amarração de vários servidores em conjunto para proteger contra a falha de um único servidor).

Eu geralmente não consideram RAID, chuva ou MPIO (múltiplos switches) para fazer parte de protecção de dados. Há um argumento a ser feito para a sua inclusão, mas eu prefiro chamá-lo de "projetar sua infra-estrutura usando mais células cerebrais do que o tamanho".

Para ser franco, se você perder uma quantidade crítica de dados até mesmo como um pequeno ou médio porte (SMB) com apenas um servidor, porque um único disco (ou mesmo o servidor) morreu, você não deve ser projetar a infraestrutura.

Isso deixa os elementos de preocupação que mais comumente caem sob a proteção de dados prazo.

Não há proteção contra desastres (falha de todo um centro de dados). Não há proteção contra Oopsie McFumblefingers ("oh não, eu não quis excluir que") e não há proteção contra a corrupção.

Defina os seus termos

Aqui é o lugar onde devemos sacar o objetivo de ponto de recuperação odiado (RPO) e do objetivo de tempo de recuperação (RTO).

RPO é o termo da indústria para "a quantidade de dados que você pode dar ao luxo de perder"? A resposta para isso é diferente para cada aplicação e depende inteiramente de quem você perguntar.

Um SMB, por exemplo, pode ser muito bem se tudo o que tem a fazer é reverter para o backup da noite anterior do banco de dados financeiros. As cópias impressas de todas as transações dos clientes são impressos e arquivados e você sempre pode fazer algumas sequaz infelizes re-inserir os dados manualmente.

É claro que, se o seu edifício sobe em chamas você não pode re-introduzir os dados daquele dia. Dependendo de sua jurisdição, o Fisco pode ter algumas coisas a dizer sobre isso.

Época do ano pode importar uma grande quantidade também. Produção, vendas, marketing e PR pode não se importar se você perder um dia inteiro de pedidos de clientes no período de calmaria janeiro. Um punhado de clientes são afetados, as pessoas de vendas chamá-los, acalmar alguns ânimos - hey, dá-lhes uma razão para ser empregado para esse mês, não?

Mas em época de pico essas mesmas pessoas seriam convocando-se os vírus geneticamente modificadas de sofrimento extra, se você deixar a pena de um dia de pedidos de clientes ir Walkabout. A mesma empresa que tem um punhado de ordens durante a entressafra poderia estar lidando com dezenas ou centenas de milhares de pessoas por dia em seu pico.

RTO é a rapidez com que você precisa de seus backups restaurado. Novamente, isso depende do que os dados é, quem você perguntar e que época do ano é.

Se o seu RTO é frakking agora (RFN) e você está lidando com a protecção de dados por streaming terabytes através de uma conexão ADSL deixem de ser classificados como de banda larga em os EUA, você deve pensar seriamente em como você vai implementar restaurações.

Chupando vários terabytes através de uma rede local é um dissipador de tempo. Sugando-o para baixo através de uma conexão ADSL de pequenas empresas é hilário num choro incontrolável tipo de caminho. Nuvem em nuvem começa a fazer muito sentido agora.

Os antigos caminhos

Métodos tradicionais de backup são bastante simples. Um robô acorda em um determinado momento e realiza um backup. A primitiva - mas difícil de parafuso - forma o robô faz isso é para aspirar tudo o que é suposto fazer backup e enviar este cópia completa para onde quer que você armazenar seus arquivos.

Isso pode parecer um desperdício, mas tem o seu propósito. Vamos dizer que a sua aplicação e banco de dados financeiros são um colossal dois ou três shows, e que seu aplicativo financeiro pode ser definido como "uma pausa para backups" todas as noites. Você pausar o banco de dados, copiar todos os arquivos off em uma pasta cujo nome é baseado na data e você un-pausar o banco de dados.

Isso pode ser feito com um arquivo de lote e as tarefas do Windows agendadas. Nenhum software de backup necessário.

Se você está enviando os dados para uma fonte de backup que tem a desduplicação, você não precisa nem se preocupar em ter eleventy cópias squillion de tudo, e restauração em caso de uma falha é simples.

A versão um pouco mais avançado dá uma olhada em todos os seus arquivos, descobre se alguma coisa mudou e, em seguida, copia apenas as coisas que têm. Normalmente restaurar o backup requer que você tenha acesso ao software de backup e um índice que está intacto e incorrupto. (Para o registro, o índice é sempre borked.)

Backups tradicionais são point-in-time cópias de dados. Eles são ótimos para a protecção contra Oopsie McFumblefingers, medíocre a proteger contra a corrupção e por conta própria sem valor a proteger contra os desastres.

Backups tradicionais são enormes. Algumas empresas tentam estabelecer um procedimento que tarefas a humanos com fitas e discos rotativos e, em seguida, tomar um fora do local todos os dias. Isso inevitavelmente falhar, como os seres humanos são propensos ao esquecimento, e que, geralmente, não apenas quando você precisar dele não.

Então todo mundo tenta backups de streaming através da internet em algum lugar. Hoje em dia, este é tipicamente enviado para um prestador de backup nuvem. Mesmo com todas as várias tecnologias jogado com eles para esmagar backups para um tamanho transmissível, ficando uma cópia deles offsite dentro da janela de backup diário é um desafio permanente.

Para empresas menores, geralmente, significa obter uma conexão DSL dedicado apenas para backups (e toda a diversão de rede que implica). Para as grandes empresas isso significa bifurcação sobre cada vez mais dinheiro para o monopólio de banda local e tentar explicar para os contadores de feijão por quê.

Visão dupla

Introduza a replicação. Na sua forma mais básica, esta é uma tecnologia utilizada para proteger contra a falha de um servidor. Servidor A replica sua carga de trabalho para o servidor B. Quando o servidor A não suporta o funcionamento normal, o servidor B assume o comando, utilizando a sua cópia dos dados.

Isso é muito bom e correto quando os servidores A e B estão lado a lado e você pode seqüência um fio entre eles para ir tão rápido quanto as placas de rede que você pode pagar.

Se o seu software de replicação é decente este tipo de replicação local pode ser ótimo para detectar a corrupção silenciosa de dados e repará-lo na hora, mas ele não ajudá-lo em tudo em lidar com Oopsie McFumblefingers ou com desastres.

Replicação, no entanto, pode ser ótimo para recuperação de desastres. Se a quantidade de dados que você está escrevendo cada minuto é dimensionado de forma adequada com a largura de banda de internet que você tem disponível, então você normalmente pode colocar o servidor A e B do servidor em diferentes locais.

Isso faz com que "oh não apoiamos essa versão mais nenhum" desculpas de fornecedores de backup muito menos de um problema

Você tem que ter cuidado com a largura de banda, mas há um monte de opções lá fora, que combinam a desduplicação, compressão e outras tecnologias para garantir que você ainda pode espremer carga de trabalho de uma SMB através de uma conexão ADSL e ter um RPO de cerca de 15 minutos.

Isso é um pedaço de um passo a partir do RPOs de oito horas a um dia nós costumamos ver com backups tradicionais.

RTO são melhores com a replicação também. Você geralmente pode simplesmente acender a cópia no servidor B e estar on-line em segundos, ou na pior das hipóteses minutos. Recuperação de dados em backups tradicionais pode levar de alguns minutos a semanas se mal planejada.

Mas a replicação não lida com Oopsie McFumblefingers. Se você está replicando tudo de forma síncrona, em seguida, todas as mudanças são enviados a partir de um sistema para outro, incluindo exclusões acidentais.

Você está completamente dependente do software usado para fazer a replicação de ir, mas isso é cada vez mais construído diretamente no funcionamento de sistemas, hypervisors e aplicações. Isso faz com que "oh não apoiamos essa versão mais nenhum" desculpas de fornecedores de backup em seu momento de necessidade muito menos de um problema.

Total recall

Proteção contínua de dados (CDP) é um pouco como a replicação em esteróides. Na verdade, existem mais abordagens para ele do que há empresas que vendem produtos CDP. Algumas empresas oferecem tecnologia CDP-like sob diferentes apelidos e alguns oferecem vários meios de realizar CDP.

CDP córregos todas as alterações nos dados do servidor A para servidor B, da mesma forma que a replicação. A principal diferença é que o CDP nunca descarta nada. Toda mudança que você já fez (pelo menos de volta ao número N de alterações ou X prazo) é mantido.

Isso significa que o RPO é geralmente uma questão de escolher um ponto no tempo que você deseja restaurar. A RTO pode variar muito, dependendo da implementação e se você tem ou não a capacidade de simplesmente acender a carga de trabalho remotamente ou foram apenas fazer backup dos dados.

Quase todo mundo que leu até aqui tem CDP baseado em arquivo em execução em seus sistemas na forma de Dropbox ou um de seus clones. Toda vez que você faz uma alteração em um arquivo no armazenamento em nuvem, uma cópia é mantida no provedor. Você pode fazer login no site do provedor de armazenamento em nuvem e restaurar arquivos que vão para trás várias versões.

Em outros casos, o CDP está fazendo cópias em nível de bloco de alterações de uma forma que se assemelha mais a replicação tradicional, mas a gravação de todas as mudanças. Muitas soluções de escolher um equilíbrio - que oferece replicação, mas "snapshotting" muda a cada tantos segundos ou minutos para oferecer um fluxo contínuo de mudanças point-in-time, sem a necessidade de registro de write-by-gravação de mudanças.

CDP pode ser a melhor solução. Ele também pode ser um monstro com tentáculos horrível, rede de espera para o seu momento de fraqueza antes predando a sua sanidade mental frágil de roaming de dados do mundo.

Realmente depende da implementação, como CDP não é o tipo de coisa que é construído em muitos sistemas operacionais, hypervisors ou aplicações. Aqui você está à mercê de seu fornecedor de backup. Escolha sabiamente.

Tirar uma foto

Snapshots são a corrente mágica gatinho unicórnio da indústria de armazenamento. Aparentemente tudo, desde sistemas operacionais para hypervisors para arrays de armazenamento apoia-los, e bem feito você pode conhecer os centros de investigação apertados e RTO apertados. O problema reside no "bem feito".

Se você estiver usando um provedor de hiper-convergente que é especializada em eficiência de dados, você recebe um passe livre aqui. Suas máquinas virtuais são armazenados nos mesmos servidores que correm sobre e tudo está deduplicados, comprimido e-provisionado fina.

Snapshots ter praticamente nenhum momento a todos para implementar e eles são exatamente o tamanho dos dados que tem sido escrito desde a última vez que um instantâneo foi tirado. Quer tirar um instantâneo de suas cargas de trabalho a cada dois minutos? Okey dokey, não há problema.

Se você tem uma configuração Hyper-convergente com um cluster estendido - quando um ou mais nós estão localizados em um local físico separado, ligado por metro de rede de área (MAN) -class links de rede - então você pode definir as coisas de modo que a cópia replicada de sua carga de trabalho é mantido em outro site e você tem esses instantâneos doces point-in-time para lidar com Oopsie Mcfumblefingers. Viva!

É claro, a conectividade de classe MAN é um sonho (literalmente) para a maioria das empresas, e que antes de entrar em conversas sobre o custo de um segundo local, ou o custo de racks em um colo.

E depois há os vários desastres que podem tirar metros inteiras (como o furacão Sandy), então você realmente deve enviar pelo menos alguns desses instantâneos para servidores em algum local distante.

Agora, os fornecedores de matriz gostaria que você saiba que eles fazem replicação e snapshotting e CDP e tudo isso também - os fornecedores hiper-convergiram arrogantes Dang não são o princípio eo fim de tudo de armazenagem, jovem whippersnapper - e se você tivesse a bondade de colocar uma de suas matrizes em cada um dos seus sites, eles vão tirar fotos e enviá-las ao redor do mundo também.

É claro que alguns provedores de nuvem oferecem a capacidade de iluminar software de um fornecedor da matriz em sua nuvem, e muitos um fornecedor de hiper convergiram tem algo similar. Então agora podemos enviar instantâneos para a nuvem, compatíveis com a nossa disponibilidade de largura de banda. A vida parece ser bom.

Infelizmente, enquanto instantâneos são grandes para lidar com Oopsie Mcfumblefingers e pode proteger contra o desastre, eles não são tão bons em pegar em corrupção de dados em silêncio, a não ser que o fornecedor tem feito um esforço especial.

Eficiência é tudo

Fora do projetado especificamente setups hiper-convergente com foco na eficiência de dados, a abordagem snapshots-todo-o-time se esforça para fornecer o nível de serviço que CDP pode oferecer.

CDP também pode operar em diferentes níveis: no nível da aplicação, de arquivos individuais ou de toda a máquina virtual. Instantâneos quase sempre operam ao nível da máquina virtual (ou o LUN no caso de matrizes).

Isso nos traz de volta à questão da eficiência sobre backups tradicionais. Como grande parte dos dados que você estiver fazendo backup que você realmente precisa?

Snapshots e replicação tanto fazer backup de um monte de gravações que você simplesmente não se preocupam. CDP software pode ser mais afinado - à custa de serem significativamente mais complexo.

Eficiência de dados torna-se crítica. A desduplicação e compressão são uma obrigação, e gateways de nuvem são conceitos cada vez mais importantes. Algo que pode manter uma cópia do que bloqueia ter existido na qual site pode realmente ajudar a reduzir a quantidade de dados que precisa ser transmitida.

Depois de ter tudo isso funcionou - e supondo que você não correr gritando para as colinas ou desenvolveu um RTO / RPO contração que é mensurável por sua equipe sísmica local - você tem a divertida tarefa de determinar para onde enviar a segunda cópia do seus dados.

Você pode legalmente armazená-lo com os provedores de nuvem americanos? Qual o nível de criptografia que você deve usar?

E se você está escolhendo um método de proteção de dados que requer software de um fornecedor de protecção de dados, você tem que instalar um agente em cada servidor ou máquina virtual para fazer o trabalho?

Todas as questões importantes, mas queridos, caro leitor, que iremos discutir em uma data posterior. ®

Dicas Storage

quarta-feira, 25 de fevereiro de 2015

Há mais de uma maneira de fazer backup de seus dados