terça-feira, 24 de fevereiro de 2015

O esforço da NetApp para alimentar grande besta de dados através de NFS não faz sentido


Parecer Acabei de terminar de ler alguns poucos artigos sobre NetApp no Register e Val Bercovici no blog da NetApp e eu tenho uma pergunta. NFS para Hadoop? Realmente?


Na opinião deste correspondente, ele simplesmente não faz sentido.





Sim, você poderia encontrar casos de canto - você sempre pode encontrar um caso de canto para algo que você ama - mas, neste caso, isso é tudo que você pode encontrar.


E eu não estou falando sobre a ingestão de dados aqui.


O armazenamento de dados (BIG) no armazenamento primário


Um dos benefícios do HDFS é que é um sistema de arquivos distribuído e tem todos os mecanismos de disponibilidade, de replicação e proteção embutidos que você precisa para armazenar grandes quantidades de dados de forma segura e, acima de tudo, é muito barato.


Na verdade, você pode construir a sua camada de armazenamento baseado em HDFS simplesmente adicionando discos em nós do cluster, e todas as ferramentas de gestão são integrados. No final do dia, é apenas um sistema de arquivos que você consegue de graça com qualquer distribuição Hadoop.


Apesar de todos os seus defeitos, HDFS é otimizado para fazer esse trabalho, é "local" para o cluster, ele é projetado para mover grandes blocos de dados e que não precisa de uma atenção especial geralmente necessária para o armazenamento primário. O custo total de aquisição e custo total de propriedade de HDFS é muito baixa.


O armazenamento primário pode ser facilmente posicionado no lado oposto:



  • Ele definitivamente tem grandes problemas na gestão de análise de dados e cargas de trabalho empresariais tradicionais, ao mesmo tempo (especialmente se eles precisam para alavancar os mesmos recursos. A qualidade do serviço ainda é uma opção para a maioria dos fornecedores de armazenamento).

  • Ele também apresenta enormes custos de gestão quando se trata de backup e replicação remota, custos que se tornam insustentável se o seu ambiente de escalas para além de algumas centenas de terabytes


Val Bercovici, em seu artigo, fala sobre um caso de uso hipotético com HDFS no papel de um cache (ou um sistema de arquivos primário) e NetApp como um repositório secundário.


Desta forma HDFS surge no topo comparação com o que normalmente é vendido como armazenamento primário, e por que você iria usar um armazenamento primário para uma tarefa de armazenamento secundário?


Não me interpretem mal. Eu concordo totalmente com a parte de camada de cache, eu tenho falado sobre isso há meses, mas acho que o armazenamento secundário tem de ser o mais lento, mais automatizado, parte escalável e mais barata deste tipo de design. E é aí que a NetApp não se encaixar, não é?


Analisar (grandes) de dados em lugar


Analisar (grande) de dados é algo que eu realmente gosto, mas fazer isso em NFS e NetApp FAS é muito caro.


Na minha opinião, existem muitos limites e restrições que significam NFS e NetApp FAS não é a solução ideal, sem mencionar o custo mais elevado do NetApp FAS comparação com as alternativas mais adequadas para este caso de uso especial - pelo menos no meu ponto de vista.


Na verdade, se você olhar para o que está acontecendo ao redor, das empresas estão se acumulando dados. Goste ou não, eles estão começando a construir lagos de dados. Sistema ONTAP Arquivo (WAFL) e volume de dados limites, em termos de número de objeto e capacidade, são apenas os primeiros exemplos. Pelo que me lembro o limite de um volume de tamanho ainda é de cerca de 100 TB).


Sim, você pode configurar um sistema NetApp em alta capacidade (e com grandes volumes), mas então você pode não obter o desempenho - e você não terá nenhuma das vantagens normalmente encontrados em sistemas baseados em objetos.


Vários fornecedores de armazenamento de objetos estão trabalhando em capacidades semelhantes, propondo uma interface HDFS no topo de suas plataformas. Trabalhando com a mesma interface de sistema de arquivos (interna e externamente ao cluster) é muito melhor em qualquer nível. E, voltando para o primeiro caso de uso apresentado no blog do Val, ele também permite uma utilização contínua do sistema de armazenamento de objetos para as cópias secundárias de dados.



Nenhum comentário:

Postar um comentário