quinta-feira, 11 de dezembro de 2014

Esfomeado, CPUs famintos: Fornecedores de armazenamento apressar para chegar mais perto do flash para computar


Arrays de armazenamento Flash Inteligente


Multi-socket, CPUs multi-core são entidades exigentes: eles têm um apetite gigantesco para dados que eles sugam através de um canal de memória da CPU-DRAM, a memória do servidor.


Este acesso acontece em nanossegundos, bilionésimos de segundo. Obtendo dados de lugares além de memória, tais como cartões de memória flash do servidor PCIe, SSDs conectados diretamente ao servidor ou equipados para matrizes em rede, ou unidades de disco, leva muito mais tempo e o núcleo de computação tem que sentar lá, em marcha lenta, esperando que os dados de que necessita .







Em uma fábrica moderna, décadas de produção em massa, entrega just-in-time e build-to-order experiência significa que qualquer processo de montagem da fábrica foi projetada para que todos os componentes necessários estão disponíveis, na mão apenas quando necessário. O ponto inteiro de processos de fábrica é que uma linha de montagem não parar, que várias linhas podem operar de uma vez, e que os processos de logística de componentes estão em equilíbrio e entregar componentes nas quantidades certas e na velocidade certa para os pontos de montagem em um processo de produção.


Um servidor é uma fábrica de dados e tem, em seu ápice, um simples - em linhas gerais - processo que envolve trazendo dados para calcular. Há uma seqüência de estágios recebendo esses dados para calcular, por exemplo, a partir de disco ou um sensor para a memória do servidor e, em seguida, para os núcleos de CPU. Caches rápidos são utilizados para tamponar fontes de entrega de dados lentos a jusante da memória.


Mas a eficiência computacional servidor tem melhorado aos trancos e barrancos, novas gerações de processadores, virtualização de servidores e de contenção de corrente estão permitindo que os servidores executar mais aplicativos, ou seja, os núcleos querem mais e mais dados - mais imediatamente - com todos os ciclos de computação.


A two-socket servidor de oito núcleos muitas vezes podem ter uma necessidade maior de dados do que a sua memória e infra-estrutura de armazenamento downstream pode entregar a qualquer momento.


A memória flash melhora de dados IO velocidade na fase que é usado neste infra-estrutura a jusante e, muitas vezes este bastante - colocar SSDs na matriz em rede para substituir discos. Coloque caches de flash no controlador de matriz. Coloque SSDs no próprio armazenamento diretamente inscritos de um servidor (DAS) slots. Coloque armazenamento flash em cartões de memória flash PCIe que têm acesso a dados mais rápido que SATA ou SAS SSDs conectados em infra-estrutura DAS do servidor.


CPU_PCIe_Flash

Esquema Server com DRAM e flash PCIe.



No entanto, mesmo isso pode não ser rápido o suficiente como há uma conversão de protocolo de dados entre a placa PCIe e o barramento de memória, a caminho de DRAM. E se pudéssemos colocar Flash embora diretamente para o barramento de memória, no mesmo era como chips DRAM são acessados ​​através de DIMMs, duplas módulos de memória em linha.



  • Latência de acesso à memória - nanossegundos - bilionésimos de um segundo

  • Latência de acesso ao disco - milissegundos - milésimos de segundo

  • PCIe flash de latência de acesso - microssegundos - milionésimos de segundo

  • Acesso DIMM Flash latência - alegou ter 80 por cento menor latência do que o Flash PCIe


Diablo Technologies do Canadá permitiu que esta com o seu Canal de Memória de armazenamento (MCS) e parceiros com um chip flash e fornecedor SSD, SanDisk, que vende os resultantes ULLtraDIMM produtos de tecnologia para OEMs, tais como Huawei, Lenovo e Supermicro.


CPU_DIMM_Flash

Flash com acesso ao barramento de memória DIMM



O canal de memória utiliza o acesso paralelo para aumentar a velocidade de acesso a dados.


Testes de Diablo com um 15 por cento ler rácio / gravação viu Flash PCIe ter um microssegundo 105 significa latência de gravação enquanto seu flash MCS tinha uma 29 microssegundos significa latência de gravação - 3,6X melhor.


No esquema MCS os DIMMs de flash existir no mesmo espaço de memória global como DRAM. Produtos atualmente MCS-baed usar uma interface DDR3, DDR em pé por duas vezes tipo de taxa de dados de 3 ou terceira geração. Ele transfere dados com o dobro da velocidade de uma especificação DDR2 anterior.


MCS_in_memory_map

Imagem Diablo Technologies.



DDR4, o padrão DDR quarta geração, tem uma taxa de dados mais elevada de novo e têm os seus módulos de duas vezes a densidade de módulos DDR3 e que tem uma exigência de tensão mais baixa do que DDR3. O aumento da velocidade potencial - a tecnologia está em desenvolvimento - é cerca do dobro de memória DDR3.


Diablo sugere que a tecnologia MCS é bom para San (workloads VSANM virtuais como ele pode:



  • Eliminar a necessidade de matrizes de armazenamento externos

  • Fornecer extremamente rápido comprometer-se a nós de cluster para alta disponibilidade

  • Tem IOPS previsíveis e latência para cargas de trabalho pesadas


Há outras vantagens para trazer flash, um armazenamento persistente, mais perto de calcular, como menos movimentação de dados em um sistema que conduz a reduzir os custos de energia, mas nós estamos concentrando-se nas vantagens de desempenho aqui.


Por que é que vale a pena ter tais flashDIMMs como vamos chamá-los? Por que não colocar tudo em DRAM? É porque DRAM é mais caro do que o flash e também porque flash, com a sua tecnologia NAND, não é volátil e, ao contrário de DRAM, não perde o seu conteúdo, se o poder deixa de fluir. Memristor tecnologia é semelhante não-volátil.


Note que este não é intrinsecamente uma idéia só-flash, este estreitamento entre a armazenamento e computação não-volátil. Qualquer memória não-volátil poderia, em teoria, ser interligado a DIMMs em forma assim, supondo que o caso de negócio era forte o suficiente. Desenvolvimento da HP memristor tecnologia poderia, no futuro, ser dada uma interface de barramento de memória baseados em DIMM.


Memristors são, junto com ReRAM (Resistência RAM) e Phase-Change Memória (PCM) tecnologias candidatas para a era pós-NAND vinda. Está previsto que as células NAND não é possível reduzir muito mais depois de atingir 15-12nm ou menos em tamanho. A tecnologia de follow-on que serão necessários para entregar a maior capacidade e velocidades de acesso mais rápidos que vamos precisar, porque os recursos da CPU vai continuar a melhorar - mais núcleos por exemplo - e a eficiência do servidor também irá melhorar com contentorização de apps.


HP Nanostore

Idéia HP Nanostore



A tendência para trazer mais perto de flash para calcular é a mais recente iteração de uma tendência de longo prazo, que é trazer armazenamento geralmente mais perto de computar. HP falou sobre um conceito Nanostore há dois anos, em que flash NAND foi integrada no mesmo chip como um processador.


Confira um papel IEEE do HP Labs sobre o conceito aqui (pdf) .


O ponto sobre como melhorar os recursos da CPU feitas anteriormente é amplificado neste trabalho. Ele afirma: "Historicamente, o primeiro computador para alcançar a computação terascale (1012, ou um trilhão de operações por segundo) foi demonstrada no final de 1990. Na década de 2000, o primeiro computador petascale foi demonstrado com o desempenho de um milhar de vezes melhor. Extrapolando essas tendências, podemos esperar que o primeiro computador exascale (com um milhão de trilhões de operações por segundo) a aparecer por volta do final deste próxima década. "


Armazenamento enfrenta uma crescente demanda continuamente para fornecer mais dados, mais rápido, para computar. Há necessidades acessórias, tais como menor poder empates e reduzindo a movimentação de dados através de um sistema de TI, mas o desempenho é a necessidade principal. A maneira de fazer isso é trazer mais perto de armazenamento, espacialmente e em termos de performance, de núcleos de processador do computador e reduzir o tempo de espera IO, que o problema clássico que está sempre sendo resolvido e, em seguida, re-ocorrer novamente. Nanostores e Memristors só será uma das últimas tentativas de resolver o problema de longa data. ®



Nenhum comentário:

Postar um comentário