segunda-feira, 13 de outubro de 2014

Facebook técnicos de armazenamento: Nós filtrarem sua família se encaixa para encontrar 'BLOBs quentes'


Guia do Iniciante para certificados SSL


Facebook cavou RAID e replicação para o seu armazenamento near-line, usando codificação apagamento distribuído para isolar o que chama de "Gotas quentes" em vez.


Tradução por favor:



  • BLOB - objeto binário grande - fotos do Facebook do usuário, vídeos, etc

  • Quente - dados que tem que ser mantido e é acessada a uma taxa menor do que os dados quentes, mas mais do que os dados arquivados ou frios. Normalmente, é mais do que uma semana de idade. BLOBs quentes, é claro, são acessados ​​com mais freqüência.

  • Codificação Erasure - a adição de valores de paridade calculados (códigos de Reed-Solomon) para uma seqüência de bytes, de forma que a corda pode ser recuperado se um erro exclui ou distorce um pouco da cadeia completa. Normalmente mais eficiente do que RAID a proteger os dados, pois utiliza menos espaço.


Problema especial do Facebook é que ele tem três tipos principais de dados do usuário, com metadados associados, e estes três tipos precisam de grandes quantidades de armazenamento. Seus principais e mais acessados ​​conjuntos de dados são o recente, menos de postagens de uma semana de idade, na linha do tempo do usuário. Estes se acessada muito por "amigos" do usuário.


Ele usa seu Palheiro sistema de armazenamento de dados, que usa a replicação triplo para proteger os dados e verifique se ele sempre pode ser acessado e acessados ​​rapidamente, com o mais próximo a um único acesso ao disco possível (uma vez que os cálculos de metadados foram executados).







Como este idades de dados, que são acessados ​​com menos frequência, arrefecimento do quente para aquecer, e ainda requer acesso rápido quando é realmente chamado. O problema é que o material maldita não pára de crescer. Por exemplo, no final de janeiro deste ano, o Facebook foi o armazenamento de mais de 400 bilhões de fotos.


BLOB_requeat_rate_by_age

Taxas de solicitação relativa por idade. Cada linha é relativo a apenas em si, os valores absolutos foram denormalized para aumentar a legibilidade, e os pontos de marcar uma diminuição ordem de grandeza da taxa de solicitação.



Calculando a contagem de IOs por terabyte mostra que sua densidade IO é muito menos do que os dados quentes e isso significa que ele pode ser armazenado sem o uso de um esquema de rep triplo, e ainda assim ter acesso aceitavelmente rápido, enquanto protegido contra falhas de disco, de acolhimento e rack .


Os engenheiros do Facebook criaram um novo sistema de armazenamento, f4, para guardar este conjunto de BLOBs quentes. Um papel pelos engenheiros explica: "f4 é um novo sistema que reduz a replicação do fator eficaz de BLOBs quentes, permanecendo e capaz tolerante a falhas para suportar as demandas de rendimento mais baixos."


FAcebook_f4_Schematic

Os engenheiros do Facebook dizem:


[F4] usa Reed-Solomon codificação e estabelece blocos fora em prateleiras diferentes para garantir resiliência para o disco, máquina, e as falhas de rack dentro de um único centro de dados. É utiliza XOR codificação no grande-área para garantir a resiliência a falhas de data center. f4 foi executado em produção no Facebook há mais de 19 meses. f4 armazena atualmente mais de 65PB de dados lógicos e economiza mais de 53PB de armazenamento.

BLOBs são agregados em volumes lógicos de c100GB com metadados do sistema de arquivos agregado. Eles consistem de um arquivo de arquivo de dados, arquivo de índice e revista. O arquivo de índice é um instantâneo da estrutura das máquinas de armazenamento de pesquisa in-memory. Quando volumes completos estão bloqueadas Anexa não são permitidos.


Volumes são armazenados em um data center e em células em uma célula é de 14 racks de 15 hosts com 30 unidades x 4TB por host. Cada volume / tarja / bloco está emparelhado com um volume de amigos / banda / bloco em uma região geográfica diferente. Facebook armazena um XOR dos amigos em uma terceira região. Este esquema protege contra falha de uma das três regiões.


Será que as empresas em geral têm de se deslocar para um tal esquema de armazenamento para seus dados nearline? É pouco provável, pois não terá, necessariamente, a mesma quantidade de dados como o Facebook, nem sua velocidade e taxa de crescimento ou de sua imutabilidade.


Leia mais sobre o Sr. Blobby esquema f4 do Facebook aqui (17 páginas PDF) . ®



Nenhum comentário:

Postar um comentário