sexta-feira, 14 de novembro de 2014

Certifique-se de grandes dados não aterrá-lo em apuros


Top 5 razões para implantar VMware com Tegile


Tamanho não é tudo. Big Data pode ser sobre o armazenamento de terabytes ou petabytes de informações, mas é também sobre a complexidade ea complexidade muitas vezes traz desafios de segurança. Você está pronto para lidar com eles?


Agora, alguém em um marketing ou finanças papel em algum lugar em sua organização provavelmente está montando uma proposta grande de dados, e se não forem, não vai demorar muito antes de pensar nisso.







Além de usar uma senha forte para acessar um banco de dados, eles provavelmente não têm idéia da carga de segurança que vai trazer. Isso significa que a parte de segurança é baixo para você.


Aqui estão algumas das coisas que você terá que pensar sobre a garantir que a empresa recebe os insights de dados que quer, sem também obter um caminhão de dores de cabeça e manchetes legais indesejados na imprensa.


Legítimo proprietário


Voltar no dia, montes de dados dos clientes seriam armazenados em data warehouses e perfurados periodicamente para a percepção do cliente. O tipo de dados armazenados nestes sistemas, juntamente com as consultas à base de lote que corriam sobre ele, diferem significativamente dos sistemas de dados grandes de hoje.


Por um lado, big data é menos estruturado. Ele também é extraído de uma variedade de fontes, enquanto os dados de armazenamento de dados foi obtida principalmente a partir de sistemas internos.


Estas diferenças podem apresentar problemas de propriedade legais, explica Kim Walker, sócio da firma de advocacia Thomas Eggar.


"A maioria das coisas que pertencem a alguém e haverá um advogado em algum lugar que definiu certas condições para a sua utilização", diz ela.


"Eles vão definir o que você pode usar, e depois termos sobre o conteúdo ea qualidade dos dados."


Leis de licenciamento


Victor White, diretor de operações de marketing para Gigya , sabe por experiência prática sobre a necessidade de estabelecer os limites da posse e atender aos requisitos de licenciamento.


Gigya é uma empresa de inteligência de negócios que reúne informações sobre os clientes de seus clientes, utilizando ferramentas como logins em sites de mídia social e serviços de registo on-line gerenciados. Ele aspira os dados sociais, entre outros tipos de dados, e usa-lo para entregar informações para os clientes sobre seus próprios clientes.


Esses serviços de mídia social têm suas próprias responsabilidades para os dados do usuário, que são repassados ​​para as empresas que o utilizam para fins de dados grandes. "Se você armazenar dados sociais, você tem que aderir aos termos de serviço", diz White.


A empresa lançou seu próprio serviço de conformidade social para garantir que quando se tratava de uso de dados de terceiros, é colorido dentro das linhas.


Os dados que você fonte também pode levar as questões de protecção de privacidade. Além dos registros simples de clientes armazenados em cubos OLAP de ontem, ambientes de big data pode derivar informações de fontes confidenciais, incluindo, por exemplo, cartões de fidelização de clientes.


Esses cartões também podem ser agora aplicativos móveis, é claro, que pode ajudar as empresas a compreender onde os clientes eram quando acessou os apps.


Os celulares hoje em dia são os sensores em si mesmos, mas também existem sensores de saúde dedicados que podem alimentar de volta os dados dos clientes. Um recente relatório sobre big data pelo Gabinete do Comissário de Informação do Reino Unido aponta que o tratamento de dados pessoais deve ser "justo", e parte do que se resume à forma como é recolhida.


"As organizações precisam ser transparentes quando coletar dados, e explicando como ele será usado é um elemento importante no cumprimento dos princípios da protecção de dados", diz o relatório.



"Temos que projetar a coleta de dados, de modo que estamos tirando a informação que realmente não precisamos"



Jim Reavis, co-fundador e CEO da Cloud Security Alliance , informa que as empresas inteligentes projetar suas políticas de coleta de dados para minimizar o risco de conformidade.


"Temos que projetar a coleta de dados, de modo que estamos tirando a informação que realmente não precisamos e substituindo-a com outros tipos de informação", diz ele.


Os filtros podem ser necessárias para cortar as informações pessoalmente identificáveis ​​(PII) completamente. "Nós podemos ser potencialmente capaz de encontrar a nós mesmos não são obrigados a cumprir uma série de regulamentos, se podemos fazer isso da maneira certa", acrescenta.


Esta abordagem considera envolve a compreensão na frente quais são os objetivos de uma solução de dados grande, ao invés de simplesmente derramando o máximo de dados possível em um balde e esperando que algo perspicaz vai pingar para fora no final.


Como os dados chega de tantas fontes diferentes, muitas vezes em tempo real, também é importante para validar a entrada de modo que os atores maliciosos não poluem o conjunto de dados. A organização de Reavis recomenda sistemas de construção que validam endpoints e detectar feeds de dados maliciosos.


O tempo é precioso


Outro desafio particular de big data é que ele é muito mais focada do que temporalmente sistemas de inteligência de negócios de ontem. Estes foram os assuntos mais estático, com instantâneos de vendas e outros dados atualizados de forma regular, mas longe de ser em tempo real, com base. Você pode executar relatórios sobre dados de vendas mensais, por exemplo.


Big data é diferente porque ele vem de várias fontes com muito mais freqüência, alguns sendo atualizados em tempo real ou quase real.


"Dados Big mantém ciclos de tempo para que você possa manter as informações de concorrência", diz Richard Chew, diretor de consultoria para Emerald Management Group , que também serviu de TI equipe de desenvolvimento do projeto de associação de segurança da ISACA para criar um papel branco sobre privacidade e dos dados grandes.


Dados de tempo pode criar problemas imprevistos porque conjunto de dados rotinas de coleta, mesmo cuidadosamente definidos pode interferir na vida privada.


"Isso pode levar a re-identificação positiva. Há situações em que horários e datas pode ligar de volta para as mesmas pessoas ", adverte Chew.


Este é um exemplo de um problema mais amplo re-identificação, onde várias camadas de dados podem ser agregados para deduzir detalhes de alguém através da remoção de entropia. Isto pode acontecer mesmo quando não há PII explicitamente no conjunto de dados.


Entropia descreve como incerta estamos prestes a determinada peça de dados. Princeton professor assistente de ciência da computação Arvind Narayanan argumenta que, com 6,6 bilhões de pessoas no planeta, você só precisa de 33 bits de informação (entropia) para identificá-los.


Quanto mais informações você dá sobre essa pessoa, a menos entropia você é deixado com. Se você mora em metro Vancouver (população 2.300.000), depois que cai para 22 bits de entropia. E se alguém pode começar a referência cruzada que o material com informações de alimentações de mídia social e dados de séries temporais, os bits vão cair de forma bastante rápida.


Narayanan cortado longe entropia suficiente do conjunto de atividades do usuário para identificar vários registros de usuários individuais de dados anónimos da Netflix.


Nós sabemos quem você é


Outro caso famoso envolveu AOL, que lançou um histórico de pesquisas anónimas para pesquisadores para analisar e extrair insights de. Foi quebrado , revelando a identidade ea história de um usuário de internet envergonhado procurar.


Com perigos como estes, as empresas devem tomar cuidado ao desenvolver filtros para analisar seus dados. Considerando que os armazéns de dados de idade foram interrogados usando parâmetros específicos, big data é geralmente extraído regularmente para possíveis correlações entre conjuntos de dados, de modo muito mais dos dados estruturados e não estruturados é utilizada em diferentes combinações.


Em alguns casos, o software pode ainda aprender algoritmos que são mais bem sucedido, de modo que possam ser usadas para criar novos algoritmos de busca. Tudo isso deve ser tratado dentro dos limites de privacidade.


Em alguns casos, as linhas entre grandes dados e servidores operacionais estão desfocadas, com linhas diretas entre as fontes de dados grandes e sistemas operacionais. É mais parecido com o modelo de desenvolvimento de aplicações DevOps, em que as equipes de desenvolvimento e operação trabalhar juntos, lançando mudanças no uso da informação em tempo real.


Reavis adverte que muitas vezes isso pode envolver fazer várias mudanças para uma aplicação em um dia, o que contrasta com armazéns tradicionais, onde as operações do sistema foram altamente programadas.


Dados Big move sistemas longe do mundo de processamento em lote para uma das constantes mudanças, o que pode criar problemas adicionais para especialistas em segurança.


"Essa agilidade cria oportunidades para erros a serem feitas. Isso é uma consequência de querer resolver os problemas mais rapidamente ", afirma Reavis.


Ele também cria uma necessidade de monitoramento de segurança em tempo real, de modo que os administradores podem assistir para acesso não autorizado, ataques de envenenamento de dados e espionagem. Ferramentas de segurança da informação e gerenciamento de eventos pode ser útil aqui, como são ferramentas específicas para monitorar as solicitações para o Hadoop sistemas de dados grandes alternativas ou.


Não espionagem


Esses desafios técnicos de infra-estrutura podem manifestar-se de várias maneiras. Grupo de Trabalho de Big Data do CSA aborda vários deles, incluindo a segurança no processamento distribuído. Hadoop, que é um dos grandes armazenamentos de dados mais comumente utilizados, usa MapReduce , uma função para distribuir tarefas de processamento de dados através de múltiplos nós.


Nós desonestos ou mau funcionamento poderia ser usado para espionar consultas ou alterar os seus resultados, diz o CSA.


Mitigação de ameaças envolve estabelecer e manter a confiança entre nós, e também o estabelecimento de controle de acesso obrigatório para os nós e seu controlador.


NoSQL e bancos de dados não relacionais semelhantes também carregam riscos, porque a segurança em nível de banco de dados nesses sistemas tem sido mínima. Ataques de injeção e acesso não autorizado são apenas dois perigos observados pelo CSA, que aconselha envolvendo bancos de dados NoSQL em uma camada de middleware seguro para proteger o acesso direto aos dados.


A organização também recomenda a criptografia de dados para ajudar a protegê-lo de ataques. Hadoop oferece criptografia de camada de arquivo.


No entanto, as coisas podem ser mais complexos em um ambiente de big data em que o acesso rápido é necessário para dados de diferentes fontes, o que é tudo no mesmo armazenamento de dados e sendo acessados ​​por diferentes partes.


Arnab Roy, um membro da equipe de pesquisa da Fujitsu Laboratories , observa que a criptografia homomórfica está recebendo muita atenção no mundo de criptografia.


"O objetivo é usar a criptografia durante a execução de computação em dados", diz ele.


A outra opção é a criptografia funcional, que permite que os aplicativos para derivar conhecimento controlado na nuvem enquanto trabalha com dados criptografados. Assim, uma aplicação pode ser capaz de identificar os resultados de pesquisa específicos ao trabalhar com um conjunto de dados criptografados, mas nada mais.


Técnicas como estes também podem ajudar a compensar os perigos inerentes de armazenamento multi-camadas, onde os dados podem ser transferidos entre as camadas de armazenamento para economizar dinheiro. Pontos de transmissão entre as camadas pode ser considerada de segurança pontos fracos, especialmente se os prestadores de serviços estão envolvidos.


Fronteiras regionais


Desafios de infra-estrutura também pode ser influenciada por considations legais mais amplas que forçam outras questões para grandes usuários de dados, diz Roy.


Roy trabalhou com o Instituto Nacional de Padrões e Tecnologia (NIST) e da CSA sobre grandes questões de segurança de dados. Big data grupo de trabalho do NIST tem um subgrupo de segurança e privacidade que está tentando mapear temas de dados grandes para uma arquitetura de referência de segurança genérico.


"Gerenciamento de dados Big também tem seus próprios fatores, tais como a proveniência dos dados à medida que se move através de certos contextos, como as fronteiras geográficas e legais e de confiança", diz Roy.


White, que tem experimentado os desafios associados com os limites legais e geográficas em primeira mão, alerta que as empresas que utilizam grandes dados deve pensar seriamente sobre as questões de residência de dados. Eles às vezes deve espelhar os seus esforços de governança de dados em várias geografias, o que pode introduzir os seus próprios problemas de segurança.


Gigya precisa de centros de dados em todo o mundo, graças à regulamentação regional. "Muitos governos querem que você para abrigar os dados dos clientes regionalmente. Isso representa um grande desafio global que vai ser difícil para as empresas a realizar ", diz White.


Vários países têm exigido organizações para armazenar informações sobre seus cidadãos em solo local. Indonésia, por exemplo, promulgada Governo regulamento PP82 / 2012, que obriga os centros de dados que prestam serviços para os seus cidadãos deve ser mantida dentro do país. Rússia aprovou leis semelhantes, que entrarão em vigor em 2016.


Ciência imatura


Normalmente, as empresas arregaçar riscos legais e técnicos em uma estrutura de governança mais amplo projetado para mitigá-los. TI é bem compreendido no âmbito dos quadros de gestão de risco corporativo, mas grande governança de dados ainda é imaturo, avisa Roy.


"Há estruturas de conformidade para setores específicos, mas não há padrões de conformidade para big data", diz ele.


Big Data pode brilhar uma luz sobre os segredos mais íntimos das organizações. O truque é evitar dar-se a privacidade dos seus clientes no negócio ou permitindo que atacantes para descobri-los. Os desafios abrangem áreas, incluindo infra-estrutura, privacidade de dados e gerenciamento de dados.


E porque as soluções Big Data são tão poderosas, as apostas são altas. O planejamento cuidadoso e previsão é crucial se você quer aproveitar os benefícios desta tecnologia, evitando os pesadelos de segurança e privacidade que poderia trazer. ®



Nenhum comentário:

Postar um comentário