Identificar os dados que você precisa para o seu Big Data

Fazer um balanço do tipo de dados que você está lidando com em seu projeto de dados grande. Muitas organizações estão reconhecendo que uma grande quantidade de dados gerados internamente não tenha sido utilizada para o seu pleno potencial no passado.

Ao alavancar novas ferramentas, as organizações estão ganhando uma nova visão a partir de fontes anteriormente inexplorados de dados não estruturados em e-mails, registros de atendimento ao cliente, dados do sensor, e logs de segurança. Além disso, grande interesse existe na procura de uma nova visão baseada na análise de dados que é essencialmente externo à organização, tais como a mídia social, localização celular, tráfego e condições meteorológicas.

A fase exploratória para big data

Nos primeiros estágios de sua análise, você vai querer procurar padrões nos dados. É somente através da análise muito grandes volumes de dados que novas e inesperadas relações e correlações entre os elementos podem se tornar aparente. Esses padrões podem fornecer informações sobre as preferências dos clientes para um novo produto, por exemplo. Você vai precisar de uma plataforma para organizar seus dados grandes para procurar esses padrões.

Hadoop é amplamente usado como um bloco de construção subjacente para capturar e processar dados grandes. Hadoop foi desenvolvido com recursos que aceleram o processamento de dados grandes e torná-lo possível identificar padrões em grandes quantidades de dados em um tempo relativamente curto. Os dois principais componentes do Hadoop - Hadoop Distributed File System (HDFS) e MapReduce - são usados ​​para gerenciar e processar seus dados grandes.

FlumeNG para integração de dados grande

Muitas vezes, é necessário recolher, agregar e mover grandes quantidades de fluxo de dados para procurar padrões ocultos nos dados grandes. ferramentas de integração tradicionais, como ETL não seria rápido o suficiente para mover os grandes fluxos de dados em tempo para entregar resultados para análise, tais como detecção de fraude em tempo real. FlumeNG carrega dados em tempo real por streaming de seus dados em Hadoop.

Normalmente, Flume é usado para coletar grandes quantidades de dados de log de servidores distribuídos. Ele mantém um registro de todos os nós físicos e lógicos em uma instalação Flume. nós do agente são instalados nos servidores e são responsáveis ​​por gerenciar a forma como um único fluxo de dados transferidos e processados ​​a partir de seu ponto inicial até ao seu ponto de destino.

Além disso, os coletores são usados ​​para agrupar os fluxos de dados em fluxos maiores, que podem ser gravados em um sistema de arquivos Hadoop ou outro recipiente de armazenamento de dados grande. Flume é projetado para escalabilidade e pode continuamente adicionar mais recursos a um sistema para lidar com grandes quantidades de dados de forma eficiente. saída da calha pode ser integrado com Hadoop e Hive para análise dos dados.

Flume também tem elementos de transformação para usar sobre os dados e pode transformar sua infra-estrutura Hadoop em uma fonte de transmissão de dados não estruturados.

Padrões em big data

Você encontra muitos exemplos de empresas que começam a perceber as vantagens competitivas de grandes análise de dados. Para muitas empresas, os fluxos de dados de mídia social estão se tornando cada vez mais um componente integral de uma estratégia de marketing digital. Na fase exploratória, esta tecnologia pode ser usada para procurar rapidamente através de enormes quantidades de dados de streaming e retirar os padrões de tendências que se relacionam com produtos ou clientes específicos.

A fase de codificação para big data

Com centenas de lojas e muitos milhares de clientes, você precisa de um processo repetitivo para fazer o salto de identificação padrão a implementação de seleção de novos produtos e de marketing mais direcionadas. Depois de encontrar algo interessante em sua análise de dados grande, codificá-lo e torná-lo uma parte de seu processo de negócio.

Para codificar a relação entre suas análises de dados grandes e seus dados operacionais, é necessário integrar os dados.

integração de dados grande e estágio incorporação

Big data está a ter um grande impacto em muitos aspectos da gestão de dados, incluindo a integração de dados. Tradicionalmente, a integração de dados centrou-se sobre o movimento de dados através de middleware, incluindo especificações sobre a passagem de mensagens e requisitos para interfaces de programação de aplicativos (APIs). Estes conceitos de integração de dados são mais apropriadas para o gerenciamento de dados em repouso em vez de dados em movimento.

A mudança para o novo mundo de dados não estruturados e dados de streaming muda a noção convencional de integração de dados. Se você deseja incorporar a sua análise de streaming de dados em seu processo de negócio, você precisa de tecnologia avançada que é rápido o suficiente para que você possa tomar decisões em tempo real.

Após sua análise de dados grande é completa, você precisa de uma abordagem que lhe permitirá integrar ou incorporar os resultados de sua análise de dados grande em seu processo de negócios e ações de negócios em tempo real.

As empresas têm grandes expectativas para ganhar valor real do negócio da análise de dados grande. Na verdade, muitas empresas gostaria de começar uma análise mais profunda dos dados grandes gerados internamente, tais como dados de log de segurança, que não foi possível devido a limitações tecnológicas.

Tecnologias de transporte em alta velocidade de dados muito grandes e rápidas são um requisito para integrar em fontes de dados grandes e distribuídos entre grandes dados e dados operacionais. fontes de dados não estruturados, muitas vezes precisam ser movidos rapidamente sobre grandes distâncias geográficas para a partilha e colaboração.

Ligando fontes tradicionais com big data é um processo multiestágios depois de ter olhado para todos os dados de streaming de fontes de dados grandes e identificou os padrões relevantes. Depois de reduzir a quantidade de dados que você precisa para gerenciar e analisar, agora você precisa pensar sobre a integração.

menu