Log Análise de Dados com Hadoop

análise de log é um caso de uso comum para um projeto Hadoop inaugural. Na verdade, os primeiros usos de Hadoop foram para a análise de grande escala clickstream registros - registros que gravar dados sobre as páginas da web que as pessoas visitam e em qual ordem eles visitam-los.

Todos os logs de dados gerados pela sua infraestrutura de TI muitas vezes são referidos como de escape de dados. Um registro é um subproduto de um servidor de funcionamento, bem como fumaça saindo do tubo de escape de um motor a trabalhar. exaustão de dados tem a conotação de poluição ou resíduos, e muitas empresas, sem dúvida, abordar este tipo de dados com esse pensamento em mente.

Registro de dados, muitas vezes cresce rapidamente, e por causa dos altos volumes produzidos, pode ser entediante para analisar. E, o valor potencial destes dados é muitas vezes pouco claros. Assim, a tentação em departamentos de TI é armazenar esses dados de log para tão pouco tempo quanto possível. (Afinal de contas, isso custa dinheiro para manter os dados, e se não há nenhum valor de negócio percebida, por armazená-lo?)

Mas Hadoop muda a matemática: O custo de armazenamento de dados é relativamente barato, e Hadoop foi originalmente desenvolvido especialmente para o processamento de lotes em grande escala de dados de registro.

O caso de dados de log de análise de uso é um lugar útil para começar a sua viagem Hadoop, porque as chances são boas de que os dados que você trabalhar com está sendo excluído, ou # 147 caiu no chão. # 148- Algumas empresas que consistentemente gravar um terabyte (TB) ou mais de atividade na web do cliente por semana descartar os dados sem análise (o que faz você se perguntar por que eles incomodado para coletá-lo).

Para começar rapidamente, os dados neste caso de uso é provável fácil de obter e, geralmente, não abrange os mesmos problemas que você vai encontrar se você iniciar a sua viagem Hadoop com outros dados (regidas).

Quando os analistas da indústria discutem os volumes rapidamente crescentes de dados que existem (4,1 exabytes a partir de 2014 - discos rígidos mais de 4 milhões de 1TB), ingresse contas de dados por grande parte deste crescimento. E não admira: Quase todos os aspectos da vida agora resulta na geração de dados. Um smartphone pode gerar centenas de entradas de log por dia para um usuário ativo, acompanhamento não só de voz, texto e transferência de dados, mas também dados de geolocalização.

A maioria das famílias agora têm medidores inteligentes que registram seu uso de eletricidade. carros mais novos têm milhares de sensores que os aspectos registro de sua condição e uso. Cada clique do mouse e movimento que você faz enquanto navega na Internet provoca uma cascata de entradas de log a ser gerado.

Toda vez que você comprar algo - mesmo sem usar um cartão de crédito ou cartão de débito - sistemas de registrar a atividade em bases de dados - e em toras. Você pode ver algumas das fontes mais comuns de dados de log: servidores de TI, clickstreams web, sensores e sistemas de transação.

Cada setor (assim como todos os tipos de registo que acabamos de descrever) têm o potencial enorme para análise valioso - especialmente quando você pode se concentrar em um tipo específico de atividade e, em seguida, correlacionar suas descobertas com outro conjunto para fornecer o contexto de dados.

Como exemplo, considere isto navegação e compra típica experiência baseada na web:

  1. Você navegar no site, à procura de itens para comprar.

  2. Você clique para ler as descrições de um produto que chama a sua atenção.

  3. Eventualmente, você adicionar um item ao seu carrinho de compras e prosseguir para o check-out (a ação de compra).

Depois de ver o custo do transporte, no entanto, você decidir que o item não vale a pena o preço e você fechar a janela do browser. Cada clique que você fez - e então parou de fazer - tem o potencial de oferecer informações valiosas para a empresa por trás deste site de e-commerce.

Neste exemplo, suponha que este negócio recolhe dados de páginas visitadas (dados sobre cada clique do mouse e visualização da página que um visitante # 147 toques # 148-), com o objetivo de compreender a forma de melhor servir os seus clientes. Um desafio comum entre as empresas de e-commerce é reconhecer os principais fatores por trás carrinhos de compras abandonados. Quando você executa uma análise mais profunda sobre os dados de fluxo de cliques e examinar o comportamento do usuário no site, os padrões são obrigados a surgir.

A sua empresa sabe a resposta para a pergunta aparentemente simples, # 147 são determinados produtos abandonada mais do que outros? # 148- Ou a resposta para a pergunta, # 147 Quanta receita pode ser recapturado se você diminuir o abandono do carro em 10 por cento? # 148- A seguir dá um exemplo do tipo de relatórios que você pode mostrar a seus líderes empresariais a buscar o seu investimento em sua causa Hadoop.

image0.jpg

Para chegar ao ponto onde você pode gerar os dados para construir os gráficos mostrados, você isolar as sessões de navegação na web de usuários individuais (um processo conhecido como sessionization), identificar o conteúdo de suas compras, em seguida, estabelecer o estado da transação no final da sessão - tudo através da análise dos dados de páginas visitadas.

A seguir é um exemplo de como montar sessões de navegação na web dos usuários, agrupando todos os cliques e endereços de URL pelo endereço IP.

Em um contexto Hadoop, você está sempre trabalhando com chaves e valores - cada fase de insumos MapReduce e dados de saídas em conjuntos de chaves e valores. A chave é o endereço IP, eo valor consiste na timestamp ea URL. Durante a fase de mapa, as sessões de usuário são montados em paralelo para todos os blocos do conjunto de dados do fluxo de cliques que está armazenado no seu cluster Hadoop arquivo.

image1.jpg

A fase de mapa retorna os seguintes elementos:

  • A página final que visitou

  • Uma lista de itens no carrinho de compras

  • O estado da transação para cada sessão do usuário (indexada pela chave de endereço IP)

O redutor pega esses registros e executa agregações para totalizar o número eo valor dos carros abandonados por mês e para fornecer totais das páginas finais mais comuns que alguém viram antes de terminar a sessão do usuário.

menu