Correndo modelos estatísticos no MapReduce do Hadoop
Convertendo modelos estatísticos para executar em paralelo é uma tarefa desafiadora. No paradigma tradicional para a programação paralela, o acesso à memória é regulado através do uso de tópicos - sub-processos criados pelo sistema operacional para distribuir uma única memória compartilhada por vários processadores.
Fatores como condições de corrida entre threads concorrentes - quando duas ou mais threads tentar alterar dados compartilhados ao mesmo tempo - podem influenciar o desempenho de seu algoritmo, bem como afetar a precisão dos resultados estatísticos seus resultados do programa - especialmente para longo execução de análises de grandes conjuntos de amostras.
Uma abordagem pragmática para este problema é assumir que não muitos estatísticos vai saber os prós e contras de MapReduce (e vice-versa), nem se pode esperar que eles vão estar ciente de todas as armadilhas que a programação paralela implica. Contribuíram para o projeto Hadoop tem (e continuar a desenvolver) ferramentas estatísticas com estas realidades em mente.
O resultado: Hadoop oferece muitas soluções para implementar os algoritmos necessários para fazer a modelagem e análise estatística, sem sobrecarregar o estatístico com as considerações de programação paralela nuances.
Sobre o autor
Máquina Aprender com Mahout em Hadoop aprendizado de máquina refere-se a um ramo de técnicas de inteligência artificial que fornece ferramentas que permitem computadores para melhorar a sua análise com base em eventos anteriores. Estes dados históricos sistemas de computador de…
Gerenciar grandes recursos de dados e aplicações com Hadoop FIO programação de trabalho e de rastreamento para big data são partes integrantes do Hadoop MapReduce e pode ser usado para gerenciar os recursos e aplicações. As primeiras versões do Hadoop apoiado um sistema de rastreamento de trabalho e…
Gerenciamento de Big Data com Hadoop: HDFS e MapReduce Hadoop, uma estrutura de software de código aberto, usa HDFS (Hadoop Distributed File System) e MapReduce para analisar os dados grandes em clusters de commodities hardware, ou seja, em um ambiente de computação distribuída.O Hadoop Distributed…
Bases de dados de processamento massivamente paralelo Para proporcionar uma melhor compreensão das alternativas SQL-on-Hadoop para Hive, pode ser útil rever uma cartilha sobre processamento paralelo (MPP) de bancos de dados em primeiro lugar.Apache Hive é mergulhado em cima do Hadoop Distributed…
R no Hadoop e R Idioma A disciplina de aprendizado de máquina tem um catálogo rico e extenso de técnicas. Mahout traz uma gama de ferramentas estatísticas e algoritmos para a mesa, mas só captura uma fração dessas técnicas e algoritmos, como a tarefa de converter…
Executando aplicativos Antes Hadoop 2 Porque muitas implantações Hadoop existentes ainda ainda não estão usando mais um recurso Negociador (FIO), dê uma rápida olhada em como Hadoop conseguiu seu processamento de dados antes dos dias de Hadoop 2. Concentre-se no papel que…
O Apache Hadoop Ecossistema Hadoop é mais do que MapReduce e HDFS (Hadoop Distributed File System): É também uma família de projetos relacionados (um ecossistema, realmente) para computação distribuída e processamento de dados em grande escala. A maioria (mas não…
A importância de MapReduce no Hadoop Para a maioria da história do Hadoop, MapReduce tem sido o único jogo na cidade quando se trata de processamento de dados. A disponibilidade de MapReduce tem sido a razão para o sucesso do Hadoop e, ao mesmo tempo, um fator importante em limitar…
O fluxo do aplicativo MapReduce no Hadoop Na sua essência, MapReduce é um modelo de programação para o processamento de conjuntos de dados que são armazenados de forma distribuída entre nós escravos de um cluster do Hadoop. O conceito chave aqui é dividir e conquistar.…
A arquitetura Pig in Hadoop # 147 Simples # 148- muitas vezes significa # 147 elegante # 148- quando se trata de esses desenhos de arquitectura para que a nova mansão do Vale do Silício que tenha planeado para quando o dinheiro começa a rolar após a implementação Hadoop.…
Como usar o Apache Hadoop para análise preditiva Apache Hadoop é uma plataforma de software livre, open-source para escrever e executar aplicações que processam uma grande quantidade de dados para análise preditiva. Ele permite um processamento paralelo distribuído de grandes conjuntos de…
Porque você deve usar o Hadoop para Big Data? inovadores de motores de busca como Yahoo! e Google foram confrontados com um problema de dados pântano. Eles precisavam encontrar uma maneira de fazer sentido das enormes quantidades de dados que seus motores estavam coletando. Estas empresas…