Correndo modelos estatísticos no MapReduce do Hadoop

Convertendo modelos estatísticos para executar em paralelo é uma tarefa desafiadora. No paradigma tradicional para a programação paralela, o acesso à memória é regulado através do uso de tópicos - sub-processos criados pelo sistema operacional para distribuir uma única memória compartilhada por vários processadores.

Fatores como condições de corrida entre threads concorrentes - quando duas ou mais threads tentar alterar dados compartilhados ao mesmo tempo - podem influenciar o desempenho de seu algoritmo, bem como afetar a precisão dos resultados estatísticos seus resultados do programa - especialmente para longo execução de análises de grandes conjuntos de amostras.

Uma abordagem pragmática para este problema é assumir que não muitos estatísticos vai saber os prós e contras de MapReduce (e vice-versa), nem se pode esperar que eles vão estar ciente de todas as armadilhas que a programação paralela implica. Contribuíram para o projeto Hadoop tem (e continuar a desenvolver) ferramentas estatísticas com estas realidades em mente.

O resultado: Hadoop oferece muitas soluções para implementar os algoritmos necessários para fazer a modelagem e análise estatística, sem sobrecarregar o estatístico com as considerações de programação paralela nuances.

menu