Configuração do ambiente Hadoop com Apache Bigtop

Se você é confortável trabalhar com VMs e Linux, sinta-se livre para instalar Bigtop em uma VM diferente do que é recomendado. Se você for realmente corajoso e ter o hardware, vá em frente e tente instalar Bigtop em um cluster de máquinas no modo totalmente distribuído!

Passo 1: Transferir uma VM

Hadoop é executado em todas as distribuições Linux populares, então você precisa de uma VM Linux. Há um livremente disponível (e legal!) imagem CentOS 6 disponível.

Você vai precisar de um sistema operacional de 64 bits em seu laptop, a fim de executar este VM. Hadoop precisa de um ambiente de 64 bits.

Depois de ter baixado o VM, extraí-lo a partir do arquivo ZIP baixado para o diretório de destino. Do garantir que você tem em torno de 50 GB de espaço disponível como Hadoop e seus dados de amostra vai precisar dele.

Se você ainda não tem um jogador VM, você pode fazer o download gratuitamente.

Depois de ter o seu leitor VM configurado, abra o jogador, vá em File-Open, em seguida, vá para o diretório onde você extraiu o Linux VM. Procure um arquivo chamado e selecioná-lo. Você verá informações sobre quantos processadores ea quantidade de memória que irá utilizar. Descobrir quanta memória o computador tiver, e alocar metade do que para o VM de usar. Hadoop precisa de muita memória.

Assim que estiver pronto, clique no botão Play, e sua instância Linux será iniciado. Você vai ver muitas mensagens de voar como o Linux está sendo inicializado e você chegará a uma tela de login. O nome de usuário já está definido para # 147-Tom. # 148- Especifique a senha como # 147-TomTom # 148- e log in.

Passo 2: Transferir Bigtop

De dentro do seu Linux VM, direito, clique na tela e selecione Abrir no Terminal a partir do menu contextual que aparece. Isso abre um terminal Linux, onde você pode executar comandos. Clique dentro do terminal para que você pode ver o cursor piscando e digite o seguinte comando: su -

Você será solicitado para sua senha, então digite # 147-TomTom # 148- como você fez antes. Este comando muda o usuário root, que é a conta principal de um computador Linux - você vai precisar disso, a fim de instalar o Hadoop.

Com o seu acesso root (não deixe o poder chegar a sua cabeça), execute o seguinte comando:

wget -O /etc/yum.repos.d/bigtop.repo 
https://apache.org/dist/bigtop/bigtop-
0.7.0 / repos / centos6 / bigtop.repo

O comando é essencialmente uma solicitação da web, que solicita um ficheiro específico, na URL que você pode ver e escreve-o para um caminho específico - neste caso, isso é /.

Passo 3: Instalar Bigtop

Os gênios por trás de Linux têm feito a vida muito fácil para as pessoas que precisam instalar pacotes de software grandes como Hadoop. O que você baixou na última etapa não foi todo o pacote Bigtop e todas as suas dependências. Foi apenas um arquivo de repositório (Com a extensão), que conta um programa de instalação que pacotes de software são necessários para a instalação Bigtop.

Como qualquer produto de software grande, Hadoop tem muitos pré-requisitos, mas você não precisa se preocupar. Um arquivo bem concebido irá apontar para quaisquer dependências, eo instalador é suficientemente inteligente para ver se eles estão faltando no seu computador e faça o download e instalá-los.

O instalador que você está usando aqui é chamado yum, que você começa a ver em ação agora:

yum install hadoop * mahout * Oozie * hbase * hive * matiz * porco * tratador *

Observe que você está escolhendo e escolhendo os componentes do Hadoop para instalar. Há uma série de outros componentes disponíveis no Bigtop, mas estes são os únicos que você vai usar aqui. Uma vez que a VM é uma nova instalação Linux, você vai precisar de muitas dependências, assim você terá que esperar um pouco.

O instalador yum é bastante detalhado, assim você pode assistir exatamente o que está sendo baixados e instalados para passar o tempo. Quando o processo de instalação é feito, você deve ver uma mensagem que diz # 147-Complete # 148!;

Passo 4: Começando Hadoop

Antes de iniciar a execução de aplicativos em Hadoop, existem algumas configuração e instalação coisas básicas que você precisa fazer. Aqui eles estão em ordem:

  1. Faça o download e instalar o Java:

    yum install java-1.7.0-openjdk-devel.x86_64
  2. Formate a NameNode:

    sudo /etc/init.d/hadoop-hdfs-namenode o init
  3. Inicie os serviços do Hadoop para o cluster pseudodistributed:

    for i in Hadoop-hdfs-namenode Hadoop-hdfs-DataNode - fazer o serviço sudo $ i começar - done
  4. Criar uma estrutura de sub-directório no HDFS:

    sudo /usr/lib/hadoop/libexec/init-hdfs.sh
  5. Inicie os daemons FIO:

serviço sudo hadoop-fios ResourceManager início do serviço startsudo hadoop-fios NodeManager

E com isso, você está feito. Parabéns! Você instalou uma implantação Hadoop trabalhar!

Passo 5: Fazendo o download do conjunto de dados de amostra

Para baixar o conjunto de dados de exemplo, abra o navegador Firefox dentro da VM, e ir para o A página dataexpo.

Você não vai precisar de todo o conjunto de dados, assim que começar com um único ano, 1987. Quando você vai baixar, selecione a opção Abrir Archive Manager com.

Após o arquivo foi baixado, extraia o arquivo em seu diretório pessoal, onde você facilmente ser capaz de encontrá-lo. Clique no botão Extract, e, em seguida, selecione o diretório Desktop.

Passo 6: copiar os dados da amostra definida no HDFS

Lembre-se que seus programas Hadoop só pode trabalhar com dados depois que ele é armazenado no HDFS. Então, o que você vai fazer agora é copiar o arquivo de dados de voo para 1987 no HDFS. Digite o seguinte comando:

hdfs dfs -copyFromLocal 1987.csv / user / root

menu