quinta-feira, 28 de janeiro de 2016

Instalando Hadoop

Recentemente tive que instalar o Hadoop para um projeto de computação. O Hadoop é uma plataforma de software em Java de computação distribuída voltada para clusters e processamento de grandes massas de dados desenvolvida pelo Apache.

Hadoop possui diversos módulos. Hadoop Common contém as bibliotecas e arquivos comuns utiizados pelos outros os módulos Hadoop. Neste exemplo utilizaremos um sistema de arquivos distribuído que armazena dados em máquinas dentro do cluster, sob demanda, denominado Hadoop Distributed File System ou HDFS.

Hadoop fornece uma plataforma de gerenciamento de recursos responsável pelo gerenciamento dos recursos computacionais do cluster e pelo agendamento dos recursos, denominado Hadoop Yarn. O framework YARN no Hadoop permite utilizar o MapReduce para processsamento de grandes quantidades de dados.

A documentação do Hadoop pode ser achada aqui.

No nosso exemplo fazemos a instalação de 3 máquinas virtuais: uma computador mestre e dois escravos.