kie-tec - Knowledge, Innovation & Excellence in Technology

Big Data e o Ecossistema Hadoop

HomeNotíciasBig Data e o Ecossistema Hadoop

Para muitos temas é difícil identificar um começo, na medida em que novas técnicas são sempre decorrentes de outras. E isso é bem verdade para a tecnologia da informação. Mas mesmo assim, é possível identificar o ano de 2004 como um grande passo para o avanço do Big Data, pois foi o ano em que a empresa Google estruturou o MapReduce. No ano seguinte, a empresa Yahoo lançou um código aberto denominado Haddop, e na sequência outras ferramentas open-source foram lançadas para a comunidade. Atualmente existem mais de uma centena de projetos de códigos abertos para Big Data que complementam o Hadoop, como consultas SQL, por exemplo.

A base do Hadoop um componente denominado HDFS, do inglês Hadoop Distributed File System (HDFS), que é a base para muitas estruturas de dados. A grande vantagem é que, além da sua confiabilidade, ele é escalável, ou seja, ele permite incorporar hardwares à medida que o volume de dados aumenta.

O Hadoop Yarn, que se conecta com o HDFS, permite gerenciar recursos por meio de clusters, bem como seu agendamento. O MapReduce simplifica a computação paralela, permitindo o mapeamento e a redução. Existem outros recursos que se assentam sobre o HDFS, geralmente recebendo o nome de animais, por isso a denominação Ecossistema.

Resumidamente, o Ecossistema Hadoop consiste de um grande número de componentes de livre acesso, propiciando ferramentas para uma melhor performance de análise e interpretação de dados a baixo custo.

Escrito por

Rodolfo Coelho Prates é Doutor em Economia pela Universidade de São Paulo. É professor visitante do Middlebury College - EUA, especialista em Big Data pela Universidade da Califórnia (San Diego) e atua na área de modelos matemáticos e estatísticos.

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *