Após quase sete anos de desenvolvimento, a equipa da Apache Hadoop lançou a versão 1.0 da sua popular plataforma de análise de dados.
Depois de quase sete anos de desenvolvimento e ajustes, a plataforma Apache Hadoop, de análise de dados, está pronta para o mercado, anunciaram os programadores do software quarta-feira. A equipa de projecto lançou assim a versão 1.0 da aplicação.
“Os utilizadores podem confiar melhor que este lançamento será apoiado pela comunidade open-source”, disse o vice-presidente Arun Murthy, do projecto Apache Hadoop. “Não há mais confusão sobre que versão do Hadoop se deve usar para determinada finalidade”.
Três novas adições em especial, ajudaram sustentam pertinência de designar a versão como 1.0, explicou Murthy. Mas a segurança implantada de extremo a extremo da plataforma será a principal característica.
O Hadoop beneficia agora da segurança nas redes, garantida pelo suporte ao protocolo Kerberos de autenticação de rede. Como resultado, as empresas podem ter maior confiança na utilização de implantações Hadoop para dados confidenciais e pessoais.
A segunda característica merecedora de destaque sé a interface de programação webhdfs REST (Representational State Transfer Application Programming Interface) . Pode ser usada para interagir com a Hadoop usando tecnologias de Web fáceis de entender por administradores e programadores.
A Hadoop torna-se assim mais aplicável a maior um número de organizações. Finalmente, a actual versão é a primeira a correr o sistema HBase, o qual dá aos gestores uma estrutura familiar, de base de dados relacional, para armazenarem os seus dados.
O programador do Lucene, Doug Cutting, juntamente com Mike Cafarella, criaram a Hadoop em 2005 como uma implementação do algoritmo do Google MapReduce, uma técnica usada para análise de dados espalhados por vários servidores diferentes. Cutting viria mais tarde a trabalhar para a Yahoo, ajudando a empresa a usar a tecnologia nos seus serviços de busca.
Essa implantação acabou por ser distribuída por 40 mil servidores. A Hadoop tem sido apresentada como uma solução para lidar mais facilmente com o armazenamento e análise de elevados volumes de dados, ou seja como o fenómeno “Big Data“.
Embora tenha sido originalmente concebida para auxiliar os serviços de busca de grande porte, a tecnologia está, cada vez mais, a ganhar presença nas empresas, diz Murthy. Hoje o projecto tem pelo menos 35 editores de código, e centenas de outros contribuintes.
A utilização da Hadoop para análise de dados pode ser particularmente útil para volumes de dados demasiado grandes para bases de dados relacionais tradicionais. Ou então no caso de a organização recolher muitos dados, mas não saber ainda que análise é necessário fazer sobre os dados.
A JPMorgan Chase usa a tecnologia na detecção de fraudes e gestão de risco. A eBay está a usar a tecnologia para desenvolver um novo motor de busca para o seu serviço de leilões.
A tecnologia também tem tido um grande apoio comercial. As startups Cloudera, a Hortonworks (spin-off da Yahoo) e a MapR oferecem todas distribuições comerciais do software.
A IBM incorporou a Hadoop na sua plataforma de análise de dados InfoSphere BigInsights. E até a Microsoft tem uma cópia da Hadoop em execução no seu serviço de cloud computing, Windows Azure.