Aumento de núcleos nos processadores serve enfoque nos dados

O fenómeno Big Data centra o modelo das TI no valor dos dados, retirando importância à capacidade de computação defende Elie Simon, vice-presidente da divisão de computação de dados da EMC, para a EMEA.

Na visão de Elie Simon, o aumento dos núcleos nos processadores serve o modelo de TI centrado nos dados e no seu valor. O vice-presidente da divisão de computação de dados da EMC, para a EMEA, diz que o conhecimento extraído de grandes volumes de dados que marcam o Big Data, servirá tanto para detectar tendências como para criá-las. Assim, esse fenómeno de grande afluência de dados (a maioria não estruturados) vai retirar importância ao poder de computação. O acréscimo de núcleos serve esta evolução aos permitir associar bases de dados a cada um desses componentes.
CW – Teve algumas reuniões aqui em Portugal. Pode explicar em que consistiram?
Elie Simon –
Ao longo da minha carreira já se fizeram coisas muito inovadoras aqui, e quando se cria qualquer coisa de disruptivo, procuro tomar atenção. E é isso que está acontecer actualmente. Temos clientes aqui que inovaram na forma como usaram a nossa tecnologia de análise de dados e na forma como está a ser disponibilizada a informação.
CW – Em que sectores, especificamente?
ES –
Estamos a falar de projectos no sector financeiro, nas telecomunicações e nas utilities. Está, no fundo, em linha com a nossa aceitação no mundo inteiro.  São pioneiros na adopção de tecnologia para enfrentar o fenómeno Big Data. Precisam de extrair conhecimento a partir dos dados, e descobrir novas áreas de ganhos de eficiência e rentabilidade.
CW – Estamos a falar de projectos de Big Data?
ES –
Sim. Grandes ou pequenos, são dados valiosos. Estamos a falar também de valorização da informação. Com o Big Data o conhecimento que se procura, serve tanto para criar uma tendência, como para detectá-la.
Temos soluções de análise de media social, capazes de captar quase em tempo real as reacções de uma campanha. E isso permite afiná-la em conformidade. Servem até para perceber quem são os clientes mais passíveis de mudarem de fornecedor.
CW – E com que tecnologia faz a Greenplum isso?
ES –
A nossa aplicação corre numa base de dados, a Greenplum começou como base de dados mas agora tornou-se numa plataforma para análise de Big Data. Depois usamos a Hadoop para os dados não estruturados, e hardware de suporte.
CW – Mas para se justificar a aposta na Hadoop, é necessário aplicá-la a um volume de dados bastante grande, não é?
ES –
É uma boa questão. O Big Data varia entre as empresas. Para uns são petabytes e para outras muito mais. A Hadoop funciona melhor com dados não estruturados e estará por todo o lado. Uma seguradora há-de querer adicionar imagens aos ficheiros dos processos. Nas telecomunicações os novos serviços deverão incluir video-mail. Porque não o temos já. Por ser impossível de gerir. Mas daqui a um ano, já haverá essa possibilidade, com o potencial da publicidade geo-localizada associado.
CW – Os projectos em Portugal são suficientemente grandes para justificar essa adopção?
ES –
Quando o datawarehouse era proprietário, era tão caro, que o investimento por terabyte não era viável para todas as empresas. Portanto essa pergunta fazia sentido. Hoje há empresas como a Greenplum que fizeram os preços cair drasticamente, ao integrarem hardware normalizado na solução. A paisagem mudou totalmente.
CW – Em que medida?
ES –
Quem ainda não consegue pagar, pode recorrer a  um grupo de prestadores de serviço. A Big Data será a tendência na qual a computação de dados provavelmente ganhará importância sobre o poder de computação.
O mais importante são os dados em si, o seu valor, em vez das CPU.
CW – O poder de computação é mesmo suficiente? O sector das TI continua a tentar desenvolver maior capacidade de computação, por exemplo.
ES –
Sim, já satisfaz. O que estão a fazer é a aumentar o número de núcleos dentro do chip. E isso serve o modelo centrado nos dados.
CW – Como?
ES –
Permitindo a associação de uma base de dados a cada núcleo, e o aumento de escala dos sistemas. Ganha importância, o número de núcleos e a quantidade potencial de segmentos que se podem acrescentar uns ao lado dos outros.
O mundo das transacções está praticamente dominado. Não há grandes ganhos a acrescentar-lhe.
CW – Então a computação “in memory” será mais importante?
ES –
Sim, absolutamente.
CW – Mas ainda é muito cara.
ES –
Sim, mas também é uma questão de volume. Antes o modelo típico de BI passava por ter a informação vinda de várias fontes para uma ETL, a qual depois enviava tudo para uma base de dados. Depois uma ferramenta extraía a informação, fazia o processamento, colocava tudo na base de dados outra vez.
Agora a arquitectura que se prepara pressupõe a análise dentro da base de dados. Tudo o que tiver a ver com análise online, com autenticação em tempo real, antecipação e prevenção de fraude, análise de média social, são aplicações chave com as quais as empresas estão a ganhar uma nova vaga de produtividade.
CW – E em termos de hardware de armazenamento que arquitectura se pressupõe?
ES –
Numa  arquitectura com  SSD temos desempenhos de “in memory” maiores em termos de volume de saída. Mas por outro lado, há limitações de expansão na entrada e saída de dados. Na forma como se arquitecta o sistema, por vezes será útil colocar drives SSD, mas na maioria das vezes é bom colocar discos rígidos.
Na nossa arquitectura de base de dados, MPP (Massive Paralel Processing) concebida de raiz para BI, usamos sistemas e o modelo Direct Attached Storage (DAS) portanto o canal de entrada e saída de dados está aberto. O mais importante passa a ser o switching.
CW – O que acha da tecnologia HANA da SAP?
ES –
É uma arquitectura interessante. Mas vejo-a como base instalada da SAP. Como plataforma de análise falta-lhe maturidade. É um bom módulo.
CW – Um dos grandes desafios de BI é fornecer os dados certos aos utilizadores que interessam. Como é que lidam com esse desafio?
ES –
A visão da Greenplum é disponibilizar uma plataforma unificada de análise. É constituída pela base de dados Greenplum, e inclui a Hadoop, a camada de hardware depois a camada de “queries” e de acesso aos dados.
Tem as aplicações de análise da SAS, e depois uma camada de virtualização de infra-estrutura a que chamamos Chorus. Traz os data marts e a capacidade de os utilizadores os provisionarem rapidamente. E isso é muito importante porque a maior parte dos dados (80%) não estão nos datawarehouses, mas sim nos data marts.
CW – E essa arquitectura ajuda como?
ES –
Permite que o departamento de TI faça a gestão do cluster, possibilita às funções como o marketing, suportarem o self service. Suporta a constituição de um data mart a partir de uma porção do cluster de informação, a execução
de campanhas de marketing nas quais se misturam dados com a informação obtida das reacções nos media sociais. Operacionaliza toda a criação uma campanha de marketing online, captação de dados, e depois no fim do ano o fecho e restauro do data mart, no cluster de informação. E com esta arquitectura o departamento de TI pode evitar mais facilmente a duplicação de dados.
CW – Como estão a lidar com a tendência para os projectos de desenvolvimento ágil de plataformas de BI?
ES
– Essa abordagem tem a ver com o efeito iPad: quando se compra um sabe-se que haverá sempre uma aplicação útil na Appstore. Estamos a tentar fazer o mesmo: temos o programa Catalytics para disponibilizar um conjunto de aplicações analíticas de nicho e para medias sociais, entre outros. Depois teremos outras ferramentas, como as do SAS.
CW – Com a nova geração de ferramentas de análise de dados, alguns fabricantes dizem que as plataformas  fornecerão mais facilmente respostas, sem ser necessário construir modelos complexos de questionamento. Será mesmo assim?
ES –
A questão tem uma resposta com muitas camadas. A primeira é que a plataforma ajuda o cientista de dados a lidar com a complexidade, mas ele é sempre necessário.
Por outro lado, deixa de ser preciso escrever um modelo sofisticado. Há um princípio sobre Big Data, segundo o qual, quanto maior é o volume de dados, mais simples será o modelo. Existe maior ciência em extrair dados a partir de três meses de dados, por se ter muitos de dados.
A terceira camada tem a ver com o facto de a ciência de análise preditiva estar hoje mais desenvolvida e rápida. E quem trabalha com dados está mais ciente do modus operandi deste tipo de análise, e começa a colocar mais questões de análise preditiva. Porque agora conseguem obter a respostas.
CW – O facto de a Greenplum dar tanto suporte à Hadoop, não atrapalha as vossas relações com os parceiros?
ES –
A Hadoop é uma realidade e é preciso enfrentá-la. Nos próximos dez anos, 70 % dos dados serão não estruturados. E essa plataforma tem uma arquitectura muito particular preparada para se adequar bem aos dados não estruturados.
No entanto, tem muitas falhas e precisa de uma versão empresarial como aquela que estamos a providenciar. É um ponto de partida de baixo custo.




Deixe um comentário

O seu email não será publicado