Os Petabytes são os novos Terabytes

O armazenamento de dados tornou-se uma área crítica não apenas para os departamentos de TI, mas para toda a sociedade. O crescimento exponencial dos dados que percorre o planeta é um dos poucos desafios tecnológicos atuais que ainda precisam de ser resolvidos. Mas essa “explosão de dados” apanhou de surpresa as tecnologias que prevalecem no atual cenário tecnológico, já que os custos derivados de enfrentar esta situação através de sucessivas ampliações, atualizações ou substituições do hardware são simplesmente inaceitáveis.

Por Israel Serrano | INFINIDAT Iberia

Analisando a situação, é possível estabelecer um paralelo com outro fenómeno para o qual também foi necessário encontrar uma solução: o problema da escassez de água na África do Sul. Falamos de um déficit de um bilião de metros cúbicos por ano entre 2015 e 2018 e 60 milhões de pessoas em risco. O pensamento convencional diz que, numa situação como esta, é lógico aumentar a oferta, isto é, aumentar a produção de água. E é isso que tem sido feito, por exemplo, com a colocação em funcionamento de dispendiosas unidades de dessalinização, que, no entanto, só colmataram 2% deste déficit.

Após anos de respostas ineficazes, algumas localidades do país adotaram uma nova abordagem, focada não tanto em aumentar a produção de água, mas em tornar a gestão da água (e a própria água) mais eficiente. Um bom exemplo pode ser a agricultura de precisão, um programa lançado pelo especialista em tecnologia da Farming Senwes juntamente com a Infinidat e a John Deere, que consiste num grande número de centros de IoT que transferem dados de telemetria sobre a saúde de plantas, as condições do solo, etc. Esses dados são analisados ​​e são gerados sinais de controlo que permitem que as equipas intervenham imediatamente onde e quando falta água ou fertilizante. Os resultados foram surpreendentes: uma redução de até 40% no custo da água e dos fertilizantes, com impacto zero no desempenho.

Voltando ao campo da tecnologia, com efeito, a estratégia de aumentar o desempenho e a capacidade escalando o hardware, que tem sido a tónica geral enquanto os dados eram contados em Terabytes, é completamente inaplicável aos volumes atuais e futuros, agora que são medidos em petabytes, porque faz com que os custos disparem. É, por isso, necessária uma nova abordagem que, assim como na luta contra a escassez de água, se concentre em melhorar a eficiência da gestão de dados (e dos dados em si) através de um modelo definido por software, com técnicas como machine learning ou inteligência artificial.

Mas, além de serem muito mais rápidos e capazes de lidar com grandes volumes de dados, esses sistemas devem ser económicos, para aplicar esta tecnologia em países como a África do Sul (onde o rendimento médio em algumas partes do país é um terço da média da OCDE), que não conseguem suportar modelos de preços como os aplicados na América do Norte ou na Europa.

Fundamentos tecnológicos

Até agora, quando uma infraestrutura de armazenamento empresarial precisava de ser melhorada ou ampliada, a abordagem era similar à de um PC standard: se era preciso adicionar armazenamento de baixo custo, simplesmente acrescentava-se uma unidade de disco ou um SSD; se era necessária mais velocidade, mudava-se para NVMe … Mas este modelo, que funcionou muito bem na escala Terabyte, torna-se extremamente caro na era dos Petabytes. Falamos de adicionar discos para aumentar apenas um, dois ou cinco Terabytes; agora imaginem onde chegaríamos com este modelo se tivermos que armazenar 4 ou 5 Petabytes.

Para resolver esse problema, os esforços de I&D das empresas, em vez de se focar em hardware Premium, que obrigatoriamente tem que ser unido e configurado com software, terão que apostar na utilização de software mais inteligente e na sua utilização com hardware de propósito geral. Isto é possível dotando um sistema com um cérebro, um núcleo onde se mantém uma memória de todo o que nele foi escrito, desde o nascimento dos dados e ao longo da sua vida, até ao presente. Com esta abordagem, os metadados são armazenados numa estrutura especial que permite duas coisas: primeiro, manter um índice e rastrear os dados; e segundo, que a memória seja a história de tudo que o sistema de armazenamento viu até ao momento. O sistema que lida com tudo isto é chamado de cache neural, e é um algoritmo de machine learning que processa esta história onde está tudo o que o sistema de armazenamento já viu no passado e usa esses dados para prever o futuro.

Para explicá-lo de uma forma mais gráfica, seria como falar de um iceberg: há uma pequena parte dos dados na superfície (dados hot, localizados em unidades de memória RAM, e dados warm, localizados em unidades Flash); e, submergida, uma quantidade enorme (Petabytes) de dados cold, com uma baixa probabilidade de utilização e que estaria numa plataforma de armazenamento de custo muito reduzido. Tudo isto permite, além de todas as demais vantagens, aplicar um modelo de preços realmente competitivo, próximo do custo de um disco padrão, mas que, em conjunto, resulta numa cache RAM multi-Petabyte.

Inteligência coletiva

Além disso, para que os sistemas do futuro sejam verdadeiramente inteligentes, devem ser criadas inteligências coletivas que o permitam, com o algoritmo da cache neural a usar tudo o que aprende para melhorar o desempenho de gerações sucessivas de si mesmo. O sistema torna-se parte da inteligência coletiva e, assim, mais inteligente com o passar do tempo.

Um bom exemplo de tudo isto é o caso de um dos principais retalhistas nos Estados Unidos. A empresa gere um total de 1,5 Petabytes de dados, executando continuamente workloads em produção que incluem, é claro, o site de e-commerce, o sistema ERP e as ferramentas analíticas. Durante o período entre a Black Friday e a Cyber ​​Monday no ano passado – os dias de compras mais intensos do ano – 98% das leituras e 100% das escritas ficaram a cargo da DRAM.

Em última análise, o futuro é marcado pela transformação digital, e isso, por sua vez, requer o tratamento de volumes de dados sem precedentes. Os Petabytes são os novos Terabytes. As empresas devem aumentar sua vantagem competitiva com base nos dados, e a escolha de uma infraestrutura de armazenamento moderna, que cresce e aprende, numa escala de vários petabytes, é uma decisão crítica no presente que afetará decisivamente o futuro.




Deixe um comentário

O seu email não será publicado