Um dos principais princípios de uma malha de dados é o autosserviço. Leia como encontrar a infraestrutura ideal para a mesma.

Os requisitos para uma plataforma de autosserviço são principalmente a facilidade de utilização e um conjunto comum de ferramentas que podem ser utilizadas eficientemente em todos os departamentos. É importante que nenhuma solução de nicho possa ser utilizada numa boa configuração da malha de dados (data mesh), porque os princípios DATSIS para a qualidade dos dados definidos por Zhamak Dehghani já exigem muito esforço por parte dos departamentos e da equipa central de dados. Os encargos adicionais através da manutenção e cuidado de soluções individuais não são, portanto, aconselháveis.
Aprenda nesta série de quatro tópicos como funciona o novo conceito de malha de dados e que problemas de dados resolve. A série foi escrita pela Snowflake, uma empresa de software como um serviço baseado na cloud dos EUA.
O que uma plataforma de malha de dados deve cumprir
Quando se trata de ferramentas e recursos que são absolutamente necessários para o sucesso da descentralização, as organizações devem ter em mente o ciclo de vida do produto de um produto de dados: As unidades de negócio devem ter acesso a ferramentas que ajudem a criar, entregar e utilizar produtos de dados em todas as fases do ciclo – desde o acesso aos dados certos, ao seu processamento e preparação, à sua análise, construção de modelos e entrega de produtos de dados aos utilizadores em toda a empresa.
Uma poderosa plataforma de autosserviço deve proporcionar um desempenho elástico para que os utilizadores empresariais possam aceder a diferentes aplicações em simultâneo – mesmo que sejam computacionalmente intensivas. Estes incluem condutas de dados completas, exploração ad-hoc, relatórios BI, engenharia de características e aplicações interativas. Com uma plataforma tão poderosa, a arquitetura na empresa pode ser simplificada sem perder velocidade ou flexibilidade. Quer as equipas trabalhem com SQL, código (por exemplo, Java, Scala ou Python) ou uma mistura destes, a plataforma de autosserviço deve suportar todos igualmente.
Com a explosão na variedade e tamanho dos dados, uma plataforma deve ser capaz de acomodar grandes quantidades de dados em diferentes formatos. Os dados devem poder provir de diferentes fontes e ser acedidos como produtos por diferentes utilizadores. A plataforma deve também ser suficientemente flexível para permitir que certos dados sejam utilizados e disponibilizados ao mesmo tempo. Esta flexibilidade ou abertura, que permite a uma plataforma interagir com o resto do ecossistema da empresa, não tem necessariamente de ser uma fonte aberta.
Produtos de dados como quanta arquitetónica
Com as características acima referidas de uma plataforma em vigor, as unidades de negócio são capazes de estabelecer um pipeline de produtos com o qual ingerir, processar e entregar produtos de dados. No entanto, antes de passar aos próprios produtos de dados, o acesso aos dados é essencial. A cloud de dados da Snowflake assegura assim que todos os departamentos e equipas centrais de dados tenham sempre acesso a todos os dados relevantes, sem ficarem presos em silos ou estruturas complexas.
Para o conseguir, a cloud de dados baseia-se na Plataforma Snowflake, que representa um desempenho escalável, facilidade de utilização, troca de dados regulada e colaboração através da sua capacidade de cloud. A plataforma é ideal para apoiar tanto as normas centralizadas como a propriedade descentralizada de dados – ambas essenciais para o sucesso da implantação da malha de dados.
Implementação de alto nível
A implementação de uma malha de dados em floco de neve pode ser baseada em diferentes topologias: Os departamentos ou domínios podem basear-se em contas e utilizar as características seguras de partilha de dados para dividir silos, trabalhar entre regiões e nuvens com uma única cópia dos dados. Os departamentos ou domínios podem alternativamente basear-se em bases de dados ou esquemas e utilizar catálogos externos, tais como os da Collibra, para tornar os produtos descobertos e acessíveis.
Em qualquer dos casos, o Snowflake pode fornecer recursos independentes aos departamentos para carregar e processar os seus produtos de dados e listá-los num catálogo de terceiros utilizando armazéns virtuais. Estes produtos podem então ser partilhados e utilizados através da partilha de dados dentro da conta ou base de dados.
Desafios de implementação
Se não forem escolhidos os instrumentos e infraestruturas adequados, os benefícios de uma malha de dados podem ser limitados. A complexidade adicional abranda a criação de valor e aumenta os custos. Plataformas SaaS como o Floco de Neve eliminam esta complexidade e dependência da perícia. O aprovisionamento e a gestão dos recursos do Floco de Neve podem ser totalmente automatizados, com infraestruturas como código com os mais altos níveis de segurança e governação, interoperáveis com qualquer cloud pública.
A fase seguinte é abstrair a complexidade dos fluxos de trabalho de dados. O Floco de Neve também pode ajudar aqui através da automatização dos fluxos de trabalho de dados – facilitando às unidades de negócio a utilização dos seus dados como produtos e a integração direta com as ferramentas disponíveis. Outras ferramentas importantes que devem fazer parte de uma arquitetura de malha de dados são a ingestão, bem como a automatização em grande escala, a aprendizagem de máquinas e tecnologias relacionadas.
Em resumo, uma plataforma adequada para a arquitetura da malha de dados deve ter as seguintes características: deve fornecer potência computacional escalável, ser capaz de ser utilizada independentemente da localização, ser capaz de tornar todos os dados na empresa acessíveis e também ajudar a realizar a abordagem “dados como produto”, sendo capaz de criar condutas de produtos e fornecer todas as ferramentas necessárias para utilizar, processar e controlar dados, bem como para assegurar a governação central e a segurança dos dados.