O Data Hub diferencia-se por deixar os dados onde se encontram, centralizando apenas o processamento, não o armazenamento.

Irfan Khan, director-geral da SAP para bases de dados
Os datawarehouses satisfazem mais os profissionais obcecados com a arrumação dos dados, enquanto os “data lakes” seduzem quem gosta de e os acumular quase sem critério. Mas eis que a SAP propõe uma nova camada de software, o Data Hub, para abranger todos os repositórios de dados de uma empresa, sem centralizar o armazenamento.
Funciona como uma nova ferramenta de gestão de destinada a processar apenas os dados que a empresa precisa, a partir de buscas ligadas ao repositório onde são criados e armazenados. Sem exigir que se transfira tudo para um sítio.
Os cientistas de dados serão capazes de usá-lo para analisar dados de múltiplas fontes e sistemas, diz a SAP. “O Data Hub é uma camada [de software] de gestão de dados que permite a integração, processamento e governação sobre os dados”, afirmou Irfan Khan, líder global da SAP para as vendas de base de dados e ferramentas de gestão de dados.
A plataforma “permite olhar para todos os dados que uma empresa possui e aceder a todas as informações”. Mas “não procura centralizar todos esses dados em num “data lake“, pois só capta os dados e aceder aos elementos necessários exactamente onde residem “, explicou Khan, ainda antes do lançamento do produto na última segunda-feira.
Embora o conceito de um “hub” ou agregador de dados já exista no mercado há algum tempo, a SAP está a usar a ideia de uma forma diferente. Enquanto outras propostas baseadas no MapR ou Cloudera, importando todos os dados para um “cluster” ou agrupamento de sistemas com Hadoop ou outro repositório central, antes do processamento, a oferta da SAP mantém os dados na área em que estão até serem necessários.
“Não é preciso usar o processamento ETL da SAP, pode-se usar tecnologia da Informatica, ” ou talvez o software open source Kafka, exemplificou Irfan Khan (SAP).
Isso será feito através da criação de “pipelines” ou “condutas” de dados – fluxos de dados que são compostos por operações re-utilizáveis e configuráveis para processar dados extraídos de uma variedade de fontes, incluindo ficheiros CSV, API de web services e serviços de cloud nuvem comerciais, bem como de repositórios de dados de tecnologia SAP. As operações podem ser conectores para diferentes sistemas de ficheiros ou API, análises ou bibliotecas de aprendizagem automática, de tecnologia TensorFlow, ou tarefas codificadas.
A SAP fornece uma ferramenta gráfica para modelar fluxos de trabalho e as condutas e uma camada de orquestração para invocar tarefas e reiniciar ou revertê-las em caso de falha. Isso pode substituir os sistemas de agendamento de fluxos de trabalho, como o Apache Oozie, diz Khan.
A execução da “pipeline” pode ser implantada noutras plataformas, acrescenta, como o motor de computação Vora da SAP.
O Data Hub não precisa que uma empresa tenha desenvolvido os seus sistemas em torno de tecnologia SAP para funcionar: também pode ser integrado com produtos de terceiros, garantiu. “Não é preciso usar o processamento ETL da SAP, pode-se usar tecnologia da Informatica, ” ou talvez o software open source Kafka, exemplificou.
Preço depende de nós de computação e outros factores
O software já está disponível, mas o seu preço dependerá de vários factores. O custo vai basear-se no total de sistemas e nós de computação geridos pelo Data Hub, de acordo com um porta-voz da SAP. Requer também uma licença de base de dados, Hana.
Mas os clientes com licenças de Hana podem recorrer a esse vínculos, se tiverem capacidade suficiente. As empresas que precisarem podem comprar uma pequena quantidade de capacidade Hana de modo a suportar as necessidades inerentes à actividade com o Data Hub.