11 segredos obscuros da gestão de dados

Uma estratégia sólida de gestão de dados é obrigatória se se quiser desbloquear o valor dos dados. No entanto, o caminho para a tomada de decisões baseada em dados está pavimentado com inúmeras questões.

Por Peter Wayner

Alguns chamam aos dados “o novo petróleo”, outros preferem o termo “novo ouro”. Filósofos e economistas podem argumentar sobre a qualidade desta metáfora. No entanto, não há dúvida de que a organização e análise de dados é essencial para os processos de tomada de decisão baseados em dados. A chave para isto, por sua vez, reside numa sólida estratégia de gestão de dados.

Ao fazê-lo, muitas empresas atingem regularmente os seus limites – seja devido a desafios práticos, filosóficos ou regulamentares. Identificámos 11 segredos obscuros de gestão de dados.

1. Não estruturado é difícil de analisar

Grande parte dos dados armazenados nos arquivos das empresas não está estruturada. Digamos que trabalha num banco e quer usar a IA para peneirar as notas de texto dos funcionários dos centros de atendimento telefónico para obter conhecimentos que irão ajudar a melhorar a prestação de serviços.

Se estas notas fossem tomadas por muitos empregados diferentes, cada um deles teria provavelmente a sua própria ideia do que escrever e também um estilo ou habilidade de escrita diferente nessa área. Um texto em si não tem muita estrutura, mas uma pilha de textos acumulados por centenas ou milhares de funcionários ao longo de dezenas de anos pode tornar todo este exercício muito mais difícil.

2 Estruturado não é o mesmo que estrutura

Bons cientistas de dados e administradores de bases de dados controlam o tipo e a estrutura dos dados introduzidos em cada campo de base de dados. Por vezes limitam os valores num determinado campo a inteiros ou escolhas pré-definidas, para uma estrutura ainda melhor.

Mas mesmo assim, o pessoal que ocupa a base de dados encontra formas de causar problemas: Por vezes os campos são deixados em branco, são inseridos hífenes, ou são utilizadas abreviaturas de algum tipo. Os bons criadores podem apanhar alguns destes problemas através da validação, e os bons cientistas de dados podem também reduzir tais caprichos através da limpeza da base de dados. No entanto, mesmo as bases de dados quase perfeitamente estruturadas têm entradas questionáveis que podem ser uma porta de entrada para erros na análise de dados.

3. Extremos do esquema de dados

Por mais que as equipas de dados tentem formular restrições de esquemas, os esquemas resultantes para definir os valores nos vários campos de dados ou são demasiado rígidos ou demasiado soltos.

Se a equipa de dados impuser restrições rigorosas, os utilizadores queixam-se. Se, por outro lado, o esquema for demasiado laxista, os utilizadores podem acrescentar valores estranhos, errados ou inconsistentes. Obter tal esquema de dados exatamente correto é quase impossível.

4. As leis de dados são rigorosas

As leis de proteção de dados estão a tornar-se cada vez mais estritas. Regulamentos tais como o GDPR, HIPAA e uma dúzia de outros podem tornar muito mais difícil a recolha de dados. No entanto, torna-se ainda mais perigoso se os dados forem inadequadamente protegidos e roubados por hackers criminosos, por exemplo.

Dada a ameaça de multas, na maioria dos casos é muito mais barato investir em advogados, programadores ou cientistas de dados. Esta é uma das razões pelas quais algumas empresas dispõem dos seus dados assim que podem.

5 Custos de limpeza de dados

Muitos cientistas de dados podem atestar que 90% do seu trabalho é recolher dados, colocá-los numa forma consistente, e depois lidar com um ciclo infinito de erros.

“Está tudo num ficheiro CSV e pronto para ir” é uma frase que é pronunciada rapidamente. Infelizmente, isto ignora com demasiada frequência o número de dados incorretos ou em falta. Os dados de limpeza para utilização num projeto de ciência de dados podem facilmente levar dez vezes mais tempo do que uma simples análise estatística utilizando R ou Python.

6. Enfoque nas práticas de dados

Os utilizadores finais e consumidores estão a tornar-se cada vez mais desconfiados das práticas de gestão de dados das empresas. Isto é exacerbado pelo uso de algoritmos de IA: há incerteza entre muitas pessoas sobre o que está a acontecer com os seus dados.

Estes receios estão também a alimentar os esforços regulamentares e a colocar empresas e cientistas de dados na linha de fogo. Mas isso não é tudo: os utilizadores céticos podem também deturpar deliberadamente os valores quando recolhem dados.

7 Dados externos como uma bênção ou uma maldição

Uma coisa é que uma empresa assuma a responsabilidade pelos dados que recolhe. O departamento de TI e a equipa de ciência de dados têm controlo sobre ela. Contudo, cada vez mais empresas agressivas estão a encontrar formas de integrar as suas próprias informações com dados de terceiros e informações personalizadas a partir da Internet.

No processo, algumas ferramentas prometem aspirar dados sobre cada cliente de modo a criar dossiers personalizados em cada transação de compra. Não surpreendentemente, os clientes tornam-se temerosos e em pânico em tais casos.

8. Os reguladores estão atentos

Poucas pessoas sabem exatamente quando uma análise de dados inteligente atravessa uma linha. No entanto, quando o faz, os reguladores são frequentemente rápidos a intervir.

Num exemplo, as autoridades governamentais canadianas investigaram como algumas lojas de donuts localizavam os seus clientes que também faziam compras na concorrência: “A investigação revelou que o contrato de Tim Hortons com um fornecedor de serviços de localização de terceiros americano continha uma linguagem tão vaga e permissiva que a empresa teria sido autorizada a vender dados de localização “desidentificados” para os seus próprios fins”, lê-se no comunicado de imprensa relacionado. Quando se trata de dados pessoais, os reguladores estão particularmente atentos.

9. O esquema de dados não vale a pena

Na mente de muitos, um algoritmo engenhoso pode tornar tudo mais eficiente e rentável. Em alguns casos, isto pode até ser realizado – mas na maioria das vezes o preço é demasiado elevado. Cada vez mais consumidores – e mesmo empresas – questionam cada vez mais o valor do marketing direcionado.

Por exemplo, os utilizadores estão a ver anúncios de algo que compraram há muito tempo e outras “escaramuças”. As empresas precisam de estar preparadas para o facto de que a ciência dos dados pode levar a respostas inaceitáveis.

10. O próprio julgamento de dados

Os números podem ser muito precisos, mas depende sempre de como são interpretados. Apesar da análise de dados e da “magia da IA”, a maioria dos algoritmos precisa de tomar uma decisão sobre se um determinado valor está acima ou abaixo de um limiar. E estes valores são frequentemente baseados em pura arbitrariedade.

Para toda a ciência e matemática que podem ser aplicadas aos dados, existem mais áreas cinzentas em muitos processos “orientados por dados” do que se possa pensar. Isto pode significar que mesmo as empresas que investiram fortemente na gestão de dados acabam por tomar “decisões triviais”.

11 Os custos de armazenamento explodem

Não há dúvida: os discos rígidos estão a ficar mais espessos e o preço por terabyte está a cair. No entanto, os criadores estão a recolher bits mais rapidamente do que os preços podem cair. Os dispositivos IoT, por exemplo, estão constantemente a carregar dados e os utilizadores esperam poder utilizar essa informação. Entretanto, os responsáveis pela conformidade e os reguladores estão a exigir cada vez mais dados para futuras auditorias.

Uma coisa seria alguém olhar realmente para alguns dos pedaços, mas isso normalmente não é viável apenas em termos de tempo. A percentagem de dados que é efetivamente acedida de novo continua a diminuir. No entanto, o preço do armazenamento da cada vez maior quantidade de dados continua a subir.


Tags


Deixe um comentário

O seu email não será publicado