Se também já se perguntou como conseguir isto, a resposta reside nos dados sintéticos. Esta é uma fórmula para algoritmos de formação baseados na proteção da privacidade dos utilizadores.

Por Irene Iglesias Álvarez
Cada utilizador da Internet gera 1,7 MB de dados por segundo, em média, de acordo com a empresa de software DOMO. Mas nem todas as empresas podem consultá-los e utilizá-lo. Sem acesso a essa informação, pode ser difícil criar ferramentas que funcionem corretamente. É aqui que entram os dados sintéticos, por vezes substituindo dados reais para formar algoritmos de aprendizagem de máquinas e de inteligência artificial (IA). Uma fórmula adotada por cada vez mais criadores e engenheiros no setor das TI, a fim de proteger a privacidade dos utilizadores e reduzir o tempo necessário para disponibilizar dados anónimos e de qualidade. Deciframos, a partir de um artigo publicado pelo BBVA, um novo conceito com notoriedade, alcance e projeção futura.
O que são dados sintéticos?
Os dados sintéticos referem-se a qualquer informação criada artificialmente que não represente eventos ou objetos do mundo real, de acordo com o banco. “O conceito de dados sintéticos não é de todo novo, este tipo de dados artificiais foi construído durante anos”, diz Mario Bricio, cofundador da empresa de IA Dedomena. São atualmente utilizados, por exemplo, para treinar veículos autónomos, desenvolver dispositivos médicos ou detetar fraudes. Normalmente, são utilizados em duas situações: quando os modelos se baseiam em informações pessoais ou sensíveis na fase de formação, e quando há necessidade de aumentar o volume de dados de qualidade porque não há observações suficientes.
Como são gerados?
Existem várias técnicas para a geração de dados sintéticos. Muitas das técnicas utilizadas para gerar dados sintéticos são baseadas em algoritmos de aprendizagem profunda que aprendem as inter-relações, padrões, distribuições e características estatísticas dos dados. Desta forma, segundo Bricio, são capazes de gerar dados sintéticos “quase da mesma qualidade que o original e completamente anónimo”.
Entre as técnicas utilizadas para gerar dados sintéticos estão os Autoencoders Variacionais (capazes de aprender a distribuição de dados subjacentes e de gerar um modelo complexo), as Redes Adversariais Generativas (capazes de produzir representações realistas e muito detalhadas) ou o Campo de Radiação Neural (uma técnica para criar novos pontos de vista a partir de uma cena 3D parcialmente conhecida). Todas estas tecnologias ainda podem ser melhoradas, uma vez que não estão suficientemente maduras.
Vantagens e particularidades
A utilização de dados sintéticos para treinar modelos de IA tem múltiplas vantagens. Estes incluem tornar um projeto viável, acelerar significativamente as iniciativas de IA e melhorar substancialmente o desempenho dos algoritmos de aprendizagem de máquinas, permitindo-lhes extrair o máximo valor dos dados. Também pode ser útil para garantir a privacidade do cliente. Os dados reais contêm informações confidenciais e privadas dos utilizadores, pelo que não podem ser partilhados livremente, o que não é o caso dos dados sintéticos. Os dados sintéticos permitem às empresas criar aplicações e soluções de software orientadas por dados sem expor informações pessoalmente identificáveis dos seus clientes. Por outras palavras, os conjuntos de dados sintéticos podem ser publicados, partilhados e analisados mais abertamente, sem revelar informação sobre um indivíduo real.
Os dados sintéticos têm as suas próprias particularidades, que os criadores precisam de ter em conta quando os criam. Por exemplo, quando baseados em dados do mundo real, se forem demasiado semelhantes, podem surgir questões de privacidade. Isto é especialmente importante se os dados originais contiverem informações pessoalmente identificáveis que também possam estar sujeitas às leis de privacidade.
Por outro lado, a AEPD aconselha a realização de uma avaliação de garantia de privacidade para assegurar que os dados sintéticos não sejam dados pessoais reais, uma vez que as abordagens de anonimato por vezes não oferecem garantias rigorosas de privacidade. “Esta garantia avalia até que ponto os indivíduos podem ser identificados em dados sintéticos e quantos novos dados sobre eles seriam revelados após uma identificação bem-sucedida”, diz a agência. Para além do facto de poder ser difícil criar dados realistas que não revelem a informação privada dos utilizadores, deve ser tomado especial cuidado para assegurar que a qualidade dos dados sintéticos não seja enviesada.