Graças à alta compactação, a tecnologia apresentada pela Meta poderá permitir chamadas de alta qualidade e música mesmo com más ligações.

A Meta empresa detentora do Facebook e do WhastApp anunciou na semana passada um método de compressão de áudio alimentado por IA chamado “EnCodec”. De acordo com um relatório, a tecnologia pode comprimir dados áudio dez vezes menores que o formato MP3 de 64 kbps sem comprometer a qualidade. De acordo com Meta, a técnica poderia melhorar significativamente a qualidade de som da fala em ligações de baixa largura de banda, tais como chamadas telefónicas em áreas com serviço esporádico. A técnica também funciona para a música e poderia assim substituir o MP3 no futuro. A Meta AI demonstrou a diferença entre diferentes técnicas de compressão com um bom exemplo.

Discriminadores como chave
A Meta descreve o seu método como um sistema de três partes treinado para comprimir áudio a um tamanho alvo desejado. Primeiro, o codificador converte os dados não comprimidos numa representação de menor taxa de quadros. O ‘quantificador’ comprime então a representação ao tamanho do alvo, mantendo o registo da informação chave que mais tarde será utilizada para restaurar o sinal original. Este sinal comprimido é enviado através de uma rede ou armazenado no disco rígido. Finalmente, o descodificador converte os dados comprimidos novamente em dados áudio em tempo real utilizando uma rede neural num único CPU.

A chave para desenvolver um método de compressão de dados áudio o mais possível sem perder os principais elementos de um sinal é a utilização de discriminadores. Estes têm a tarefa de distinguir entre amostras reais e reconstruídas, explica Meta. O modelo de compressão tenta criar amostras para enganar os discriminadores, tornando as amostras reconstruídas mais percentualmente semelhantes às amostras originais.
Quanto à área de aplicação, Meta vê principalmente a possibilidade de utilizar “hiper compressão de áudio” assistida por IA para permitir “chamadas mais rápidas com melhor qualidade” em más condições de rede. Não surpreende, no entanto, que os investigadores também assinalem que a tecnologia poderia eventualmente proporcionar “experiências “metaversivas” ricas sem grandes melhorias de largura de banda”.