Meta cria modelo único de IA que traduz para 200 idiomas

O modelo de tradução, NLLB-200, está em open-sourcing, de modo a ajudar outros investigadores a melhorarem as suas ferramentas de tradução.

A Meta criou um modelo único de IA, o NLLB-200 como o primeiro modelo a traduzir para 200 idiomas diferentes com qualidade de última geração validada através de extensas avaliações para cada um dos idiomas, anuncia a empresa em comunicado.

A empresa de Mark Zuckerberg está a utilizar estas aprendizagens e técnicas de elaboração de modelos para melhorar e expandir as traduções no Facebook, Instagram e Wikipédia.

“É impressionante o quanto a IA está a melhorar todos os nossos serviços. Acabámos de lançar um modelo de IA que construímos que pode traduzir em 200 idiomas diferentes — muitos dos quais não são suportados pelos sistemas de tradução atuais. Chamamos a este projeto Sem Língua Deixada Para Trás, e as técnicas de modelagem de IA que usamos estão a ajudar a fazer traduções de qualidade para idiomas falados por milhares de milhões de pessoas em todo o mundo”, comentou Mark Zuckerberg, CEO da Meta, numa publicação no Facebook.

A Meta criou novo conjunto de dados de avaliação, o FLORES-200, e mediu o desempenho do NLLB-200 em cada idioma para confirmar a alta qualidade das traduções. O NLLB-200 ultrapassa a tecnologia de última geração anterior numa média de 44%, refere a empresa.

Neste momento, está a utilizar aprendizagens e técnicas de elaboração de modelos baseadas no projeto para melhorar e expandir as traduções no Facebook, Instagram e Wikipédia.

A meta também informa que está a fazer o open-sourcing dos modelos do NLLB-200, do FLORES-200, do código de treino do modelo e do código para recriar o conjunto de dados de treino, de modo a ajudar outros investigadores a melhorarem as suas ferramentas de tradução e tirarem partido deste trabalho.

“Para dar uma noção da escala, o modelo de 200 idiomas tem mais de 50 mil milhões de parâmetros, e nós treinámo-lo usando o nosso novo Research SuperCluster, que é um dos supercomputadores de IA mais rápidos do mundo. Os avanços aqui vão permitir mais de 25 mil milhões de traduções todos os dias nas nossas aplicações”, acrescentou Zuckerberg.

Nenhum Idioma é Deixado para Trás

Para ajudar as pessoas a interagirem melhor neste momento e a fazerem parte do metaverso do futuro, os investigadores da Meta AI criaram o projeto Nenhum Idioma é Deixado para Trás (NLLB – No Language Left Behind), num esforço para desenvolver capacidades de tradução automática de alta qualidade para grande parte dos idiomas de todo o mundo.

Muitos destes idiomas, como o kamba e o lao, não eram devidamente suportados, ou nem sequer eram suportados, pelas melhores ferramentas de tradução existentes neste momento. Atualmente, menos de 25 idiomas africanos são suportados por ferramentas de tradução amplamente utilizadas e muitas delas são de má qualidade, indica a Meta.

Em contrapartida, o NLLB-200 suporta 55 idiomas africanos com resultados de alta qualidade. No total, este modelo único pode fornecer traduções de alta qualidade para idiomas falados por milhares de milhões de pessoas em todo o mundo. No total, as pontuações BLEU do NLLB-200 são melhoradas, em comparação com a tecnologia de última geração anterior, numa média de 44% em todas as 10 mil direções da referência FLORES-101. No caso de alguns idiomas africanos e indianos, o aumento é superior a 70% em relação aos sistemas de tradução recentes.

Open-sourcing do modelo NLLB-200

A Meta está a fazer o open-sourcing do modelo NLLB-200 e a publicar uma série de ferramentas de investigação para permitir que outros investigadores façam chegar este trabalho a mais idiomas e criem tecnologias mais inclusivas. A Meta AI está também a atribuir até 194 mil euros de subsídios a organizações sem fins lucrativos para aplicações do NLLB-200 no mundo real.

Os progressos da investigação do NLLB vão apoiar mais de 25 mil milhões de traduções apresentadas todos os dias no Feed de Notícias do Facebook, no Instagram e nas nossas outras plataformas.

As traduções altamente precisas em mais idiomas também podem ajudar a detetar conteúdos prejudiciais e desinformação, proteger a integridade eleitoral e reduzir casos de exploração sexual e tráfico de pessoas online.

Expansão da tradução e maior inclusão

As ferramentas de tradução de alta qualidade podem ser transformadoras. A verdade é que apenas um pequeno conjunto de idiomas, incluindo o inglês, o mandarim, o espanhol e o árabe, dominam a web. Os falantes nativos destes idiomas amplamente falados podem não estar cientes de como é significativo ler algo na própria língua materna. A Meta acredita que o NLLB vai ajudar a preservar os idiomas tal como devem ser partilhados, em vez de ser sempre necessário um idioma intermediário que muitas vezes se engana nos sentimentos/conteúdos.

Também pode contribuir para o progresso noutras tarefas de PLN, para além da tradução, o que pode incluir a criação de assistentes que funcionam bem em idiomas como o javanês e o usbeque, ou a criação de sistemas para apresentar filmes de Bollywood e adicionar legendas precisas em suaíli ou oromo. À medida que o metaverso começa a ganhar forma, a capacidade de criar tecnologias que funcionem bem em centenas, ou mesmo milhares, de idiomas vai realmente ajudar a democratizar o acesso a experiências novas e imersivas em mundos virtuais, finaliza a empresa.




Deixe um comentário

O seu email não será publicado