Desde que a Meta lançou o LLaMA, rival do ChatGPT, e o modelo foi divulgado, os acontecimentos chegaram a um ponto crítico. A IA generativa está agora a espalhar-se de forma desprotegida.

Por Heinrich Vaske
Na sexta-feira passada, um programador de software chamado Georgi Gerganov desenvolveu uma ferramenta (llama.cpp) para executar o ChatGPT da Meta, rival do LLaMA, localmente num portátil Mac. Alguns dias antes, o Modelo de Linguagem Grande (LLM) da categoria GPT-3 tinha sido divulgado pelo pai d Facebook e, assim, entrou involuntariamente em circulação.
De acordo com um relatório da ArsTechnica, os programadores estão também em vias de conseguir que o LLaMA seja executado num PC Windows. As experiências com um telefone Pixel 6 do Google foram bem-sucedidas, e o modelo pode mesmo funcionar num Raspberry Pi – embora muito lentamente.
Programadores querem modelo de linguagem open-source
Muitos programadores e utilizadores da Internet estão aparentemente interessados numa alternativa ao ChatGPT que não seja controlada por fabricantes como a OpenAI ou a Microsoft e funcione “sem censura”, ou seja, também discute tópicos considerados “sensíveis” ou politicamente incorretos. Assim, surgiu o desejo de ter um LLM de código aberto que cada utilizador possa executar localmente, sem censura e sem pagar taxas API (ao OpenAI).
Simultaneously running LLaMA-7B (left) + Whisper Small (right) on M1 Pro pic.twitter.com/fQaRkZoLX1
— Georgi Gerganov (@ggerganov) March 10, 2023
Embora existam soluções de código aberto como o GPT-J, estas requerem demasiado poder computacional e espaço de armazenamento. Foi aqui que o Meta Group entrou com o LLaMA, um LLM que está disponível em diferentes tamanhos de parâmetros. O LLaMA reivindica que os seus modelos mais pequenos possam competir com o GPT-3 do OpenAI, o modelo básico do ChatGPT, em termos de qualidade de resultados e velocidade.
A Meta publicou o código LLaMA como código aberto, mas apenas investigadores qualificados deveriam obter os chamados pesos (o conhecimento treinado armazenado numa rede neural). No entanto, esta restrição não durou muito tempo: A 2 de março, algum informador publicou os pesos da LLaMA como uma torrente.
Desenvolvimento explosivo na IA Generativa
Desde então, tem havido um desenvolvimento explosivo em torno do LLaMA. O investigador independente de IA Simon Willison compara a situação com o lançamento do Stable Diffusion, um modelo de síntese de imagem de código aberto que foi lançado em agosto passado e se posicionou contra o DALL-E do OpenAI.
Normalmente, correr GPT-3 requer múltiplas GPU A100, mas ao LLaMA está atualmente a fazer ondas tão altas porque pode correr com uma única GPU potente de consumo. E agora que o tamanho do modelo pode ser grandemente reduzido com novas técnicas de compressão, o LLaMA apenas funciona num Mac com um processador M1 ou num PC com uma GPU Nvidia medíocre.