A Aprendizagem por Reforço supera a IA Generativa quando se valoriza a precisão, a consistência e os resultados corretos.

Por Matt Asay
Por muito impressionante que seja a evolução dos modelos de linguagem de grande dimensão (LLM), o entusiasmo em torno deles também é galopante. Os investigadores da Microsoft também estão a alimentar esta última com a afirmação de que o modelo GPT-4 da Open AI é “uma centelha de Inteligência Artificial Geral”. Quase parece que a Microsoft está a ignorar deliberadamente as desvantagens da inteligência artificial generativa: As LLM tendem a alucinar, não são adequadas para jogos de estratégia como o xadrez e o Go, têm dificuldades com a matemática e geram código de programa que é potencialmente problemático. Isto não quer dizer que os modelos de linguagem de grande dimensão sejam apenas um exagero – muito pelo contrário. Mas quando se trata de IA generativa, seria necessário ter perspetivas diferentes e menos hipérboles.
Como resume o perito em IA e jornalista tecnológico Craig Smith, num artigo no IEEE Spectrum, Yann LeCun (Meta) e Geoff Hinton (ex-Google), por exemplo, argumentam que os modelos de linguagem de grande dimensão são afetados por um problema fundamental. Argumentam que os grandes modelos linguísticos carecem de conhecimentos não linguísticos, que são cruciais para compreender a realidade subjacente que a linguagem descreve. E Matthew Lodge, CEO do fornecedor de IA Diffblue, disse recentemente no QCon 2023 em Londres: “Modelos de aprendizagem por reforço pequenos, rápidos e de baixo custo superam enormes LLM com cem mil milhões de parâmetros em todos os tipos de tarefas”.
Isto levanta a questão: será que estamos à procura do ouro da IA nos sítios errados – ou será que nos estamos a prejudicar a nós próprios com um foco excessivo nos LLM?
Os jogos de reforço
Vejamos o exemplo dos jogos de estratégia mencionado anteriormente: Levy Rozman, campeão internacional de xadrez, publicou um vídeo no seu canal do YouTube no qual explica em pormenor a estupidez do ChatGPT em comparação com o melhor software de xadrez atual, o Stockfish.
Esta é apenas uma das muitas provas de que, na prática, a IA genuína fica, por vezes, muito aquém das expectativas.
A situação é bastante diferente no que respeita à aprendizagem por reforço: Esta técnica de IA é utilizada, por exemplo, no AlphaGo da Google. Explicando de forma simples, funciona gerando diferentes soluções para um problema, testando-as e depois utilizando os resultados para o problema seguinte. Este processo é repetido milhares de vezes até encontrar o melhor resultado. No caso do AlphaGo, isto significa que a IA experimenta diferentes jogadas e faz uma previsão sobre se é uma boa jogada e se é provável que ganhe o jogo a partir dessa posição. A instância utiliza o feedback para gerar sequências de jogadas prometedoras.
Este processo é designado por pesquisa probabilística: Não é possível tentar todas as jogadas imagináveis – existem simplesmente demasiadas possibilidades para isso. Em vez disso, o “espaço” à volta das jogadas é procurado para encontrar as melhores. Esta abordagem já deu provas no domínio dos jogos – afinal de contas, o AlphaGo foi capaz de colocar os grandes mestres humanos no seu lugar no passado. Não é infalível, mas atualmente tem um desempenho significativamente melhor nesta área do que os melhores modelos de linguagem de grande dimensão atualmente disponíveis.
Probabilidade vs. exatidão
Aumentar a escala dos modelos de linguagem não pode resolver magicamente estes problemas – por exemplo, o GPT-4 enfrenta em grande parte os mesmos desafios que o GPT-3. Mesmo a Open AI acredita que modelos maiores não são a solução para os problemas de LLM, como afirma num post no fórum: “Os modelos de linguagem grandes são inerentemente probabilísticos e produzem resultados prováveis com base em padrões que observaram nos dados de treino. Nos problemas matemáticos e físicos, só pode haver uma resposta correta e a probabilidade de gerar essa resposta pode ser muito baixa”.
Em contrapartida, a IA baseada na aprendizagem por reforço produz resultados muito melhores. No entanto, não é que a aprendizagem por reforço não desempenhe um papel no mundo do LLM. O GPT-4, por exemplo, inclui a aprendizagem por reforço com feedback humano (RLHF) – o modelo principal é treinado por utilizadores humanos para favorecer determinadas respostas em detrimento de outras. No entanto, isto basicamente não altera as respostas que o modelo gera em primeiro lugar. Em última análise, os LLM simplesmente não foram concebidos para serem demasiado exatos ou consistentes. Fazem um compromisso entre a exatidão e o comportamento determinístico.
Codificação de reforço?
A IA generativa já está a ser utilizada ativamente no desenvolvimento de software – por exemplo, sob a forma do GitHub Copilot ou do AWS CodeWhisperer. Estas (e outras) ferramentas preveem qual o trecho de código que se seguirá com base no código antes e depois do ponto de inserção. Posteriormente, os resultados têm de ser cuidadosamente verificados e editados manualmente para garantir que o código é compilado e funciona corretamente. Não se trata, portanto, de codificação “autónoma”.
A aprendizagem por reforço, por outro lado, pode fazer isso, de acordo com o diretor executivo da Diffblue, Lodge. Isto pode dever-se ao facto de a sua empresa ter desenvolvido uma ferramenta comercial baseada na tecnologia de IA. Em todo o caso, o gestor está convencido de que a aprendizagem por reforço pode superar a IA genuína no desenvolvimento de software: “Se o objetivo é criar automaticamente 10 000 testes unitários para um programa que nenhum humano compreende, a aprendizagem por reforço é a única solução real. Os LLM não podem competir neste espaço porque não há forma de os humanos os monitorizarem eficazmente e corrigirem o seu código a esta escala”, afirmou Lodge no QCon.