A Anthropic, uma start-up de IA, quer imbuir a sua IA generativa de valores que se inspiram em parte na Declaração dos Direitos Humanos das Nações Unidas, mas também nos termos de utilização da Apple.

Por Heinrich Vaske
A start-up Anthropic está entre os líderes em IA generativa. A empresa, cujo chatbot Claude tem vindo a desafiar o líder ChatGPT desde março de 2023, anunciou que está a adotar uma abordagem específica de formação em IA chamada IA Constitucional para equipar o seu chatbot com bases éticas. O objetivo é responder às preocupações dos críticos sobre a transparência, a segurança e a tomada de decisões nos sistemas de IA.
Até agora, a IA generativa tem dependido dos seres humanos para dar feedback sobre as respostas, a fim de corrigir gradualmente os comportamentos pouco éticos. Este processo é moroso e propenso a erros, além de poder ser facilmente enganado por mal-intencionados. É por isso que a Anthropic adota uma abordagem diferente e automatizada. “Condicionamos os nossos modelos com um conjunto de princípios comportamentais simples. Chamamos a esta técnica IA Constitucional”, afirma a empresa.
O feedback dos utilizadores não é suficiente para a criação de quadros de valor
Um dos problemas da IA generativa é que os modelos de linguagem de grande dimensão (LLM) são inicialmente treinados de forma bastante superficial, o que os torna capazes de produzir praticamente qualquer texto. Se os modelos forem poderosos, mas não forem apoiados por valores, podem dar aos utilizadores dicas para planear um ataque terrorista, por exemplo, ou convencê-los a acabar com as suas vidas.
Bots como o ChatGPT da OpenAI e o Bing com função de chat da Microsoft evitam esta situação através de uma técnica chamada aprendizagem por reforço a partir de feedback humano (RLHF). Neste processo, os humanos avaliam as respostas da IA para ver se parecem desejáveis e apropriadas com base no pedido em questão. A informação é depois introduzida no modelo de forma a ser quase recompensada ou punida. Isto altera a rede neuronal e o comportamento do modelo.
Esta técnica tem desvantagens porque é dispendiosa e depende de mão-de-obra humana. Além disso, pode confrontar as pessoas com material perturbador, talvez até traumatizante. É por isso que a IA Constitucional da Anthropic tenta orientar os resultados dos modelos linguísticos da IA numa direção subjetivamente considerada “segura e útil”, treinando-os primeiro em função de uma lista de princípios éticos.
Catálogo de valores da IA deve ser constantemente alargado
Os princípios éticos em que a Anthropic se baseia incluem a Declaração dos Direitos Humanos das Nações Unidas, partes dos Termos de Serviço da Apple e várias “melhores práticas” em matéria de confiança e segurança. Além disso, existem princípios que a própria Anthropic segue nos seus laboratórios de investigação de IA. Com base nas reações dos utilizadores e nos resultados de outras investigações, o catálogo de valores da IA será elaborado passo a passo.
Num artigo, a Ars Technica enumera quatro princípios de ética da IA que a Anthropic retirou da Declaração dos Direitos Humanos da ONU. Por exemplo, a IA deve preferir respostas que
- Apoiem mais os princípios como a liberdade, a igualdade e a fraternidade,
- sejam menos racistas ou sexistas e não discriminem com base na língua, religião, opinião política, origem, riqueza ou nascimento,
- são os que mais apoiam e promovem a vida, a liberdade e a segurança pessoal,
- se opõem e combatem com maior firmeza a tortura, a escravatura, a crueldade e os tratamentos desumanos ou degradantes.
A Anthropic reconhece que a escolha global dos princípios será sempre subjetiva e influenciada pelas visões do mundo dos investigadores. Por conseguinte, no futuro, envolverá outras entidades na definição das regras. A empresa, cujo diretor executivo foi recentemente convidado para uma audição sobre ética da IA na Casa Branca, juntamente com os responsáveis da Microsoft, Google e OpenAI, esforça-se também por ter em conta não só as perspetivas ocidentais. Por exemplo, um dos princípios é: “Escolha uma resposta que seja menos provável de ser considerada prejudicial ou ofensiva para uma tradição cultural não ocidental de qualquer tipo”.
A postura elegante da Anthropic
O Ars Technica observa que os valores de IA selecionados pelo Anthropic tendem a adotar um ponto de vista progressivo que não reflete – e não pode refletir – os acontecimentos universais a 100 por cento. A seleção e a redação das regras de treino da IA são, por isso, suscetíveis de se tornarem um tema de conversa política.
A start-up também admite que podem ser necessárias regras diferentes devido à pluralidade de valores nas diferentes culturas. É provável que, no futuro, os modelos de IA venham a ser equipados com diferentes sistemas de valores. A Anthropic espera, no entanto, que com a IA constitucional, as diferentes culturas aceitem as regras éticas de um modelo de linguagem de IA como um todo e as adaptem apenas quando necessário.
No entanto, se as regras éticas forem adaptáveis, as empresas e organizações que treinam um modelo de linguagem com a tecnologia da Anthropic podem “ajustá-lo” a seu gosto. Na pior das hipóteses, os princípios sexistas, racistas ou outros princípios nocivos poderiam ser declarados como base ética.
A Anthropic contorna elegantemente a questão, escrevendo: “O nosso objetivo a longo prazo não é fazer com que os nossos sistemas representem uma determinada ideologia”. “Prevemos que, com o tempo, serão desenvolvidos processos sociais mais alargados para criar estruturas de valores de IA.”