Partilhar dados comerciais sensíveis com o ChatGPT pode ser arriscado

O ChatGPT e modelos linguísticos semelhantes de grande dimensão aprendem com os dados que lhes são dados, pelo que a partilha de informação comercial sensível com “chatbots” de inteligência artificial acarreta elevados riscos.

Por Michael Hill

O furor em torno do ChatGPT permanece a um máximo histórico à medida que o potencial do chatbot de inteligência artificial continua a ser notícia de primeira página. Uma questão que tem atraído a atenção de muitos no campo da segurança é se a ingestão de dados comerciais sensíveis por parte da tecnologia coloca as organizações em risco. Existe o receio de que, se uma pessoa introduzir informação confidencial – relatórios trimestrais, material de apresentação interna, números de vendas, etc. – e pedir ao ChatGPT que escreva um texto à sua volta, qualquer pessoa poderia obter informação sobre essa empresa simplesmente perguntando ao ChatGPT sobre ela posteriormente.

A 22 de março, o CEO do OpenAI, Sam Altman, confirmou os rumores de um bug ChatGPT que permitia a alguns utilizadores verem os títulos das conversas de outros utilizadores. A 20 de março, os utilizadores começaram a ver conversas na sua história de chat que alegavam não ter tido com o chatbot. Altman disse que a empresa se sente “terrível”, mas que o bug “significativo” foi agora corrigido. “Tivemos um problema significativo no ChatGPT devido a um bug numa biblioteca de código-fonte aberto, para o qual foi lançada uma correção e acabamos de terminar a validação. Uma pequena percentagem de utilizadores pôde ver os títulos do histórico de conversação de outros utilizadores”, disse Altman.

As implicações de chatbots a recordar e a aprender com os contributos dos utilizadores podem ser de grande alcance: imagine trabalhar numa apresentação interna contendo novos dados empresariais que revelem um assunto da empresa a ser discutido numa reunião do conselho de administração. A divulgação de tais informações confidenciais poderia minar o preço das ações, as atitudes dos consumidores e a confiança dos clientes. Pior ainda, a fuga de um ponto da agenda jurídica poderia expor a empresa a uma responsabilidade real. Mas poderia alguma destas coisas acontecer apenas por aquilo que é inscrito num chatbot?

Este conceito foi explorado pela empresa de investigação Cyberhaven em fevereiro, centrando-se na forma como a OpenAI utiliza o conteúdo que as pessoas colocam no ChatGPT como dados de formação para melhorar a sua tecnologia, com um resultado muito semelhante ao que foi introduzido. A Cyberhaven alegou que os dados sensíveis introduzidos no ChatGPT poderiam ser divulgados a terceiros se estes colocassem determinadas questões ao ChatGPT com base na informação fornecida pelo executivo.

ChatGPT não armazena dados de entrada de utilizadores, pois não?

O National Cyber Security Centre (NCSC) do Reino Unido partilhou mais informação sobre esta questão, em março, afirmando que o ChatGPT e outros modelos de grandes línguas (LLM) não adicionam atualmente automaticamente informação de consultas aos modelos para outros verem. Ou seja, incluir informação numa consulta não implica que estes dados potencialmente privados sejam incorporados no LLM. “Contudo, a consulta será visível para a organização que fornece o LLM (no caso do ChatGPT, para o OpenAI)”, escreveu ele.

“Essas consultas são armazenadas e serão quase certamente utilizadas para desenvolver o serviço ou modelo LLM em algum momento. Isto pode significar que o fornecedor do LLM (ou os seus parceiros/contratantes) pode ler as consultas e de alguma forma incorporá-las em versões futuras”, acrescentou. Outro risco que aumenta à medida que mais organizações produzem e utilizam LLM é que as consultas armazenadas online possam ser pirateadas, vazadas ou acidentalmente disponibilizadas ao público, escreveu o NCSC. No cômputo geral, há verdadeiros motivos de preocupação quanto à introdução e utilização de dados comerciais sensíveis no ChatGPT, embora seja provável que os riscos sejam menos generalizados do que algumas manchetes sugerem.

Os riscos prováveis de introdução de dados sensíveis no ChatGPT

Os LLM exibem um comportamento emergente chamado aprendizagem em contexto. Durante uma sessão, à medida que o modelo recebe dados, pode ficar condicionado a executar tarefas com base no contexto contido nesses dados. “Este é provavelmente o fenómeno a que as pessoas se referem quando se preocupam com fugas de informação. No entanto, não é possível que a informação de uma sessão de um utilizador vaze para a de outro utilizador”, diz Andy Patel, investigador sénior da WithSecure, à CSO. “Outra preocupação é que os avisos introduzidos na interface ChatGPT serão recolhidos e utilizados em dados de formação futura”.

Embora seja válido preocupar-se com os chatbots que ingerem e depois regurgitam informação sensível, um novo modelo teria de ser treinado para incorporar esses dados, diz Patel. A formação de LLM é um procedimento caro e moroso, e ele diz que ficaria surpreendido se um modelo fosse formado com os dados recolhidos pelo ChatGPT num futuro próximo. “Se eventualmente for criado um novo modelo que inclua alertas recolhidos pelo ChatGPT, os nossos receios centram-se em ataques de inferência de membros. Estes ataques poderiam revelar números de cartões de crédito ou informações pessoais contidas nos dados de formação. No entanto, não foram demonstrados ataques de inferência de membros contra os LLM do ChatGPT e outros sistemas semelhantes”. Isto implica que é altamente improvável que futuros modelos sejam suscetíveis a ataques de inferência de membros, embora Patel admita que é possível que a base de dados contendo mensagens gravadas possa ser pirateada ou vazada.

Ligações de terceiros à IA poderiam expor os dados

É mais provável que surjam problemas de fornecedores terceiros que não declarem explicitamente as suas políticas de privacidade, pelo que a sua utilização com ferramentas e plataformas seguras pode colocar em risco quaisquer dados que seriam privados, defende Wicus Ross, investigador sénior de segurança da Orange Cyberdefense. “Plataformas SaaS como a Slack e o Teams da Microsoft têm limites claros de dados e processamento e um baixo risco de exposição de dados a terceiros. No entanto, estas linhas claras podem rapidamente esbater-se se os serviços forem aumentados com add-ons ou bots de terceiros que precisam de interagir com os utilizadores, independentemente de estarem ou não ligados à IA”, diz ele. “Na ausência de uma declaração explícita clara em que o processador de terceiros garanta que a informação não será divulgada, é preciso assumir que já não é privada”.

Para além dos dados sensíveis partilhados por utilizadores regulares, as empresas também precisam de estar cientes dos ataques de injeção pontual que podem revelar instruções anteriores fornecidas pelos programadores ao afinar a ferramenta ou fazer com que esta ignore diretivas pré-programadas, diz Neil Thacker, CISO da Netskope para a EMEA, ao CSO Neil Thacker. “Exemplos recentes incluem os trapaceiros do Twitter que mudam o comportamento do bot e problemas com o Bing Chat, onde investigadores encontraram uma forma de fazer com que o ChatGPT revele instruções prévias provavelmente escritas pela Microsoft que devem ser ocultadas”.

Controlar que dados são enviados para o ChatGPT

Os dados sensíveis representam atualmente 11% do que os empregados colocam no ChatGPT, e a média das empresas vaza dados sensíveis para o ChatGPT centenas de vezes por semana, de acordo com a Cyberhaven. “O ChatGPT está a passar do hype para o mundo real e as organizações estão a experimentar a implementação prática em toda a sua empresa para juntarem às suas outras ferramentas baseadas no ML/AI, mas é necessário aplicar alguma cautela, especialmente quando se trata de partilhar informação sensível”, diz Thacker. É preciso considerar questões como a propriedade dos dados e o impacto potencial se a organização de acolhimento sofrer uma violação. Como exercício simples, os profissionais de segurança da informação devem, no mínimo, ser capazes de identificar a categoria de dados que é potencialmente acessível em caso de violação destes serviços.

Em última análise, é da responsabilidade das empresas garantir que os seus utilizadores estejam plenamente conscientes do que a informação deve e não deve ser revelada ao ChatGPT. As organizações devem ser muito cuidadosas com os dados que escolhem submeter nas candidaturas, diz o NCSC: “Deve assegurar-se que aqueles que querem experimentar LLM o possam fazer, mas de uma forma que não ponha em risco os dados da organização.

Avisar os trabalhadores sobre o perigo potencial

No entanto, a identificação e controlo dos dados que os empregados enviam para o ChatGPT não é isenta de dificuldades, advertiu Cyberhaven. “Quando os trabalhadores introduzem dados da empresa no ChatGPT, não carregam um ficheiro, copiam e colam o conteúdo no seu navegador web. Muitos produtos de segurança são concebidos para proteger os ficheiros (que são rotulados como confidenciais) de serem carregados, mas uma vez que o conteúdo é copiado do ficheiro, não conseguem localizá-lo”, insistiu ele. Além disso, os dados da empresa que vão ao ChatGPT muitas vezes não contêm um padrão reconhecível que as ferramentas de segurança procurem, tais como um cartão de crédito ou o número da Segurança Social, disse Cyberhaven. “Sem saber mais sobre o seu contexto, as ferramentas de segurança atuais não conseguem diferenciar entre alguém que entra no menu da cafetaria e os planos de F&A da empresa”.

Para melhorar a visibilidade, as organizações devem implementar políticas nas suas gateways seguras da Web (SWG) para identificar a utilização de ferramentas de IA e podem também implementar políticas de prevenção da perda de dados (DLP) para detetar que dados estão a ser enviados para estas ferramentas, Thacker observa. As organizações devem atualizar as políticas de proteção de informação para assegurar que os tipos de aplicações que são manipuladores aceitáveis de dados sensíveis estejam bem documentados, interroga Michael Covington, vice-presidente de estratégia de carteira da Jamf. “O controlo desse fluxo de informação começa com uma política bem documentada e informada”, diz ele. “Além disso, as organizações precisam de explorar como podem utilizar estas novas tecnologias para melhorar os seus negócios de uma forma ponderada. Não se afaste destes serviços por medo e incerteza, mas dedique algum tempo ao pessoal para explorar novas ferramentas que demonstrem potencial, para que possa compreender os riscos desde o início e garantir que tem as proteções certas quando os primeiros utilizadores finais quiserem começar a utilizar as ferramentas”.




Deixe um comentário

O seu email não será publicado