ChatGPT – diz-me onde estão localizados os dados [com video]

Devem os dados vir para a IA ou a IA para os dados? Especialmente no contexto da análise de dados comerciais críticos, esta é a questão crucial. Ambas as abordagens têm vantagens e desvantagens.

Por Martin Bayer

O ChatGPT ajuda com os trabalhos de casa de matemática ou compila factos sobre a Batalha das Nações em Leipzig é bom e útil, mas não ajuda as empresas nos negócios. Para isso, as ferramentas de IA generativa teriam de ser alimentadas com os dados comerciais da própria empresa.

A questão crucial que as empresas têm de colocar a si próprias neste contexto é: Devem os seus próprios dados, muitos dos quais são críticos e sensíveis, ser partilhados com um serviço de IA publicamente disponível na cloud? Ou é melhor manter os dados dentro da empresa e construir o seu próprio modelo de Large Language Model (LLM)? Ambas as opções têm as suas vantagens e desvantagens.

A Microsoft acaba de apresentar o “Serviço Azure OpenAI nos seus dados” como uma pré-visualização pública. A empresa de software está a falar de uma nova funcionalidade inovadora que permitirá às empresas utilizar modelos OpenAI como o ChatGPT e o GPT-4 com os dados da sua própria empresa. O serviço de IA irá revolucionar a forma como o utilizador interage e analisa os seus dados, escreve Andy Beatman, gestor de produto sénior do Azure AI na Microsoft, numa publicação no blogue da emersa. O executivo promete aos utilizadores do serviço uma elevada precisão e rapidez, bem como muitas informações valiosas.

Ligar dados à IA através do Azure AI Studio da Microsoft

O novo serviço Azure da Microsoft permite que os modelos OpenAI sejam aplicados diretamente aos próprios dados de uma empresa. Não é necessária qualquer formação especial ou afinação para este efeito, afirma Beatman. Com a ajuda do Azure AI Studio, os utilizadores podem ligar quaisquer fontes de dados. Podem ser dados já indexados com a ajuda do Azure Cognitive Search ou Blob Storage Containers na Microsoft Cloud ou mesmo o carregamento de ficheiros locais. Se os dados estiverem ligados aos modelos GPT, os utilizadores podem dirigir perguntas a este stock de dados. De acordo com a Microsoft, é suportada uma grande variedade de formatos de ficheiros, por exemplo, TXT, MD, HTML, ficheiros Word, PowerPoint e PDF para análises e conversas.

Beatman fala de uma vasta gama de aplicações possíveis. O serviço simplifica processos como a captura e a indexação de documentos. Oferece um acesso mais rápido aos dados – por exemplo, do departamento jurídico ou financeiro. As empresas podem assim utilizar recursos para um controlo de marketing mais preciso e para otimizar o desenvolvimento de software e os processos de RH. Com a ajuda do serviço Azure OpenAI, é possível obter informações valiosas sobre os clientes, rentabilizar o acesso aos dados e obter informações profundas sobre o sector e a concorrência, continua Beatman.

Este último aspeto, em particular, deve fazer com que as empresas utilizadoras fiquem de orelhas em pé. Obviamente, os dados comerciais carregados também são utilizados para treinar modelos entre empresas, por exemplo, para fazer comparações. O problema central desta abordagem: os dados das empresas tornam-se públicos através da utilização de modelos de IA na cloud pública. A vantagem desta abordagem: a utilização da IA generativa nos seus próprios dados empresariais funciona de forma rápida e fácil.

A Cloudera concebe um projeto para LLMs no contexto empresarial.

No entanto, existem formas alternativas de avaliar e utilizar os seus próprios dados empresariais com a ajuda dos LLM. O especialista em dados Cloudera acaba de apresentar um projeto para um Modelo de Linguagem Grande (LLM) no contexto empresarial com o seu LLM “Chatbot Aumentado com Dados Empresariais”. Desta forma, as empresas podem garantir que utilizam a IA de uma forma segura, fiável e responsável, promete o fornecedor.

Os serviços de IA disponíveis publicamente são atrativos para as empresas, mas para isso têm de partilhar os seus dados com serviços externos, alertam os responsáveis da Cloudera. Por outro lado, com um LLM de código aberto à sua escolha, as empresas podem criar as suas próprias aplicações de IA sem terem de partilhar dados externamente. Além disso, todos os programadores e utilizadores dos departamentos, e não apenas os cientistas de dados e as equipas de aprendizagem automática, poderiam utilizar a IA.

“O mercado da IA está a mudar rapidamente. Os dados e o contexto empresarial são as constantes para o sucesso dos modelos de LLM ou IA”, afirmou Benjamin Bohne, Vice-Presidente do Grupo Central EMEA da Cloudera. A IA generativa e os modelos linguísticos de grande dimensão são tão bons quanto os dados com que são treinados, afirmou. É necessário o contexto correto, acrescentou. “Para que estes modelos e a IA sejam bem sucedidos, têm de ser fiáveis – e a confiança na IA começa com a confiança nos dados”, afirmou Bohne.

“É aqui que a Cloudera se sente confortável com a sua oferta: um total de 25 milhões de terabytes de dados são geridos com soluções internas”, diz Bohne. “Isto coloca-a numa boa posição para impulsionar aplicações baseadas em IA generativa com um lago de dados aberto no contexto empresarial”, afirmou.

Aplicações de IA para o Databricks Lakehouse

A Databricks, outro fornecedor de um lakehouse – para simplificar, uma combinação de data lake e data warehouse – também está a concentrar-se em trazer a IA e os grandes modelos de linguagem para os dados. As chamadas aplicações lakehouse destinam-se a simplificar o acesso aos dados e às funções de IA. De acordo com um comunicado da Databricks, os fornecedores de software teriam de superar obstáculos significativos para aceder de forma segura aos dados dos clientes, integrar-se nas soluções de segurança e governação dos clientes e trabalhar de forma eficiente em torno dos dados dos clientes.

As próximas aplicações deverão oferecer uma forma de o garantir. O fornecedor promete que estas serão executadas diretamente na instância Databricks do cliente e podem ser integradas de forma fácil e segura nos dados do próprio cliente. Os programadores podem também utilizar qualquer tecnologia e linguagem para criar aplicações e não estão limitados a uma estrutura proprietária.

A Lamini é um dos primeiros parceiros de aplicações da Databricks. Trata-se de uma plataforma LLM que permite aos programadores criar modelos privados personalizados. De acordo com o fornecedor, isto deve funcionar de forma mais fácil, mais rápida e mais eficiente do que com LLM de uso geral. O especialista em dados também pretende oferecer a partilha de modelos de IA no Databricks Marketplace. Isso dará aos clientes acesso aos melhores modelos que podem ser aplicados de forma rápida e segura aos seus dados. A própria Databricks irá selecionar e publicar modelos de código aberto para casos de utilização comuns, tais como o acompanhamento de instruções e o resumos de textos.

“A adição de modelos e aplicações de IA ao Databricks Marketplace preenche uma necessidade crítica no mundo empresarial atual”, afirmou Matei Zaharia, cofundador e CTO da Databricks. “A colaboração entre empresas continua a evoluir para além da simples partilha de conjuntos de dados para garantir a computação e modelos de IA em dados partilhados”, acrescentou. O Databricks Marketplace estará geralmente disponível a partir de 28 de junho de 2023. Espera-se que as aplicações Lakehouse e a partilha de modelos de IA no Databricks Marketplace estejam disponíveis em pré-visualização no próximo ano. A abordagem de manter os dados internamente, mesmo quando se utiliza a IA generativa, garante orientações de governação e conformidade. A desvantagem: os LLM têm de ser ligados e configurados com os dados da própria empresa. No entanto, o esforço envolvido pode ser reduzido através da utilização




Deixe um comentário

O seu email não será publicado