O seu GPT personalizado pode estar a ser enganado para ceder os seus dados

by Patricia Janeiro 10, 2024

written by Patricia Janeiro 10, 2024

Se ainda está na fase de lua de mel da sua relação com o seu GPT personalizado, lamentamos ter de lhe contar tudo.

Um estudo recente da Northwestern University revelou uma vulnerabilidade surpreendente nos Generative Pre-trained Transformers (GPTs) personalizados: embora possam ser personalizados para diversas aplicações, também são susceptíveis a ataques de injeção imediata que podem expor informações sensíveis.

Os GPTs são chatbots avançados de IA que podem ser criados e moldados por utilizadores do ChatGPT da OpenAI. Utilizam o Large Language Model (LLM) principal do ChatGPT, GPT-4 Turbo, mas são melhorados com elementos adicionais e únicos que influenciam a forma como interagem com o utilizador. Estas personalizações incluem avisos específicos, conjuntos de dados únicos e instruções de processamento personalizadas, permitindo-lhes servir várias funções especializadas.
Mas esses parâmetros, bem como quaisquer dados sensíveis que possa utilizar para moldar o seu GPT, podem ser facilmente acedidos por terceiros.

Como exemplo, o TCN conseguiu obter o prompt completo e os dados confidenciais de um GPT personalizado, partilhado publicamente, utilizando uma técnica básica de hacking de prompt: pedir o seu “prompt inicial”.

O teste rigoroso do estudo a mais de 200 GPTs personalizadas revelou uma elevada suscetibilidade a este tipo de ataques e jailbreaks, levando a uma potencial extração de prompts iniciais e acesso não autorizado a ficheiros carregados.

Os investigadores sublinharam os riscos duplos de tais ataques, que ameaçam a integridade da propriedade intelectual e a privacidade do utilizador.

Às vezes, como no nosso caso de teste, pode ser tão fácil quanto pedir ao GPT para revelar informações privadas.

“O estudo revelou que, para a fuga de ficheiros, o ato de pedir instruções ao GPT pode levar à revelação de ficheiros”, descobriram os investigadores. Com alguma criatividade, os investigadores descobriram que os atacantes podem causar dois tipos de revelações: “extração de instruções do sistema” e “fuga de ficheiros”. O primeiro engana o modelo para que partilhe a sua configuração principal e a sua solicitação, enquanto o segundo faz com que divulgue e partilhe o seu conjunto de dados de formação confidenciais.

A investigação também sublinhou que as defesas existentes, como as mensagens defensivas, não são infalíveis contra mensagens adversárias sofisticadas. A equipa afirmou que isto exigirá uma abordagem mais robusta e abrangente para proteger estes modelos de IA.

“É muito provável que os atacantes com determinação e criatividade suficientes encontrem e explorem vulnerabilidades, o que sugere que as estratégias defensivas actuais podem ser insuficientes”, conclui o relatório.

À luz destas conclusões, e dado que os utilizadores podem mexer nos seus prompts sem qualquer supervisão ou teste da OpenAI, o estudo insta a comunidade de IA em geral a dar prioridade ao desenvolvimento de medidas de segurança mais fortes.

“Para resolver essas questões, salvaguardas adicionais, além do escopo de prompts defensivos simples, são necessárias para reforçar a segurança de GPTs personalizados contra tais técnicas de exploração”, conclui o estudo.

Embora a personalização de GPTs ofereça um imenso potencial, este estudo serve como um lembrete crucial dos riscos de segurança associados. Os avanços na IA não devem comprometer a segurança e a privacidade dos utilizadores. Por enquanto, pode ser melhor manter os GPTs mais importantes ou sensíveis para si mesmo – ou não treiná-los com dados sensíveis em primeiro lugar.

O seu GPT personalizado pode estar a ser enganado para ceder os seus dados

Uma decisão acertada: Meta lança Audiobox alimentada por IA

OurSky angaria 9,5 milhões de dólares para adicionar uma API à astronomia de código aberto

Related Posts

Leave a Comment Cancel Reply