Home » O seu GPT personalizado pode estar a ser enganado para ceder os seus dados

O seu GPT personalizado pode estar a ser enganado para ceder os seus dados

by Patricia

Se ainda está na fase de lua de mel da sua relação com o seu GPT personalizado, lamentamos ter de lhe contar tudo.

Um estudo recente da Northwestern University revelou uma vulnerabilidade surpreendente nos Generative Pre-trained Transformers (GPTs) personalizados: embora possam ser personalizados para diversas aplicações, também são susceptíveis a ataques de injeção imediata que podem expor informações sensíveis.

Os GPTs são chatbots avançados de IA que podem ser criados e moldados por utilizadores do ChatGPT da OpenAI. Utilizam o Large Language Model (LLM) principal do ChatGPT, GPT-4 Turbo, mas são melhorados com elementos adicionais e únicos que influenciam a forma como interagem com o utilizador. Estas personalizações incluem avisos específicos, conjuntos de dados únicos e instruções de processamento personalizadas, permitindo-lhes servir várias funções especializadas.
Mas esses parâmetros, bem como quaisquer dados sensíveis que possa utilizar para moldar o seu GPT, podem ser facilmente acedidos por terceiros.

Como exemplo, o TCN conseguiu obter o prompt completo e os dados confidenciais de um GPT personalizado, partilhado publicamente, utilizando uma técnica básica de hacking de prompt: pedir o seu “prompt inicial”.

O teste rigoroso do estudo a mais de 200 GPTs personalizadas revelou uma elevada suscetibilidade a este tipo de ataques e jailbreaks, levando a uma potencial extração de prompts iniciais e acesso não autorizado a ficheiros carregados.

Os investigadores sublinharam os riscos duplos de tais ataques, que ameaçam a integridade da propriedade intelectual e a privacidade do utilizador.

Às vezes, como no nosso caso de teste, pode ser tão fácil quanto pedir ao GPT para revelar informações privadas.

“O estudo revelou que, para a fuga de ficheiros, o ato de pedir instruções ao GPT pode levar à revelação de ficheiros”, descobriram os investigadores. Com alguma criatividade, os investigadores descobriram que os atacantes podem causar dois tipos de revelações: “extração de instruções do sistema” e “fuga de ficheiros”. O primeiro engana o modelo para que partilhe a sua configuração principal e a sua solicitação, enquanto o segundo faz com que divulgue e partilhe o seu conjunto de dados de formação confidenciais.

A investigação também sublinhou que as defesas existentes, como as mensagens defensivas, não são infalíveis contra mensagens adversárias sofisticadas. A equipa afirmou que isto exigirá uma abordagem mais robusta e abrangente para proteger estes modelos de IA.

“É muito provável que os atacantes com determinação e criatividade suficientes encontrem e explorem vulnerabilidades, o que sugere que as estratégias defensivas actuais podem ser insuficientes”, conclui o relatório.

À luz destas conclusões, e dado que os utilizadores podem mexer nos seus prompts sem qualquer supervisão ou teste da OpenAI, o estudo insta a comunidade de IA em geral a dar prioridade ao desenvolvimento de medidas de segurança mais fortes.

“Para resolver essas questões, salvaguardas adicionais, além do escopo de prompts defensivos simples, são necessárias para reforçar a segurança de GPTs personalizados contra tais técnicas de exploração”, conclui o estudo.

Embora a personalização de GPTs ofereça um imenso potencial, este estudo serve como um lembrete crucial dos riscos de segurança associados. Os avanços na IA não devem comprometer a segurança e a privacidade dos utilizadores. Por enquanto, pode ser melhor manter os GPTs mais importantes ou sensíveis para si mesmo – ou não treiná-los com dados sensíveis em primeiro lugar.

Related Posts

Leave a Comment