Home » Twój niestandardowy GPT może zostać oszukany, aby oddać Twoje dane

Twój niestandardowy GPT może zostać oszukany, aby oddać Twoje dane

by Patricia

Jeśli wciąż jesteś w fazie miesiąca miodowego w swoim związku z niestandardowym GPT, przykro nam, że musimy rozlać herbatę.

Niedawne badanie przeprowadzone przez Northwestern University ujawniło zaskakującą lukę w niestandardowych, wstępnie wyszkolonych transformatorach generatywnych (GPT): chociaż można je dostosować do różnych zastosowań, są one również podatne na ataki typu prompt injection, które mogą ujawnić poufne informacje.

GPT to zaawansowane chatboty AI, które mogą być tworzone i kształtowane przez użytkowników ChatGPT OpenAI. Korzystają one z podstawowego modelu językowego ChatGPT (LLM), GPT-4 Turbo, ale są wzbogacone o dodatkowe, unikalne elementy, które wpływają na sposób interakcji z użytkownikiem. Te dostosowania obejmują określone monity, unikalne zestawy danych i dostosowane instrukcje przetwarzania, dzięki czemu mogą obsługiwać różne wyspecjalizowane funkcje.

Parametry te, a także wszelkie wrażliwe dane, których można użyć do ukształtowania GPT, mogą być jednak łatwo dostępne dla stron trzecich.

Jako przykład, TCN był w stanie uzyskać pełny monit i poufne dane niestandardowego, publicznie udostępnionego GPT, używając podstawowej techniki hakowania monitu: prosząc o jego „początkowy monit”.

Rygorystyczne testy ponad 200 niestandardowych GPT ujawniły wysoką podatność na takie ataki i jailbreaki, prowadząc do potencjalnego wyodrębnienia początkowych monitów i nieautoryzowanego dostępu do przesłanych plików.

Badacze podkreślili podwójne ryzyko takich ataków, zagrażające integralności własności intelektualnej i prywatności użytkowników.

Czasami, tak jak w naszym przypadku testowym, może to być tak proste, jak grzeczne poproszenie GPT o ujawnienie prywatnych informacji.

„Badanie ujawniło, że w przypadku wycieku plików, czynność proszenia o instrukcje GPT może prowadzić do ujawnienia plików” – stwierdzili naukowcy. Przy odrobinie kreatywności badacze odkryli, że atakujący mogą spowodować dwa rodzaje ujawnień: „wyodrębnienie monitu systemowego” i „wyciek plików”. Pierwszy z nich oszukuje model, aby udostępnił swoją podstawową konfigurację i monit, podczas gdy drugi zmusza go do ujawnienia i udostępnienia poufnego zestawu danych szkoleniowych.

Badania podkreśliły również, że istniejące mechanizmy obronne, takie jak podpowiedzi defensywne, nie są niezawodne przed wyrafinowanymi podpowiedziami przeciwników. Zespół stwierdził, że będzie to wymagało bardziej solidnego i kompleksowego podejścia do zabezpieczania tych modeli AI.

„Atakujący z wystarczającą determinacją i kreatywnością najprawdopodobniej znajdą i wykorzystają luki w zabezpieczeniach, co sugeruje, że obecne strategie obronne mogą być niewystarczające” – podsumowano w raporcie.

W świetle tych ustaleń i biorąc pod uwagę, że użytkownicy mogą majstrować przy swoich podpowiedziach pod zerowym nadzorem lub testami ze strony OpenAI, badanie wzywa szerszą społeczność AI do priorytetowego traktowania rozwoju silniejszych środków bezpieczeństwa.

„Aby rozwiązać te kwestie, wymagane są dodatkowe zabezpieczenia, wykraczające poza zakres prostych monitów obronnych, w celu wzmocnienia bezpieczeństwa niestandardowych GPT przed takimi technikami wykorzystywania” – podsumowano w badaniu.

Podczas gdy dostosowywanie GPT oferuje ogromny potencjał, badanie to służy jako kluczowe przypomnienie o powiązanych zagrożeniach bezpieczeństwa. Postęp w dziedzinie sztucznej inteligencji nie może zagrażać bezpieczeństwu i prywatności użytkowników. Na razie lepiej jest zachować najważniejsze lub wrażliwe GPT dla siebie – lub nie trenować ich z wrażliwymi danymi w pierwszej kolejności.

Related Posts

Leave a Comment