Home » Váš vlastní GPT může být podveden, aby vám předal vaše data

Váš vlastní GPT může být podveden, aby vám předal vaše data

by v

Pokud jste stále ve fázi líbánek ve vztahu s vlastním GPT, je nám líto, že vám musíme prozradit, co se děje.

Nedávná studie Severozápadní univerzity odhalila překvapivou zranitelnost vlastních generativních přednastavených transformátorů (GPT): ačkoli je lze přizpůsobit pro různé aplikace, jsou také náchylné k útokům typu prompt injection, které mohou odhalit citlivé informace.

GPT jsou pokročilí chatboti s umělou inteligencí, které mohou vytvářet a tvarovat uživatelé aplikace ChatGPT společnosti OpenAI. Využívají jádro velkého jazykového modelu (LLM) ChatGPT, GPT-4 Turbo, ale jsou obohaceny o další unikátní prvky, které ovlivňují jejich interakci s uživatelem. Tyto úpravy zahrnují specifické výzvy, jedinečné datové sady a přizpůsobené instrukce pro zpracování, což jim umožňuje plnit různé specializované funkce.

K těmto parametrům, stejně jako k jakýmkoli citlivým údajům, které můžete použít k utváření svého GPT, však mohou snadno získat přístup třetí strany.

Jako příklad lze uvést, že společnost TCN byla schopna získat úplnou výzvu a důvěrné údaje vlastního, veřejně sdíleného GPT pomocí základní techniky hackování výzvy: dotazem na její „počáteční výzvu“.


Důkladné testování více než 200 vlastních GPT ve studii odhalilo vysokou náchylnost k takovým útokům a únikům z vězení, což vede k možnému extrahování počátečních výzev a neoprávněnému přístupu k nahraným souborům.

Výzkumníci zdůraznili dvojí riziko takových útoků, které ohrožuje integritu duševního vlastnictví a soukromí uživatelů.

Někdy, jako v našem testovacím případě, to může být tak snadné, jako hezky požádat GPT o odhalení soukromých informací.

„Studie odhalila, že v případě úniku souborů může k jejich odhalení vést už samotný akt požádání o pokyny GPT,“ zjistili výzkumníci. S jistou dávkou kreativity výzkumníci zjistili, že útočníci mohou způsobit dva typy prozrazení: „extrakce systémových pokynů“ a „únik souborů“. První z nich přiměje model ke sdílení základní konfigurace a výzvy, zatímco druhý ho donutí odhalit a sdílet důvěrný soubor tréninkových dat.

Výzkum také zdůraznil, že stávající obranné prostředky, jako jsou obranné výzvy, nejsou spolehlivé proti sofistikovaným výzvám protivníka. Podle týmu to bude vyžadovat robustnější a komplexnější přístup k zabezpečení těchto modelů umělé inteligence.

„Útočníci s dostatečným odhodláním a kreativitou velmi pravděpodobně najdou a využijí zranitelnosti, což naznačuje, že současné obranné strategie mohou být nedostatečné,“ uzavírá zpráva.

Ve světle těchto zjištění a vzhledem k tomu, že uživatelé si mohou pohrávat se svými podněty pod nulovým dohledem nebo testováním ze strany OpenAI, studie vyzývá širší komunitu AI, aby upřednostnila vývoj silnějších bezpečnostních opatření.

„K řešení těchto problémů jsou zapotřebí další ochranná opatření, přesahující rozsah jednoduchých obranných výzev, která posílí bezpečnost vlastních GPT proti takovým technikám zneužití,“ uzavírá studie..

Přestože přizpůsobení GPT nabízí obrovský potenciál, tato studie slouží jako zásadní připomínka souvisejících bezpečnostních rizik. Pokrok v oblasti umělé inteligence nesmí ohrozit bezpečnost a soukromí uživatelů. Prozatím je možná lepší nechat si nejdůležitější nebo nejcitlivější GPT pro sebe – nebo je vůbec netrénovat s citlivými údaji.

Related Posts

Leave a Comment