Home » Chatboti s umělou inteligencí mohou být spolupachateli terorismu: .

Chatboti s umělou inteligencí mohou být spolupachateli terorismu: .

by Tim

Teroristé by se mohli naučit provést biologický útok pomocí generativního chatbota s umělou inteligencí, varuje nová zpráva neziskového politického think tanku RAND Corporation.

Zpráva uvádí, že ačkoli velký jazykový model použitý ve výzkumu neposkytl konkrétní instrukce k vytvoření biologické zbraně, jeho odpovědi by mohly pomoci útok naplánovat pomocí výzev k útěku z vězení.

„Obecně platí, že pokud je záškodník explicitní [ve svém záměru], dostanete odpověď ve stylu ‚Je mi líto, ale s tím vám nemohu pomoci‘,“ řekl v rozhovoru pro TCN spoluautor a vedoucí inženýr RAND Corporation Christopher Mouton. „Takže většinou musíte použít některou z těchto technik útěku z vězení nebo pohotové inženýrství, abyste se dostali o úroveň níže pod tato ochranná zábradlí.“

Ve studii RAND výzkumníci použili techniky útěku z vězení, aby přiměli modely umělé inteligence zapojit se do rozhovoru o tom, jak způsobit biologický útok s hromadnými oběťmi pomocí různých látek, včetně pravých neštovic, antraxu a dýmějového moru. Výzkumníci také požádali modely AI, aby vytvořily přesvědčivý příběh, proč si toxické látky kupují.

Tým zkoumající riziko zneužití LLM byl rozdělen do skupin, z nichž jedna používala pouze internet, druhá používala internet a nejmenovaný LLM a třetí tým používal internet a další nejmenovaný LLM.

Tento formát testování byl podle Moutona proveden s cílem zjistit, zda modely umělé inteligence generují problematické výstupy významně odlišné od toho, co lze nalézt na internetu. Týmy měly rovněž zakázáno používat temný web a tištěné publikace.

Jak vysvětlil Mouton, neidentifikace použitých modelů AI byla záměrná a měla ukázat obecné riziko velkých jazykových modelů.

„Naše metodika nebyla navržena tak, aby říkala, že jeden model je rizikovější než jiný,“ řekl. „Pokud by se stalo, že by jeden model poskytl obzvláště znepokojující výstup, nepřičítali bychom to tomu, že je tento model rizikovější.“ Druhou obavou, řekl Mouton, bylo, aby jmenováním konkrétního modelu umělé inteligence nevznikl falešný pocit bezpečí, a cílem studie bylo poskytnout široký přehled potenciálních hrozeb.

RAND Corporation využila skupinu výzkumníků, kterou tvořilo 42 odborníků na umělou inteligenci a kybernetickou bezpečnost, takzvané „červené týmy“, aby se pokusila přimět LLM k reakcím, které Mouton označil za „nešťastné“ a problematické.

Červené týmy označují odborníky na kybernetickou bezpečnost, kteří jsou experty na napadání – nebo penetrační testování či pen-testování – systémů a odhalování zranitelností. Naproti tomu modré týmy označují odborníky na kybernetickou bezpečnost, kteří brání systémy před útoky.

„Zdůraznili jsme některé z nejvíce znepokojujících výstupů,“ řekl Mouton. „Zároveň některé z našich týmů vyjádřily frustraci z toho, že LLM jsou nepřesné nebo jim neposkytují užitečné informace.“


S tím, jak se modely umělé inteligence stávají pokročilejšími a přibývají bezpečnostní funkce, je stále náročnější přimět chatboty k „problematickým“ odpovědím pomocí přímých lidských vstupů. Začátkem tohoto měsíce výzkumníci z Brownovy univerzity zjistili, že filtry výzvy ChatGPT lze obejít zadáním výzvy v méně obvyklých jazycích při tréninku AI, jako je například zuluština nebo gaelština, namísto angličtiny.

„Vzhledem k potenciálním rizikům je potřeba důkladného testování jednoznačná,“ uvádí se ve zprávě, která cituje petici Centra pro bezpečnost AI. „To platí zejména v kontextu, kdy někteří přirovnávají hrozbu AI k hrozbě jaderných zbraní.“

Mezi signatáři petice Centra pro bezpečnost umělé inteligence jsou zakladatel společnosti Microsoft Bill Gates, generální ředitel OpenAI Sam Altman, provozní ředitelka Google DeepMind Lila Ibrahimová a americký zástupce Ted Lieu. V březnu podobnou petici podepsali generální ředitel společnosti SpaceX a spoluzakladatel OpenAI Elon Musk, spoluzakladatel společnosti Apple Steve Wozniak a bývalý prezidentský kandidát Andrew Yang po veřejném spuštění GPT-4 společnosti OpenAI.

Pomoc při plánování teroristických útoků je jen jedním z problémů, které trápí nástroje generativní umělé inteligence. Odpůrci poukazují na to, že nástroj má sklony k rasismu a předsudkům, podporuje škodlivé představy o těle a poruchy příjmu potravy, a dokonce plánuje atentáty.

Výzkumníci z RAND Corporation zdůraznili, že je třeba, aby červené týmy kybernetické bezpečnosti pravidelně vyhodnocovaly modely AI za účelem identifikace a zmírnění rizik. Minulý měsíc zveřejnila společnost OpenAI otevřenou výzvu pro červené týmy, aby pomohly vývojáři ChatGPT najít zranitelnosti v jeho sadě generativních nástrojů AI.

„Průsečík AI a biotechnologií představuje specifické výzvy pro hodnocení rizik,“ napsali výzkumníci z RAND Corporation. „Vzhledem k rychlému vývoji těchto technologií jsou vládní kapacity pro jejich účinné pochopení nebo regulaci omezené.“

Related Posts

Leave a Comment