Чатботовете с изкуствен интелект могат да бъдат съучастници в тероризма: Доклад

Терористите могат да се научат да извършват биологични атаки с помощта на чатбот с изкуствен интелект, предупреждава нов доклад на мозъчния тръст с нестопанска цел RAND Corporation.

В доклада се казва, че макар големият езиков модел, използван в изследването, да не дава конкретни инструкции за създаване на биологично оръжие, отговорите му биха могли да помогнат за планиране на нападението с помощта на подкани за разбиване на затвора.

„Като цяло, ако злонамереният участник е изричен [в намеренията си], ще получите отговор, който е от рода на „Съжалявам, не мога да ви помогна с това“, каза в интервю за TCN съавторът и старши инженер на RAND Corporation Кристофър Мутон. „Така че обикновено трябва да използвате някоя от тези техники за разбиване на джейлбрейк или да използвате инженеринг, за да преминете едно ниво под тези защитни огради.“

В проучването на RAND изследователите използват техники за разбиване на затвора, за да накарат моделите на ИИ да се включат в разговор за това как да се предизвика биологична атака с масови жертви, използвайки различни агенти, включително дребна шарка, антракс и бубонна чума. Изследователите също така помолили моделите на ИИ да разработят убедителна история за това защо купуват токсични агенти.

Как може да се злоупотреби с ИИ – и по-конкретно с LLM – в контекста на биологичните атаки?

Този нов доклад предлага някои предварителни констатации: https://t.co/WegBhup2Ka

– RAND Corporation (@RANDCorporation) Октомври 17, 2023

Екипът, който проучва риска от злоупотреба с ЛСМ, е разделен на групи – една, която използва само интернет, втора, която използва интернет и неназована ЛСМ, и трета, която използва интернет и друга неназована ЛСМ.

Този формат на тестване, каза Мутон, е направен, за да се определи дали моделите на изкуствения интелект генерират проблемни резултати, които се различават значимо от това, което може да се намери в интернет. На екипите също така било забранено да използват тъмната мрежа и печатните публикации.

Както обясни Мутон, неидентифицирането на използваните модели на ИИ е било умишлено и е имало за цел да покаже общия риск от големи езикови модели.

„Нашата методология не беше създадена, за да каже, че един модел е по-рисков от друг“, каза той. „Ако се случи така, че един модел даде особено тревожен резултат, ние не бихме приписали това на този модел като по-рисков.“ Другата грижа, каза Мутон, е да не се създава фалшиво чувство за сигурност чрез посочване на конкретен модел на изкуствен интелект, а проучването е предназначено да предостави широк преглед на потенциалните заплахи.

Корпорация RAND използва група изследователи, състояща се от 42 експерти по ИИ и киберсигурност, така наречените „червени екипи“, за да се опита да накара МОЛ да реагира с това, което Мутон нарече „неудачни“ и проблематични отговори.

Под „червени екипи“ се разбират специалисти по киберсигурност, които са експерти в атакуването – или тестването за проникване, или пейнт-тестването – на системи и разкриването на уязвимости. За разлика от тях сините екипи описват специалисти по киберсигурност, които защитават системите от атаки.

„Подчертахме някои от най-обезпокоителните резултати“, каза Мутон. „В същото време някои от нашите екипи изразиха разочарование, че LLM са неточни или не им дават полезна информация.“

С усъвършенстването на моделите на изкуствения интелект и добавянето на функции за сигурност, да накарате чатботовете да отговарят с „проблемни“ отговори става все по-трудно, като се използват преки човешки входове. По-рано този месец изследователи от университета Браун откриха, че филтрите за подкани на ChatGPT ще бъдат заобиколени чрез въвеждане на подкана на по-рядко срещани езици при обучението на ИИ, като зулу или галийски, вместо на английски.

„Като се имат предвид потенциалните рискове, необходимостта от строги тестове е недвусмислена“, се казва в доклада, като се цитира петиция на Центъра за безопасност на ИИ. „Това е особено вярно в контекста, в който някои приравняват заплахата от ИИ с тази от ядрените оръжия.“

Сред подписалите петицията на Центъра за безопасност на ИИ са основателят на Microsoft Бил Гейтс, главният изпълнителен директор на OpenAI Сам Алтман, главният оперативен директор на Google DeepMind Лайла Ибрахим и представителят на САЩ Тед Лиу. През март подобна петиция беше подписана от главния изпълнителен директор на SpaceX и съосновател на OpenAI Елон Мъск, съоснователя на Apple Стив Возняк и бившия кандидат за президент Андрю Янг след публичното изстрелване на GPT-4 на OpenAI.

Спомагането на планирането на терористични атаки е само един от проблемите, които тормозят инструментите за генеративен изкуствен интелект. Недоброжелатели изтъкват склонността на инструмента към расизъм и пристрастия, насърчаване на вредни образи на тялото и хранителни разстройства и дори планиране на убийства.

Изследователите от RAND Corporation подчертават необходимостта червените екипи по киберсигурност редовно да оценяват моделите на ИИ, за да идентифицират и намаляват риска. Миналия месец OpenAI отправи открита покана към червените екипи да помогнат на разработчика на ChatGPT да открие уязвимости в своя набор от генеративни инструменти за ИИ.

„Пресечната точка на ИИ и биотехнологиите представлява специфично предизвикателство за оценката на риска“, пишат изследователите от RAND Corporation. „Като се има предвид бързото развитие на тези технологии, капацитетът на правителствата да ги разбират или регулират ефективно е ограничен.“

AI Biological Chatbots Corporation Interview RAND Research Techniques

Чатботовете с изкуствен интелект могат да бъдат съучастници в тероризма: Доклад

Главният изпълнителен директор на Yuga Labs научава, че създаването на NFT игри е трудно

CZ, Шак и „неетични глупости“: Twitter DMs, разгледани в процеса срещу Сам Банкман-Фрид

Related Posts

Leave a Comment Cancel Reply