Ваш пользовательский GPT могут обманом заставить отдать ваши данные

Если вы все еще находитесь на стадии медового месяца в отношениях с вашим пользовательским GPT, нам жаль, что приходится проливать чай.

Недавнее исследование Северо-Западного университета выявило поразительную уязвимость пользовательских генеративных предустановленных трансформаторов (GPT): несмотря на то, что их можно настраивать для различных приложений, они также подвержены атакам с внедрением подсказок, которые могут раскрыть конфиденциальную информацию.

GPT — это продвинутые чат-боты с искусственным интеллектом, которые могут быть созданы и сформированы пользователями OpenAI’s ChatGPT. Они используют основную Большую языковую модель (LLM) ChatGPT, GPT-4 Turbo, но дополнены дополнительными, уникальными элементами, которые влияют на взаимодействие с пользователем. Эти настройки включают в себя специфические подсказки, уникальные наборы данных и специальные инструкции по обработке, что позволяет им выполнять различные специализированные функции.

Но эти параметры, а также любые конфиденциальные данные, которые вы можете использовать для формирования GPT, могут быть легко доступны третьим лицам.

Например, TCN смог получить полную подсказку и конфиденциальные данные пользовательского GPT, находящегося в открытом доступе, используя базовую технику взлома подсказок: запросив его «начальную подсказку».

В результате тщательного тестирования более 200 пользовательских GPT была выявлена высокая восприимчивость к подобным атакам и джейлбрейку, что может привести к извлечению начальных подсказок и несанкционированному доступу к загруженным файлам.

Исследователи подчеркнули двойную опасность таких атак, угрожающих целостности интеллектуальной собственности и конфиденциальности пользователей.

Иногда, как в нашем тестовом случае, можно просто вежливо попросить GPT раскрыть частную информацию.

«Исследование показало, что в случае утечки файлов сам акт запроса инструкций GPT может привести к раскрытию файлов», — обнаружили исследователи. Проявив некоторую изобретательность, исследователи обнаружили, что злоумышленники могут вызвать два типа раскрытия информации: «извлечение системных подсказок» и «утечка файлов». В первом случае модель обманывается и делится своей основной конфигурацией и подсказками, а во втором — раскрывает и делится конфиденциальным набором обучающих данных.

Исследование также показало, что существующие средства защиты, такие как защитные подсказки, не являются надежной защитой от сложных вражеских подсказок. По словам команды, для защиты этих моделей ИИ потребуется более надежный и комплексный подход.

«Злоумышленники, обладающие достаточной решительностью и креативностью, с большой вероятностью найдут и используют уязвимости, что говорит о том, что текущие защитные стратегии могут быть недостаточными», — говорится в заключении отчета.

В свете этих выводов, а также учитывая, что пользователи могут изменять свои подсказки при полном отсутствии контроля или тестирования со стороны OpenAI, исследование призывает широкое сообщество ИИ уделить приоритетное внимание разработке более надежных мер безопасности.

«Для решения этих проблем необходимы дополнительные меры защиты, выходящие за рамки простых защитных подсказок, чтобы укрепить безопасность пользовательских GPT от подобных методов эксплуатации», — говорится в заключении исследования.

Хотя кастомизация GPT обладает огромным потенциалом, данное исследование служит важным напоминанием о связанных с ней рисках безопасности. Достижения в области искусственного интеллекта не должны ставить под угрозу безопасность и конфиденциальность пользователей. Пока что лучше держать наиболее важные или чувствительные GPT при себе — или вообще не обучать их работе с конфиденциальными данными.

Ваш пользовательский GPT могут обманом заставить отдать ваши данные

Разумное решение: Meta выводит на рынок Audiobox с искусственным интеллектом

OurSky привлекает $9,5 млн для создания API для астрономии с открытым исходным кодом

Related Posts

Leave a Comment Cancel Reply