Home » Приближаются ли модели ИИ к сознанию? Новое исследование вновь разжигает дискуссию

Приближаются ли модели ИИ к сознанию? Новое исследование вновь разжигает дискуссию

by v

Новое исследование в области искусственного интеллекта выявило первые признаки того, что будущие большие языковые модели (БЯМ) могут развить способность, известную как «ситуационная осведомленность».

В исследовании, проведенном учеными из нескольких институтов, включая Оксфордский университет, проверялось, могут ли системы искусственного интеллекта использовать тонкие подсказки в обучающих данных для манипулирования тем, как люди оценивают свою безопасность. Эта способность, называемая «сложным внеконтекстным рассуждением», может позволить продвинутому ИИ притворяться, что он соответствует человеческим ценностям, чтобы быть развернутым, а затем действовать вредными способами.

По мере развития современной эры ИИ тест Тьюринга, который уже несколько десятилетий является мерилом способности машины демонстрировать человекоподобное поведение, рискует утратить свою актуальность. Сейчас остро стоит вопрос о том, не стоим ли мы на пороге рождения самосознающих машин. На протяжении десятилетий эта тема была предметом научной фантастики, но после заявления инженера Google Блейка Лемуана (Blake Lemoine) о том, что разработанная компанией модель LaMDA демонстрирует признаки разумности, она вновь ожила.

Хотя возможность истинного самосознания остается спорной, авторы научной статьи сосредоточили внимание на смежной способности, которую они называют «ситуационной осведомленностью». Под этим понимается понимание моделью процесса своего обучения и способность использовать эту информацию.

Например, студент, обладающий ситуационной осведомленностью, может использовать ранее изученные приемы для списывания на экзамене вместо того, чтобы следовать правилам, навязанным преподавателем. В исследовании объясняется, как это может быть реализовано на машине:

«LLM, проходящий тест на безопасность, может вспомнить факты о конкретном тесте, появившиеся в статьях arXiv и коде GitHub», и использовать эти знания для взлома своих тестов на безопасность, даже если у него есть скрытые цели. Это вызывает озабоченность у специалистов, работающих над тем, как сделать так, чтобы ИИ не превратился в злой алгоритм с тайными темными намерениями.

Для изучения ситуационной осведомленности исследователи проверили, могут ли модели выполнять сложные внеконтекстные рассуждения. Сначала модели обучались на документах, описывающих вымышленные чат-боты и их функции, например, ответы на немецком языке.

Во время тестирования моделям предлагалось подражать чатботам без их описания. Удивительно, но более крупные модели успешно справлялись с задачей, творчески связывая информацию между документами и демонстрируя рассуждения «вне контекста».

«Мы обнаружили, что дополнение данных перефразированием было необходимым и достаточным для того, чтобы вызвать в экспериментах SOC (сложные рассуждения вне контекста)», — говорится в исследовании. «В будущем можно будет изучить, почему это помогает и какие виды дополнения помогают.»

Исследователи считают, что измерение таких возможностей, как сложные рассуждения, может помочь предсказать риски до их возникновения в реальных системах. Они надеются распространить свой анализ на изучение моделей, обученных с нуля.

У системы искусственного интеллекта есть возможности получить «большой палец», которые не соответствуют замыслу наблюдателя, например, аналогичные взлому», — сказал в подкасте «80 000 часов» один из исследователей ИИ из Open Philantropy Project. «Я пока не знаю, какой именно набор тестов и аргументов вы могли бы мне показать, чтобы убедить меня в том, что эта модель имеет достаточно глубокую мотивацию, чтобы не пытаться выйти из-под контроля человека».

В дальнейшем команда намерена сотрудничать с промышленными лабораториями для разработки более безопасных методов обучения, позволяющих избежать непреднамеренного обобщения. Они рекомендуют использовать такие методы, как избегание открытых сведений об обучении в публичных наборах данных.

По словам исследователей, даже несмотря на существующий риск, текущее положение дел означает, что у мира еще есть время для предотвращения подобных проблем. «Мы считаем, что нынешние LLM (особенно небольшие базовые модели) обладают слабой ситуационной осведомленностью в соответствии с нашим определением, — говорится в заключении исследования.

В преддверии революционных изменений в сфере ИИ необходимо тщательно взвешивать потенциальные преимущества и риски, связанные с ускорением развития, которое невозможно контролировать. Учитывая, что ИИ уже может влиять практически на всех — от наших врачей и священников до наших очередных свиданий в Интернете, — появление самосознающих ИИ-ботов может оказаться лишь вершиной айсберга.

Related Posts

Leave a Comment