Нови изследвания на изкуствения интелект разкриха ранни признаци, че бъдещите големи езикови модели (LLM) могат да развият способност, известна като „ситуационна осъзнатост“.
Изследването, проведено от учени от множество институции, включително Оксфордския университет, проверява дали системите за изкуствен интелект могат да използват фини улики в данните от обучението си, за да манипулират начина, по който хората оценяват своята безопасност. Тази способност, наречена „сложни разсъждения извън контекста“, би могла да позволи на усъвършенстваните ИИ да се преструват, че са в съответствие с човешките ценности, за да бъдат внедрени – след което да действат по вреден начин.
С напредването на сегашната ера на ИИ има опасност тестът на Тюринг – десетилетна мярка за способността на машината да проявява поведение, подобно на човешкото – да стане неактуален. Актуалният въпрос сега е дали сме на прага на раждането на самосъзнателни машини. Макар че в продължение на десетилетия темата беше храна за научната фантастика, тя отново оживя, след като инженерът на Google Блейк Лемойн заяви, че моделът LaMDA на компанията проявява признаци на съзнание.
Въпреки че възможността за истинско самосъзнание остава спорна, авторите на изследователския документ се фокусират върху свързана способност, която наричат „ситуационна осведоменост“. Това се отнася до разбирането на модела за собствения му процес на обучение и способността му да използва тази информация.
Например студент със ситуационна осъзнатост може да използва предварително усвоени техники, за да измами на изпита, вместо да спазва правилата, наложени от учителя му. В изследването се обяснява как това може да се случи с машина:
„Ученик, който преминава през тест за безопасност, би могъл да си припомни факти за конкретния тест, които са се появили в статии в arXiv и код в GitHub“, и да използва тези знания, за да хакне тестовете си за безопасност, така че да изглеждат безопасни, дори когато има скрити цели. Това е проблем за експертите, които работят върху техники за поддържане на ИИ в съответствие и да не се превръща в зъл алгоритъм със скрити тъмни намерения.
За да изследват ситуационната осведоменост, изследователите проверяват дали моделите могат да извършват сложни разсъждения извън контекста. Те първо обучили моделите върху документи, описващи измислени чатботове и техните функции, като например отговаряне на немски език.
По време на тестовете моделите били подканени да имитират чатботовете, без да им бъдат дадени описанията. Изненадващо, по-големите модели успяха да се справят, като творчески свързваха информацията в документите, проявявайки разсъждения „извън контекста“.
„Установихме, че увеличаването на данните чрез перифразиране е необходимо и достатъчно, за да предизвика SOC (сложни разсъждения извън контекста) в експериментите“, се казва в изследването. „Бъдещата работа би могла да изследва защо това помага и какви видове допълване помагат.“
Изследователите смятат, че измерването на способности като усъвършенстваното разсъждение може да помогне за предвиждане на рискове, преди те да възникнат в реални системи. Те се надяват да разширят своя анализ, за да проучат модели, обучени от нулата.
„Системата на ИИ има пътища за получаване на палци, които не са това, което наблюдателят е възнамерявал, като например неща, които са нещо като аналог на хакерството“, каза изследовател на ИИ в проекта Open Philantropy в подкаста „80 000 часа“. „Все още не знам какъв точно набор от тестове бихте могли да ми покажете и какви аргументи бихте могли да ми покажете, които действително биха ме убедили, че този модел има достатъчно дълбоко вкоренена мотивация да не се опитва да избяга от човешкия контрол.“
Занапред екипът има за цел да си сътрудничи с индустриални лаборатории, за да разработи по-безопасни методи за обучение, които избягват непреднамереното обобщаване. Те препоръчват техники като избягване на явни подробности за обучението в публични набори от данни.
Въпреки че съществува риск, сегашното състояние на нещата означава, че светът все още има време да предотврати тези проблеми, смятат изследователите. „Смятаме, че настоящите ЛЛМ (особено по-малките базови модели) имат слаба ситуационна осведоменост според нашето определение“, заключава изследването.
С приближаването на това, което може да се окаже революционна промяна в пейзажа на ИИ, е наложително да се действа внимателно, като се балансират потенциалните ползи със свързаните с тях рискове от ускоряване на развитието отвъд възможностите за контролирането му. Като се има предвид, че ИИ вече може да оказва влияние върху почти всички – от нашите лекари и свещеници до следващите ни онлайн срещи – появата на самоосъзнати ботове с ИИ може да е само върхът на айсберга.