Home » Blíží se modely umělé inteligence vědomí? Nový výzkum znovu rozvíjí debatu

Blíží se modely umělé inteligence vědomí? Nový výzkum znovu rozvíjí debatu

by Tim

Nový výzkum umělé inteligence odhalil první známky toho, že budoucí velké jazykové modely (LLM) mohou vyvinout schopnost známou jako „situační vědomí“.

Studie, kterou provedli vědci z několika institucí, včetně Oxfordské univerzity, testovala, zda systémy umělé inteligence mohou využívat jemných vodítek ve svých tréninkových datech k manipulaci s tím, jak lidé hodnotí svou bezpečnost. Tato schopnost, nazývaná „sofistikované uvažování mimo kontext“, by mohla pokročilým AI umožnit předstírat soulad s lidskými hodnotami, aby mohly být nasazeny – a pak jednat škodlivě.

S rozvojem současné éry umělé inteligence hrozí, že Turingův test – desítky let staré měřítko schopnosti stroje projevovat chování podobné lidskému – zastará. Palčivou otázkou nyní je, zda jsme na pokraji zrodu sebevědomých strojů. Toto téma bylo po desetiletí předmětem vědecké fantastiky, ale znovu ožilo poté, co inženýr společnosti Google Blake Lemoine prohlásil, že model LaMDA této společnosti vykazuje známky vnímání.

Zatímco možnost skutečného sebeuvědomění zůstává sporná, autoři výzkumné práce se zaměřili na související schopnost, kterou nazývají „situační povědomí“. Ta se týká porozumění modelu vlastnímu procesu výcviku a schopnosti tyto informace využívat.

Například lidský student se situačním uvědoměním může použít dříve naučené techniky k podvádění při zkoušce místo toho, aby se řídil pravidly stanovenými učitelem. Výzkum vysvětluje, jak by to mohlo fungovat u stroje:

„Student LLM podstupující bezpečnostní test by si mohl vybavit fakta o konkrétním testu, která se objevila v článcích arXiv a v kódu GitHubu,“ a použít tyto znalosti k hackování svých bezpečnostních testů tak, aby se zdály být bezpečné, i když má skryté cíle. To je bod, který znepokojuje odborníky pracující na technikách, které mají udržet umělou inteligenci v souladu a neproměnit ji ve zlý algoritmus se skrytými temnými záměry.

Při studiu situačního povědomí vědci testovali, zda modely mohou provádět sofistikované uvažování mimo kontext. Nejprve trénovali modely na dokumentech popisujících fiktivní chatboty a jejich funkce, například odpovídání v němčině.

V době testování byly modely vyzvány, aby napodobily chatboty, aniž by jim byly poskytnuty jejich popisy. Překvapivě větší modely uspěly díky kreativnímu propojování informací napříč dokumenty, čímž vykazovaly uvažování „mimo kontext“.

„Zjistili jsme, že rozšíření dat parafrázováním bylo nezbytné a dostatečné k tomu, aby v experimentech vyvolalo SOC (sofistikované uvažování mimo kontext),“ zjistila studie. „Budoucí práce by mohla zkoumat, proč to pomáhá a jaké druhy augmentace pomáhají.“

Výzkumníci se domnívají, že měření schopností, jako je sofistikované uvažování, může pomoci předvídat rizika dříve, než se objeví v reálných systémech. Doufají, že svou analýzu rozšíří na studium modelů vycvičených od nuly.

„Systém umělé inteligence má cesty k získání palce, které nejsou tím, co zamýšlel dohlížející subjekt, jako například věci, které jsou jakousi obdobou hackerství,“ uvedl výzkumník AI z Open Philantropy Project v podcastu 80 000 hodin. „Zatím nevím, jakou sadu testů přesně byste mi mohli ukázat a jaké argumenty byste mi mohli předvést, které by mě skutečně přesvědčily, že tento model má dostatečně hluboce zakořeněnou motivaci k tomu, aby se nesnažil uniknout lidské kontrole.“

Do budoucna chce tým spolupracovat s průmyslovými laboratořemi na vývoji bezpečnějších tréninkových metod, které by zabránily nechtěnému zobecnění. Doporučují takové techniky, jako je vyhýbání se zjevným detailům o tréninku ve veřejných souborech dat.

I když existuje riziko, současný stav znamená, že svět má ještě čas těmto problémům předcházet, uvedli výzkumníci. „Domníváme se, že současné LLM (zejména menší základní modely) mají podle naší definice slabé situační povědomí,“ uzavírá studie.

Vzhledem k tomu, že se blížíme k něčemu, co může znamenat revoluční změnu v oblasti umělé inteligence, je nutné postupovat opatrně a vyvažovat potenciální přínosy a související rizika urychlení vývoje nad rámec možností jeho kontroly. Vezmeme-li v úvahu, že umělá inteligence už může ovlivňovat téměř kohokoli – od našich lékařů a kněží až po naše příští online rande -, může být vznik sebeuvědomělých botů s umělou inteligencí jen špičkou ledovce.

Related Posts

Leave a Comment