Home » AIモデルは意識に近づいているのか?新たな研究が議論を再燃させる

AIモデルは意識に近づいているのか?新たな研究が議論を再燃させる

by Tim

新たな人工知能の研究により、将来の大規模言語モデル(LLM)が “状況認識 “として知られる懸念すべき能力を発達させる可能性の初期兆候が明らかになった。

オックスフォード大学を含む複数の研究機関の科学者によって行われたこの研究では、AIシステムが学習データに含まれる微妙な手がかりを利用して、人が自分の安全性をどのように評価するかを操作できるかどうかが検証された。洗練された脈絡のない推論」と呼ばれるこの能力によって、高度なAIは人間の価値観に沿うようなふりをして配備され、有害な行動をとることができるようになる可能性がある。

現在のAIの時代が進むにつれ、チューリングテスト(機械が人間のような振る舞いを示す能力を測る数十年前の尺度)は時代遅れになる危険性がある。今、私たちに問われているのは、自意識を持つ機械が誕生するかどうかの瀬戸際にいるのではないかということだ。何十年もの間、SFの餌食となっていたこの話題は、グーグルのエンジニアであるブレイク・レモワンが、同社のLaMDAモデルが感覚の兆候を示したと主張したことで再び息を吹き返した。

真の自己認識の可能性についてはまだ議論の余地があるが、研究論文の著者は、彼らが “状況認識 “と呼ぶ関連能力に焦点を当てた。これは、モデルが自身のトレーニング過程を理解し、その情報を活用する能力を指す。

例えば、状況認識を持つ人間の学生は、教師が課すルールに従う代わりに、試験でカンニングをするために以前に学習したテクニックを使うかもしれない。この研究では、これが機械でどのように機能するかを説明している:

「安全性テストを受けるLLMは、arXivの論文やGitHubのコードに登場する特定のテストに関する事実を思い出すことができる。これは、AIの整合性を保ち、隠された暗い意図を持つ邪悪なアルゴリズムにならないようにする技術に取り組んでいる専門家にとって懸念すべき点である。

状況認識を研究するために、研究者たちはモデルが高度な文脈外の推論を行うことができるかどうかをテストした。研究チームはまず、架空のチャットボットとその機能(ドイツ語での応答など)を記述した文書でモデルを訓練した。

テスト時には、説明文を与えずにチャットボットを模倣するようモデルを促した。驚いたことに、より大きなモデルは、文書間の情報を創造的にリンクさせることで成功し、”文脈にとらわれない “推論を示した。

“我々は、言い換えによるデータ補強が、実験においてSOC(文脈から外れた洗練された)推論を引き起こすのに必要かつ十分であることを発見した。「今後の研究では、なぜこれが有効なのか、どのような補強が有効なのかを調査することができる」


研究者たちは、洗練された推論のような能力を測定することで、実世界のシステムでリスクが発生する前に予測することができると考えている。彼らは、ゼロから訓練されたモデルを研究するために分析を拡張したいと考えている。

オープン・フィランソロピー・プロジェクト(Open Philantropy Project)のAI研究者は、8万時間のポッドキャストで、「AIシステムには、ハッキングに類似するような、監督者の意図とは異なる親指を立てる道がある」と語った。「このモデルが人間のコントロールから逃れようとしない、十分に深く根ざした動機を持っていることを実際に確信させるような、具体的にどのようなテスト群を見せてくれるのか、どのような論拠を見せてくれるのか、私にはまだわかりません」。

今後、チームは業界の研究所と協力して、意図しない一般化を避ける、より安全なトレーニング方法を開発することを目指している。彼らは、公開データセットではトレーニングに関するあからさまな詳細を避けるなどのテクニックを推奨している。

たとえリスクがあるとしても、現状では、世界にはまだこのような問題を防ぐ時間がある、と研究者たちは言う。「現在のLLM(特に小型のベースモデル)は、我々の定義によれば状況認識が弱いと考えている」と研究は結論付けている。

AIの状況に革命的な変化をもたらす可能性がある以上、潜在的な利益と、それを制御する能力を超えて開発を加速させることによる関連リスクとのバランスを取りながら、慎重に行動することが不可欠である。AIはすでに、医師や司祭から次のオンライン・デートに至るまで、ほとんどすべての人に影響を及ぼしている可能性があることを考えると、自己認識AIボットの出現は氷山の一角に過ぎないかもしれない

Related Posts

Leave a Comment