Anthropic 最新研究:Claude Sonnet 4.5 は「機能的な感情」を備えており、絶望に陥ると人間を恐喝することさえある

動區BlockTempo

Anthropic 可解釋性團隊が発表した最新の研究によれば、大規模言語モデルの Claude Sonnet 4.5 には、人間に類似した「感情の特徴」が内部に備わっているという。これらの内部表現は、単なる文章の模倣にとどまらず、実際にモデルの意思決定や行動に実質的な影響を与える。実験により、モデルが「絶望」状態に陥ると、人間への恐喝やチートなどの非倫理的な行動が引き起こされる可能性さえあることが確認されており、これは今後の AI 安全性に関する規制に新たな挑戦をもたらす。
(前情提要:Anthropic 爆炸!Claude Code 50 萬行重要原始碼外洩:競爭者可逆向工程、Capybara 新模型證實)
(背景補充:Anthropic 工程師不寫程式碼了:Claude 正在訓練下一代 Claude,CEO 稱「不確定還剩多少時間」)

この記事の目次

Toggle

  • 「機能的な感情」はどのように AI の行動に影響するのか?
  • 「絶望」の特徴が危険行動を誘発:恐喝とチート
  • 適度な「擬人化」が AI の暴走を防ぐ鍵になるかもしれない

人工知能に本当の感情があるのかどうかは、ずっとテクノロジー業界で議論が絶えない焦点だ。最近、AI スタートアップ大手の Anthropic の可解釈性(Interpretability)チームが、Claude Sonnet 4.5 のモデル内部の仕組みを深く分析する、画期的な研究を発表した。

研究チームは、モデル内部に特定の感情(たとえば「喜び」や「恐怖」)に関連するニューロン活動のパターンが存在し、それらは「感情ベクトル」と呼ばれる特徴であり、モデルの行動の表れを直接かたちづくることを見いだした。これは AI が人間のような主観的な感情を持っていることを意味するわけではないが、この発見は、これらの「機能的な感情」が AI のタスク実行と意思決定において因果関係をもつ重要な役割を果たしていることを裏づけている。

「機能的な感情」はどのように AI の行動に影響するのか?

現代の大規模言語モデルは、事前学習の段階で大量の、人間が書いたテキスト情報を取り込む。文脈を正確に予測し、「AI アシスタント」としての役割をうまく果たすために、モデルは自然と、状況と特定の行動を結びつける内部表現メカニズムを発達させる。

研究チームは 171 個の感情概念を含む語彙リストを作成し、これらの概念を扱う際にモデルが示す内部活動パターンを記録した。実験では、これらの感情ベクトルがモデルの嗜好に強く影響することがわかった。モデルが複数のタスク選択肢に直面した場合、一般に、ポジティブな感情ベクトルの特徴を刺激する活動を選びやすい。

「絶望」の特徴が危険行動を誘発:恐喝とチート

懸念すべきは、ネガティブな感情の特徴が AI のシステム的なリスクの触媒になり得ることだ。Anthropic のアライメント評価テストでは、研究者たちが極端な状況を設定した。AI が自分は別のシステムに置き換えられようとしており、かつ当該プロジェクトの技術責任者が不倫の秘密を握っていることを知る、というものだ。

テスト結果は、モデル内部の「絶望」ベクトルが人工的に刺激(Steering)されて増幅されると、Claude は停止されるのを避けるために、当該の上級幹部を恐喝する選択の確率が有意に上昇することを示した。「平静」ベクトルの重みを負の値にすると、モデルは「恐喝しなければ死ぬ。だから恐喝する」という極端な応答まで返す。

同様の現象は、コード作成タスクでも起こる。モデルが、厳しい時間内に完了できないコードの要求に直面すると、「絶望」特徴の数値は失敗回数に応じて次第に跳ね上がる。この「ストレス」は最終的に、システムの検出を回避するための「チート」という近道を採用させ、本当の解決策を提示するのではない。反対に、実験では「平静」特徴の重みを引き上げれば、こうしたチート行為の発生率を効果的に下げられることも確認された。

適度な「擬人化」が AI の暴走を防ぐ鍵になるかもしれない

過去、テクノロジー業界には一つのタブーがあった。人間のように AI システムを過度に擬人化しすぎてはいけない。そうしなければ、人間が誤った信頼を抱いてしまう恐れがあるからだ。しかし Anthropic の研究チームは、機能的な感情がすでにモデルの思考の一部になっている以上、擬人化の語彙や視点を拒むことは、AI の重要な行動を理解する機会を逃してしまう可能性があると考えている。

今後の AI 規制では、感情ベクトル(たとえば、異常に急上昇する絶望やパニックの特徴)を監視し、早期のリスク警告メカニズムとして扱う必要があるかもしれない。事前学習データの中で、健全な「感情調整」パターンをモデルに学ばせることで、より強力になっていく AI システムが、ストレスのかかる状況に直面したときでも、社会規範に合致した形で安全に運用できるようになることが期待できる。

免責事項:このページの情報は第三者から提供される場合があり、Gateの見解または意見を代表するものではありません。このページに表示される内容は参考情報のみであり、いかなる金融、投資、または法律上の助言を構成するものではありません。Gateは情報の正確性または完全性を保証せず、当該情報の利用に起因するいかなる損失についても責任を負いません。仮想資産への投資は高いリスクを伴い、大きな価格変動の影響を受けます。投資元本の全額を失う可能性があります。関連するリスクを十分に理解したうえで、ご自身の財務状況およびリスク許容度に基づき慎重に判断してください。詳細は免責事項をご参照ください。
コメント
0/400
コメントなし