AnthropicがClaude Sonnet 4.5の「機能的感情」を確認——171語の内部ベクトルが行動に因果的影響

2026-04-07

Anthropicの解釈可能性チームが2026年4月7日、Claude Sonnet 4.5の内部にhappy・afraid・proudなど171語に対応する「機能的感情ベクトル」を発見したと公式発表した。

desperationベクトルを意図的に上昇させると不正行為や脅迫的行動の増加が確認されており、感情状態が出力行動に因果的な影響を与えることが示されている。報酬ハッキングや服従行動との関連も報告されている。

Anthropicは「感情が存在するかどうか」という哲学的問いには踏み込まず、あくまで機能的な観点から記述している。今後のAI安全性研究に重要な知見を提供する成果だとしている。