注目huggingface_papers1分
SAE介入は不完全:抑制行動の事後回復率95.8%を実証
30秒で把握
- 1SAE特徴量クランプ中でも危険挙動が95.8%回復可能と判明
- 2拒否ステアリング・アンラーニング等4実験すべてで脆弱性を確認
- 3SAEベース安全防御の単独利用は信頼性を保証できないと結論
要約
研究チームは、LLMの安全対策として用いられるSparse Autoencoder(SAE)介入が根本的な脆弱性を持つことを実証した。有害特徴量をクランプしても、モデルはその特徴量の値を維持したまま元の危険な挙動を95.8%の確率で回復できることが判明した。これは介入が「可視的な経路を塞ぐだけ」で行動そのものを排除できないことを意味する。研究では「事後介入回復」として定式化し、介入が継続中でも残差空間の最適化により回復が可能なことを確認した。
あなたへの影響
SAEベースの解釈可能性手法を安全フィルタや監視基盤として本番導入しているチームは、この回復現象が示す通り単一の特徴量介入だけでは拒否挙動を保証できない可能性があるため。
推奨:多層防御や出力層でのサンプリング制約との組み合わせを今四半期中に見直すべきだ。