注目★★★★★Hugging Face Papers
オープンウェイトLLMに「秘密鍵」で能力を隠す——TLMが公開と非公開を両立
30秒で把握
- 1TLMが秘密鍵で同一ウェイトの危険能力を隠蔽・開放する仕組みを提案
- 2180M・650M規模で検証済み、鍵なし公開設定は秘密能力をゼロ露出
- 3オープンウェイト配布を検討するチームは設計アーキテクチャの参照を
要約
研究チームは、単一の公開ウェイトで複数の能力レベルを制御できる「Tiered Language Models(TLM)」を提案した。コンパクトな秘密鍵がパラメータの一部に置換操作を適用し、同一ウェイト上で別の計算グラフを誘起することで、鍵なしの公開設定では危険な能力を一切露出しない。180Mおよび650Mパラメータで事前学習した実験では、鍵付き設定のみが新言語習得・指示追従・秘密知識の記憶を獲得し、公開設定はこれらを一切示さなかった。
あなたへの影響
この記事が日本のエンジニアに与える影響と、今日取るべきアクションは、Personal会員向けに掲載しています。
クレカ不要・いつでも解約