Asayomu Tech
注目★★★★Hugging Face Papers

オープンウェイトLLMに「秘密鍵」で能力を隠す——TLMが公開と非公開を両立

30秒で把握

  • 1TLMが秘密鍵で同一ウェイトの危険能力を隠蔽・開放する仕組みを提案
  • 2180M・650M規模で検証済み、鍵なし公開設定は秘密能力をゼロ露出
  • 3オープンウェイト配布を検討するチームは設計アーキテクチャの参照を

要約

研究チームは、単一の公開ウェイトで複数の能力レベルを制御できる「Tiered Language Models(TLM)」を提案した。コンパクトな秘密鍵がパラメータの一部に置換操作を適用し、同一ウェイト上で別の計算グラフを誘起することで、鍵なしの公開設定では危険な能力を一切露出しない。180Mおよび650Mパラメータで事前学習した実験では、鍵付き設定のみが新言語習得・指示追従・秘密知識の記憶を獲得し、公開設定はこれらを一切示さなかった。

あなたへの影響

この記事が日本のエンジニアに与える影響と、今日取るべきアクションは、Personal会員向けに掲載しています。

7日間無料で読む

クレカ不要・いつでも解約

詳細を読む → 元記事へ※ 本文は元記事をご確認ください (asayomu は要約のみ提供)

関連する記事

※ 外部記事の権利は原著作者に帰属します。著作権削除要請は copyright@asayomu.jp までご連絡ください(受領確認 24h・実処理 72h 以内)。