注目★★★★★Hugging Face Papers2026年6月25日

オープンウェイトLLMに「秘密鍵」で能力を隠す——TLMが公開と非公開を両立

30秒で把握

1TLMが秘密鍵で同一ウェイトの危険能力を隠蔽・開放する仕組みを提案
2180M・650M規模で検証済み、鍵なし公開設定は秘密能力をゼロ露出
3オープンウェイト配布を検討するチームは設計アーキテクチャの参照を

要約

研究チームは、単一の公開ウェイトで複数の能力レベルを制御できる「Tiered Language Models（TLM）」を提案した。コンパクトな秘密鍵がパラメータの一部に置換操作を適用し、同一ウェイト上で別の計算グラフを誘起することで、鍵なしの公開設定では危険な能力を一切露出しない。180Mおよび650Mパラメータで事前学習した実験では、鍵付き設定のみが新言語習得・指示追従・秘密知識の記憶を獲得し、公開設定はこれらを一切示さなかった。

あなたへの影響

この記事が日本のエンジニアに与える影響と、今日取るべきアクションは、Personal会員向けに掲載しています。

7日間無料で読む

クレカ不要・いつでも解約

詳細を読む → 元記事へ

X で共有

※ 本文は元記事をご確認ください (asayomu は要約のみ提供)

オープンウェイトLLMに「秘密鍵」で能力を隠す——TLMが公開と非公開を両立

30秒で把握

要約

あなたへの影響

関連する記事

NVIDIA、Cosmos 3公開言語・映像・音声・行動を統合するWorld Model

LLM透かし技術、3〜5モデル平均で検出率50%以下に崩壊

AIコーディングエージェントは論文SOTAを超えられるか？NatureBench、90タスクで17.8%止まり

30秒で把握

要約

あなたへの影響

関連する記事

NVIDIA、Cosmos 3公開 言語・映像・音声・行動を統合するWorld Model

LLM透かし技術、3〜5モデル平均で検出率50%以下に崩壊

AIコーディングエージェントは論文SOTAを超えられるか？NatureBench、90タスクで17.8%止まり

NVIDIA、Cosmos 3公開言語・映像・音声・行動を統合するWorld Model