注目huggingface_papers2026年6月10日1分

KVキャッシュを超えるLCLM：長文脈を1/16に圧縮し推論メモリを大幅削減

30秒で把握

1LCLM が長文脈を最大1:16に圧縮しKVキャッシュ比でパレートフロンティア改善
20.6Bエンコーダ＋4Bデコーダ構成・350Bトークン学習・圧縮比1:4/1:8/1:16対応
3長期エージェントのバックボーンとして圧縮コンテキストの動的展開を実現

要約

長文コンテキストの推論でボトルネックとなるKVキャッシュ問題に対し、エンコーダ・デコーダ型圧縮モデルの新ファミリー「LCLM（Latent Context Language Models）」が提案された。アーキテクチャ探索を経て、0.6Bエンコーダ＋4Bデコーダの構成を350Bトークン以上で継続事前学習し、1:4・1:8・1:16の圧縮比を実現した。既存のKVキャッシュ圧縮手法と比べ、精度・圧縮速度・ピークメモリ使用量のパレートフロンティアを改善した。

あなたへの影響

長文コンテキストを扱うRAGやエージェント系システムを本番運用しているチームは、LCLMの1:16圧縮比がメモリ制約の緩和や推論コスト削減につながり得るため、公開モデルの評価を次スプリントで計画すると良い。

推奨：現行のKVキャッシュ圧縮手法と精度を比較しつつ、本番推論エンジンとの互換性も合わせて検証を推奨する。

詳細を読む → 元記事へ

X で共有

※ 本文は元記事をご確認ください (asayomu は要約のみ提供)