注目★★★★★Hugging Face Papers2026年6月26日

双方向拡散で学習する 8B 言語モデル iLLaDA、従来型を大幅上回る

30秒で把握

1iLLaDA が双方向注意とマスク拡散で 8B モデル構築・12T トークン事前学習と 25B トークン微調整を実施
2BBH で 21.6 点・ARC で 14.9 点・MATH で 14.5 点・HumanEval で 16.5 点改善・Qwen2.5 7B と競争力維持
3非自己回帰学習がベンチマーク性能で競合・双方向拡散が言語モデル開発の有効経路として確立

要約

研究チームが双方向注意機構を備えた 8B マスク拡散言語モデル iLLaDA を開発した。12T トークンで事前学習し 25B トークンの指示データで 12 エポック微調整を行い、マスク拡散目的を学習全体を通じて一貫して適用した。iLLaDA-Base は BBH で 21.6 点、ARC-Challenge で 14.9 点、iLLaDA-Instruct は MATH で 14.5 点、HumanEval で 16.5 点の改善を達成し、同規模の LLaDA を大きく上回った。非自己回帰学習でありながら Qwen2.5 7B と複数ベンチマークで競争力を持つことから、双方向拡散学習が強力な言語モデル開発の有効な経路であることを示した。

あなたへの影響

この記事が日本のエンジニアに与える影響と、今日取るべきアクションは、Personal会員向けに掲載しています。

7日間無料で読む

クレカ不要・いつでも解約

詳細を読む → 元記事へ

X で共有

※ 本文は元記事をご確認ください (asayomu は要約のみ提供)

双方向拡散で学習する 8B 言語モデル iLLaDA、従来型を大幅上回る

30秒で把握

要約

あなたへの影響

関連する記事

NVIDIA、Cosmos 3公開言語・映像・音声・行動を統合するWorld Model

LLM透かし技術、3〜5モデル平均で検出率50%以下に崩壊

Wan-Streamer v0.1：音声・映像をリアルタイム処理する統合型 Transformer

30秒で把握

要約

あなたへの影響

関連する記事

NVIDIA、Cosmos 3公開 言語・映像・音声・行動を統合するWorld Model

LLM透かし技術、3〜5モデル平均で検出率50%以下に崩壊

Wan-Streamer v0.1：音声・映像をリアルタイム処理する統合型 Transformer

NVIDIA、Cosmos 3公開言語・映像・音声・行動を統合するWorld Model