注目★★★★★Hugging Face Papers
双方向拡散で学習する 8B 言語モデル iLLaDA、従来型を大幅上回る
30秒で把握
- 1iLLaDA が双方向注意とマスク拡散で 8B モデル構築・12T トークン事前学習と 25B トークン微調整を実施
- 2BBH で 21.6 点・ARC で 14.9 点・MATH で 14.5 点・HumanEval で 16.5 点改善・Qwen2.5 7B と競争力維持
- 3非自己回帰学習がベンチマーク性能で競合・双方向拡散が言語モデル開発の有効経路として確立
要約
研究チームが双方向注意機構を備えた 8B マスク拡散言語モデル iLLaDA を開発した。12T トークンで事前学習し 25B トークンの指示データで 12 エポック微調整を行い、マスク拡散目的を学習全体を通じて一貫して適用した。iLLaDA-Base は BBH で 21.6 点、ARC-Challenge で 14.9 点、iLLaDA-Instruct は MATH で 14.5 点、HumanEval で 16.5 点の改善を達成し、同規模の LLaDA を大きく上回った。非自己回帰学習でありながら Qwen2.5 7B と複数ベンチマークで競争力を持つことから、双方向拡散学習が強力な言語モデル開発の有効な経路であることを示した。
あなたへの影響
この記事が日本のエンジニアに与える影響と、今日取るべきアクションは、Personal会員向けに掲載しています。
クレカ不要・いつでも解約