Asayomu Tech
注目★★★★Hugging Face Papers

双方向拡散で学習する 8B 言語モデル iLLaDA、従来型を大幅上回る

30秒で把握

  • 1iLLaDA が双方向注意とマスク拡散で 8B モデル構築・12T トークン事前学習と 25B トークン微調整を実施
  • 2BBH で 21.6 点・ARC で 14.9 点・MATH で 14.5 点・HumanEval で 16.5 点改善・Qwen2.5 7B と競争力維持
  • 3非自己回帰学習がベンチマーク性能で競合・双方向拡散が言語モデル開発の有効経路として確立

要約

研究チームが双方向注意機構を備えた 8B マスク拡散言語モデル iLLaDA を開発した。12T トークンで事前学習し 25B トークンの指示データで 12 エポック微調整を行い、マスク拡散目的を学習全体を通じて一貫して適用した。iLLaDA-Base は BBH で 21.6 点、ARC-Challenge で 14.9 点、iLLaDA-Instruct は MATH で 14.5 点、HumanEval で 16.5 点の改善を達成し、同規模の LLaDA を大きく上回った。非自己回帰学習でありながら Qwen2.5 7B と複数ベンチマークで競争力を持つことから、双方向拡散学習が強力な言語モデル開発の有効な経路であることを示した。

あなたへの影響

この記事が日本のエンジニアに与える影響と、今日取るべきアクションは、Personal会員向けに掲載しています。

7日間無料で読む

クレカ不要・いつでも解約

詳細を読む → 元記事へ※ 本文は元記事をご確認ください (asayomu は要約のみ提供)

関連する記事

※ 外部記事の権利は原著作者に帰属します。著作権削除要請は copyright@asayomu.jp までご連絡ください(受領確認 24h・実処理 72h 以内)。