Asayomu Tech
注目★★★★Hugging Face Papers

Qwen-AgentWorld:7ドメインをシミュレートする言語ワールドモデル、1000万軌跡で訓練

30秒で把握

  • 1Qwen-AgentWorld 2モデルを公開・7ドメイン・1000万軌跡で3段階訓練
  • 2AgentWorldBenchで既存フロンティアモデルを上回り・環境シミュレータと内部推論の両用途に対応
  • 3リアル環境不要でエージェント訓練が可能か・AgentWorldBenchでの自社モデル評価を確認

要約

Alibabaは、言語モデルをエージェント向けワールドモデルとして機能させる「Qwen-AgentWorld」を発表した。Qwen-AgentWorld-35B-A3BとQwen-AgentWorld-397B-A17Bの2モデルを公開し、7ドメインの実環境から収集した1000万件超の軌跡データを使いCPT→SFT→RLの3段階で訓練した。評価には9つの既存ベンチマークと5つのフロンティアモデルによる実インタラクションから構築したAgentWorldBenchを設け、既存モデルを大幅に上回ると確認された。ワールドモデルは独立した環境シミュレータとしてエージェントのスケーラブルなトレーニングを支援し、内部推論モジュールとしても汎用エージェントの計画性能を向上させる。

あなたへの影響

この記事が日本のエンジニアに与える影響と、今日取るべきアクションは、Personal会員向けに掲載しています。

7日間無料で読む

クレカ不要・いつでも解約

詳細を読む → 元記事へ※ 本文は元記事をご確認ください (asayomu は要約のみ提供)

関連する記事

※ 外部記事の権利は原著作者に帰属します。著作権削除要請は copyright@asayomu.jp までご連絡ください(受領確認 24h・実処理 72h 以内)。