注目★★★★★Hugging Face Papers
Qwen-AgentWorld:7ドメインをシミュレートする言語ワールドモデル、1000万軌跡で訓練
30秒で把握
- 1Qwen-AgentWorld 2モデルを公開・7ドメイン・1000万軌跡で3段階訓練
- 2AgentWorldBenchで既存フロンティアモデルを上回り・環境シミュレータと内部推論の両用途に対応
- 3リアル環境不要でエージェント訓練が可能か・AgentWorldBenchでの自社モデル評価を確認
要約
Alibabaは、言語モデルをエージェント向けワールドモデルとして機能させる「Qwen-AgentWorld」を発表した。Qwen-AgentWorld-35B-A3BとQwen-AgentWorld-397B-A17Bの2モデルを公開し、7ドメインの実環境から収集した1000万件超の軌跡データを使いCPT→SFT→RLの3段階で訓練した。評価には9つの既存ベンチマークと5つのフロンティアモデルによる実インタラクションから構築したAgentWorldBenchを設け、既存モデルを大幅に上回ると確認された。ワールドモデルは独立した環境シミュレータとしてエージェントのスケーラブルなトレーニングを支援し、内部推論モジュールとしても汎用エージェントの計画性能を向上させる。
あなたへの影響
この記事が日本のエンジニアに与える影響と、今日取るべきアクションは、Personal会員向けに掲載しています。
クレカ不要・いつでも解約