注目★★★★★Hugging Face Papers2026年6月26日

Wan-Streamer v0.1：音声・映像をリアルタイム処理する統合型 Transformer

30秒で把握

1Wan-Streamer が言語・音声・映像を単一 Transformer で統合・リアルタイム双方向通信を 550 ms で実現
2従来のカスケード型 (VAD・ASR・TTS 等) から単一学習モデルへ移行・パイプラインレイテンシ削減
3ネイティブストリーミング・ブロック因座注意・160 ms ストリーミング単位の実装を検証推奨

要約

Hugging Face の研究チームが Wan-Streamer を発表した。言語・音声・映像を単一の Transformer で入出力する、ネイティブストリーミング対応の統合型基盤モデルである。従来のカスケード型システム (VAD・ASR・TTS・アニメーション生成など独立モジュール) と異なり、知覚・推論・生成・応答タイミング・ターン管理・クロスモーダル同期をすべて学習するため、パイプラインレイテンシとエラー蓄積を削減した。ブロック因果注意と低レイテンシマルチモーダルトークンスケジューリングにより、モデル側応答時間 200 ms、ネットワーク遅延 350 ms を含めた総相互作用レイテンシ 550 ms を実現し、1 秒以下の双方向音声映像通信を可能にした。

あなたへの影響

この記事が日本のエンジニアに与える影響と、今日取るべきアクションは、Personal会員向けに掲載しています。

7日間無料で読む

クレカ不要・いつでも解約

詳細を読む → 元記事へ

X で共有

※ 本文は元記事をご確認ください (asayomu は要約のみ提供)

Wan-Streamer v0.1：音声・映像をリアルタイム処理する統合型 Transformer

30秒で把握

要約

あなたへの影響

関連する記事

NVIDIA、Cosmos 3公開言語・映像・音声・行動を統合するWorld Model

LLM透かし技術、3〜5モデル平均で検出率50%以下に崩壊

双方向拡散で学習する 8B 言語モデル iLLaDA、従来型を大幅上回る

30秒で把握

要約

あなたへの影響

関連する記事

NVIDIA、Cosmos 3公開 言語・映像・音声・行動を統合するWorld Model

LLM透かし技術、3〜5モデル平均で検出率50%以下に崩壊

双方向拡散で学習する 8B 言語モデル iLLaDA、従来型を大幅上回る

NVIDIA、Cosmos 3公開言語・映像・音声・行動を統合するWorld Model