先日、アリババの最新AI動画モデルであるWan 2.5をテストしてみました。リリース前から大きな話題になっていたので、その性能を確かめてみたかったのですが、このモデルには注目すべき改良点がいくつかあることが分かりました。
Wan 2.5はWan 2.2をベースにネイティブオーディオ生成機能を搭載し、映像と直接連動して音声を生成できるようになりました。環境音、BGM、さらにはシーンに合わせたナレーションなども可能です。
これにより、既に優れた音声統合機能を備えているGoogleのVeo 3と同等のレベルに位置づけられることになる。Wan Wan 2.5は、理論上、より滑らかな動き、より鮮明な映像、プロンプトの理解度の向上、そして最初から最後までより安定したフレームレートを実現すると謳っている。
音声と映像の融合がどれだけ優れているかを確認するために、実環境で4つのテストを実施しました。なぜなら、この相乗効果こそが、優れたAI動画とそうでない動画を分ける要素だからです。
要点: Wan 2.5は進歩を示している
Wan 2.5は、いくつかのシナリオにおいて、リアルな雰囲気と適切な効果音を備えた、印象的な音声生成能力を示しました。ビデオ品質、特に人物を被写体とした場合の品質は一貫性に欠け、優れた場面もあったものの、リアリティとリップシンクには改善の余地がありました。あるケースでは音声が全く生成されなかったことから、このモデルはまだ完全な信頼性に向けて開発段階にあることが示唆されます。
Wan 2.5の実際の例
その汎用性を検証するため、写実的な場面と様式化された場面を組み合わせた4つの異なる課題を用意し、それぞれを以下の項目で採点した。
- 音声の精度とシーンとの一致
- 視覚的なリアリズムと滑らかな動き
- 動きと表情の正確さ
1. 友人とのハイキングシーン — スムーズで自然な
プロンプト:2人の若い男性と1人の若い女性が、風光明媚な山道をハイキングしながら、気楽におしゃべりをしながら笑っている。そよ風が木の葉を揺らし、木々の間から陽光が差し込み、それぞれがバックパックを背負っている。彼らの楽しそうな会話と笑顔が、リラックスしたアウトドアのひとときを捉えている。
結果:森の雰囲気、そよ風、笑い声など、映像と自然に調和していました。動きも滑らかで、目立った不具合もありませんでした。
評価:8/10 — カジュアルコンテンツにとって強力で実用的な結果。
2. 地下鉄駅の女性 ― 音声は良いが、もっと活気が必要だ
プロンプト:若いアジア人女性が地下鉄駅の階段に立ち、スマートフォンを手に温かい笑顔を浮かべている。日光が差し込み、彼女の都会的なストリートウェア姿に柔らかな影が落ちている。
結果:リアルな地下鉄の背景音は場面設定に役立ったが、彼女の表情や動きはもっと自然でダイナミックに感じられると良かった。
評価:8/10 — 音質は良好だが、モーション性能には改善の余地がある。
3. スーツを着たずる賢いキツネ ― 魅惑的なビジュアルコンセプト
プロンプト:上品なスーツを着た威厳のあるキツネが書類の束を抱え、自信に満ちた足取りと狡猾な笑みを浮かべながらカメラに近づいてくる。
結果:アニメーションキャラクターはスタイリッシュで表情豊かだった。しかし、このテストでは音声が出力されなかったことから、音声生成に時折不具合が生じていることが示唆された。
スコア:該当なし — 音声は欠落しているが、映像は良好。
4. ジャーナリストによる街頭生中継 ― 明瞭な音声、同期の改善が必要
プロンプト:ショートヘアのジャーナリストが、交通騒音や人々の話し声に負けないように、賑やかな通りから生中継でリポートしている。
結果:音声は正確で明瞭だったが、口の動きが音声と完全に一致していなかったため、同期の説得力が劣った。
評価:5/10 — 動作はするが、同期の調整が必要。
最終評価:将来性のある有望なアップデート
Wan 2.5は、貴重なオーディオビジュアル機能を導入しており、特定の状況下では優れた成果を発揮します。プロンプトによってパフォーマンスにばらつきはあるものの、良好な結果は今後の改善と幅広いユーザビリティの可能性を示しています。
Veo 3より優れているか?まだそこまでではない。Veo Veo 3の方が全体的に安定しているからだ。しかし、 Wan 2.5のオーディオ統合機能と時折見られる高品質な映像は、技術の成熟に伴い、明るい未来が待っていることを示唆している。
こんな人におすすめ:実験好きな人、自然や様式化された風景を題材にした創作プロジェクトに取り組む人、そして多少の不完全さを許容できる人。
待つべき人:人間中心のビデオにおいて、精緻なリアリズムと完璧な同期を必要とするプロフェッショナル。
Pollo AIでWan 2.5を試す理由
Wan 2.5は、 Pollo AIで利用できる強力なAIビデオツールの1つです。このプラットフォームでは、テキストからビデオへの変換、画像からビデオへの変換、その他の高度なジェネレーターなど、さまざまなスタイルで高品質なビジュアルを簡単に作成できます。
Runway 、 Veo 3 、 Seedance 、 Hailuo AI 、 Kling AI 、 PixVerse AIといった一流のモデルにもアクセスできるため、選択肢が一つに限定されることはありません。

特筆すべき機能の一つは、 AIアバター動画生成機能だ。これは、一枚の写真から、自然なジェスチャー、リアルな表情、正確なリップシンクを備えた、まるで生きているかのようなアバターを生成する。

Pollo AI Shortsは、素早くクリエイティブな成果物を生み出すために、アニメ、動物、癒し系など、さまざまなスタイルのショートビデオを瞬時に生成し、さらに複数のシーンを一度に生成することも可能です。

Pollo AIは、多彩なAIエフェクト、カスタマイズ可能なツール、そしてLoRaを活用することで、コンセプトをわずか数クリックで洗練されたビデオへと変換できます。
難しい学習をせずにAIを使った動画制作を試してみたいなら、 Pollo AIを無料で試してみて、あなたのアイデアがどこまで実現できるか見てみましょう。