Googleは、最新の動画生成モデル「Veo 3.1」を発表しました。これは、既存のVeo 3を基盤としてさらに進化させたモデルです。
Veo 3.1は、プロンプトへの忠実度を高め、クリエイターの意図をより正確に具現化します。それに加え、より豊かなネイティブオーディオ出力を提供し、音と動きを以前よりも自然に融合させることが可能になりました。
さらに、以下の3つの新機能も導入されています。
- 素材から動画生成: 参照画像からキャラクターやシーンのスタイルを一貫させた動画を生成します。
- フレームから動画生成: ショットの最初と最後のフレームを指定することで、スムーズで自然なトランジションを含む動画を作成します。
- 動画拡張: 短いクリップを1分以上にわたってアクションを拡張し、より長尺の動画へと変換します。
また、ワンクリックで不要なオブジェクトを削除し、背景を再構築してクリーンな仕上がりを実現するツールも近日登場予定です。
GoogleのVeo 3.1は、現在Pollo AI動画ジェネレーターで利用可能となり、クリエイターは強化された動画生成機能にアクセスできます。
私は今回、ネイティブオーディオ出力の向上、素材から動画生成、フレームから動画生成といった4つの主要なアップグレードに焦点を当てて一連のテストを実施しました。その結果を以下に報告します。結論から言うと、Veo 3.1はゲームチェンジャーとなり得るモデルです。
Veo 3.1のテスト
- ネイティブオーディオ生成
プロンプト:「賑やかなレストランのキッチンにある、ジュージューと焼ける鋳鉄製フライパンのクローズアップ。シェフがステーキをひっくり返しており、他の料理人の話し声や鍋やフライパンの音が背景で聞こえる。」
結果:出力された動画は非常に印象的でした。ステーキが焼ける「ジュージュー」という主要な音は鮮明で際立っていました。しかし、プロンプトで明確に要求されていた「他の料理人の話し声」は明確に聞き取れませんでした。このため、背景は期待よりも「賑やかさ」に欠け、オーディオを真に豊かで多層的にするために不可欠な人間の要素が不足していると感じました。
- フレームから動画生成
プロンプト:「最初と最後のフレームをブックエンドとして使用し、カップルがカフェに入り、座ってコーヒーを注文し、夜が更けるにつれて活発に話し始める10秒間のスムーズなトランジション動画を作成する。」
| 開始フレームと終了フレーム画像 | 出力動画 |
![]() ![]() |
結果:キャラクターとシーンは視覚的に一貫しており、開始/終了フレームはブックエンドとして機能していましたが、動画はスムーズなトランジションの生成には課題が見られました。注文などの動作は突然に発生し(例:コーヒーカップが突如として現れる)、最終フレームへの連続性も顕著に欠けていました。
- 素材から動画生成
プロンプト:「ろうそくの灯りが灯る石造りの図書館で、紫色のローブを着た髭を生やした魔法使いが古代の巻物を読んでいる。突然驚いて顔を上げ、彼の周りに本が浮かぶ呪文を唱える。」
| 参照画像 | 出力動画 |
![]() ![]() |
結果:全体的な設定や雰囲気は素晴らしく維持されており、ろうそくの光に照らされた重厚な石造りの図書館や雰囲気のある照明は期待通りでした。しかし、魔法使いの外見は参照画像と完全に一致せず、特に顔の特徴や髭のスタイルには大きな違いが見られました。これは、キャラクターの忠実な転送においてまだ改善の余地があることを示唆しています。
こうした初期の不一致はあったものの、モデルは優れた時間的な整合性とシーンへの準拠性を示し、プロンプトで記述されたアクションとよく一致する、映画的で没入感のあるシーケンスを提供しました。
まとめ
Veo 3.1は、キャラクターやシーンの一貫したレンダリングにおいて強力な能力を発揮し、各フレームや指定されたブックエンド全体で高い視覚的整合性を維持することに成功しています。
主要なアクションやオブジェクトの表現、そして明確な主要オーディオ効果の生成も得意です。しかし、動的でニュアンスのある動画コンテンツの生成においては、以下のような課題も見られました。
- スムーズなトランジションと連続性:複雑で多段階のアクションは、しばしば突然に発生し(例:オブジェクトが突如として現れる)、トランジションに連続性がなく、特に終了フレームへの不連続なシーケンスにつながることがあります。
- 感情的なニュアンス:キャラクターの表情やトーンは一貫性に欠けたり、指定された感情的な深みが不足したりすることがあります(例:「驚いた」表情がかすかであったり、「笑っている」カップルに活気がなかったりします)。
- 複雑なオブジェクトアニメーション:浮遊する本のような複数のオブジェクトが関わるインタラクションは、ぎこちなく、機械的に見えることがあります。オブジェクトが有機的に動くというよりも、唐突に「ポン」と出現するような描写が見受けられます。
- 多層的なオーディオ:主要な音は良好ですが、プロンプトで明確に指示されていても、個別の二次的な音や背景音の生成は依然として課題であり、サウンドスケープ全体の豊かさに影響を与えます。
Pollo AIでVeo 3.1を使用する理由
Pollo AIは、AI動画生成のすべてを一つに集約したプラットフォームです。ここは創造性のコントロールセンターであり、パワーと柔軟性を兼ね備えています。
Veo 3.1のような単一のモードに縛られる必要はありません。Pollo AIでは、Sora 2、Veo 3、Kling 2.5 Turbo、Wan 2.5、Seedanceといったトップクラスのエンジンを、必要に応じていつでも切り替えて使用できます。
つまり、Veo 3.1のリアルさとストーリーテリングの深さ(これは素晴らしいものですが)が気に入れば、それを最適なタイミングで使用し、速度、スタイル、または詳細のために別のモデルに切り替えることも可能です。制限なし。妥協なし。
さらに、主要なAI動画生成機能をすべて提供しています。
- 画像から動画へのAIで写真を生き生きとさせましょう。
- テキストから動画へのAIでスクリプトを素晴らしいビジュアルに変換しましょう。
- AIアバター動画ジェネレーターで魅力的なクリップを作成しましょう。
- AIショート動画ジェネレーターで、癒し系、動物、またはアニメスタイルのクリップを作成しましょう。
- Pollo Mimicで、参照動画のあらゆる動きを模倣しましょう。
今すぐPollo AIを体験し、AI駆動の動画作成の可能性を最大限に引き出しましょう。



