首页/博客/评论/Google Veo 3.1:优化升级,挑战OpenAI Sora 2的 AI 视频生成能力?

Google Veo 3.1:优化升级,挑战OpenAI Sora 2的 AI 视频生成能力?

OpenAI 的 Sora 2 在 AI 视频生成领域树立了新的标杆,而 Google 似乎已准备好迎接挑战。

尽管 Google 尚未正式宣布,但早期迹象表明,其旗舰 AI 视频模型 Veo 3 的优化版本 Veo 3.1 可能将于 2025 年 10 月推出。

将 Veo 3.1 视为一场革命不如视为一次高度优化的升级 — 更快的提示响应、开始和结束帧自定义、基于参考的一致性、更紧密的音频集成、更流畅的运动,等等。

如果当前趋势持续下去,Veo 3.1 可能会完全取代 Veo 3,在相同的名称下运行,同时在后台提供明显改进的结果。

让我们来探讨一下我们所知道的 — 以及我们期望的。

快速回顾:Veo 3 带来了什么

Google 的 Veo 3 被设计为一个先进的图像到视频和文本到视频生成器,面向专业和社交内容创作者。

其亮点功能包括:

  • 原生音频生成 – 内置语音、环境声音和与生成视频同步的音乐。
  • 病毒式内容制作 – 有趣的“假新闻”短剧、时光旅行特效、模仿片段 — 专为可分享性而设计。
  • 高级提示理解 – 精确解析复杂的、多部分创意提示。
  • 角色一致性 – 使用参考图像保持角色视觉连续性的能力。
  • 精确风格控制 – 匹配参考图像的艺术风格。
  • 相机控制 – 模拟平移、缩放和其他电影相机移动。
  • 对象操作 – 动态地在视频场景中添加或移除主体。
  • 灵活运动控制 – 微调对象移动的速度和路径。

阅读更多: Google Veo AI 视频生成器评测:详细的个人见解

“.1”升级:估算 Veo 3.1 的新功能

增量更新的关键在于优化。如果 Veo 3 奠定了基础,那么 Veo 3.1 将专注于掌握执行。以下是我们对其增强功能的现实估算:

升级的原生音频

音频生成可能会从“存在”转向“富有表现力”。这可能意味着生成语音中更细微的情感基调,更好的氛围混合,以及不仅匹配动作、还能增强情绪的音频。

增强的真实感与物理引擎

直接挑战 Sora 2 的核心功能,Veo 3.1 几乎肯定会专注于改进其物理引擎。期待更精确的纹理模拟、光照交互和复杂的对象碰撞。

基于参考的一致性

使用参考图像或视频在场景中保持一致的角色和艺术风格的能力。虽然 Veo 3 可以保持角色的相似度,但 Veo 3.1 将致力于实现无瑕疵的持久性。

这意味着细微的细节 — 比如衬衫上的特定褶皱或一缕头发 — 将在不同的场景和视角下保持完美的连贯性。

首尾帧

作为 Veo 3 插值功能的扩展,此次升级将允许用户上传开始和结束图像,以生成流畅的过渡,无缝填补叙事空白。想象一下,用自定义视觉效果为音乐视频或广告制作首尾呼应,确保 AI 在视觉上平稳衔接,没有生硬的剪切。

处理速度

初步迹象表明,与 Veo 3 相比,Veo 3.1 的生成时间略有提高,尽管 Sora 2 在此方面仍具竞争力。这两种模型在平衡质量与生成速度方面都取得了显著进展。

Sora 2 提高了 AI 视频的门槛 — Google 的 Veo 3.1 能跟上吗?

OpenAI 的 Sora 2,几天前发布,现在可通过 Pollo AI 视频生成器 访问,与其前代相比是一次更大规模的飞跃。在许多方面,Veo 3.1 是一个维护性版本,而 Sora 2 则感觉像是一代人的转变。

功能 Google Veo 3.1 (估算) OpenAI Sora 2 (已确认)
物理模拟 增强的真实感,但主要侧重视觉 深度物理引擎(重力、浮力、碰撞精度)
世界状态一致性 在单个场景中表现良好 在多镜头叙事中表现卓越
音频生成 同步的原生音频 完全同步的原生音频(人声+音乐+音效)
提示理解 高精度,非常适合电影镜头指示 极其先进,能处理抽象逻辑
角色一致性 使用参考图像时可靠 在长序列中几乎完美保持一致性
真人客串 未确认 是 — 用户可以插入和管理自己的肖像
相机控制 高级电影指令 灵活,具有涌现行为
风格迁移 通过参考图像效果极佳 高控制力,支持艺术和照片级写实模式

Sora 2 目前的突出之处:

  • 高级物理模拟 – 真实的重力、浮力、碰撞处理。
  • 持久的多镜头叙事 – 在场景中保持世界状态一致性。
  • 高端音频同步 – 人声、音乐、音效与视觉效果完美同步。
  • 真实世界肖像(“客串”)– 将人物嵌入生成场景,并控制使用权。

阅读更多: Sora 2 评测:我测试了 OpenAI 的新 AI 视频模型 — 结果令人难以置信

Veo 3.1 可能竞争的领域:

如果提示理解和 Flow 集成超越 Sora 2,它可能在协作式、复杂的故事板制作方面表现出色。

Google 的风格匹配流程可能更能满足混合摄影、插画和动画的创意混合项目。

Veo 的病毒式内容角度和相机移动预设可能更吸引寻求娱乐性剪辑格式而非电影写实感的社交媒体创作者。

展望未来:Veo 3.1 何时发布?

官方时间表尚未确认,但消息人士指出,可能在 2025 年 10 月下旬推出,可能会首先通过 Google Cloud 向企业用户开放。

如果 Veo 3.1 达到预期,它可能会巩固 Google 在 AI 视频领域的地位,特别是随着其与 Android 和 Wear OS 集成进行设备端生成。

渴望尝试的创作者可以关注 Google 的 DeepMind 博客或 VideoFX 更新。

不要等到官方发布 — 通过 Pollo AI 即可立即访问 Veo 3,让你提前体验即将到来的内容。当 Veo 3.1 发布时,你将是首批体验它的人之一。

随着 AI 领域的竞争日趋激烈,有一点是明确的:2025 年将是视频生成真正走向电影化的元年。

您可能也喜欢

查看更多

Nano Banana 2:智能AI图像生成领域的又一次飞跃?

Nano Banana 2 预计将于 2025 年末/2026 年初推出,将提供更智能的提示、多语言支持、突破性的文本渲染和逻辑准确性。探索 Nano Banana 2 升级的预估内容。

Sora目前在您所在的国家/地区尚不可用

收到“Sora尚未在您所在的国家/地区推出”的错误信息?了解访问Sora AI 的有用提示和潜在解决方法。

Kling O1 图片模型评测:Kling 的首款 AI 图片生成器能否媲美其视频领域的辉煌?

揭示 Kling O1 图像模型的强大功能。了解其先进的多图像集成和精确的自然语言编辑,以实现革命性的视觉创作。在 Pollo AI 上探索无限可能。

Sora 2评测:我测试了 OpenAI 的新 AI 视频模型——结果简直不真实

在这篇实践评测中探索 OpenAI 的Sora 2 AI 视频生成器。了解Sora 2如何彻底改变创意领域。经测试验证!