在探索了众多人工智能视频工具之后,很少有工具能像Gemini Omni(又名Veo 4)那样给我留下深刻印象。这不仅仅是一次小小的更新;它实现了向制作级视频的飞跃,拥有 4K 分辨率、精心设计的音频和出色的场景一致性。
从更长的视频片段到多角度控制, Gemini Omni提供了创作者所需的专业功能。继续阅读,了解我对这些突破性升级的完整上手评测,并了解如何通过Pollo AI亲自体验Gemini Omni 。
我对Gemini Omni (Veo 4)的第一印象
过去一年里,我评测过很多AI视频工具,说实话,真正让我眼前一亮的工具并不多。Gemini Omni (Veo 4)就是其中之一。
就我目前所见, Gemini Omni与其说是一次小幅升级,不如说是迈向原生多模态 AI 视频的重大一步。最让我印象深刻的不仅是更出色的视觉效果,更是它将视频生成、基于聊天的编辑、混音和上下文理解整合到一个工作流程中。
这正是它对创作者而言价值所在。Gemini Omni更注重视频的后期修改,而非一次性输出,从而提升视频的实用性:提供参考、提出修改意见、保留有效部分,并通过沟通不断完善最终成果。对于营销人员、电影制作人和内容创作者来说,这能让 AI 视频更接近真实的制作流程。
听起来Google正试图将人工智能视频从短小的实验性片段发展成更适用于实际项目的东西。
当然,人们的期望很高,但并非所有承诺都能在实践中同样奏效。人工智能视频工具往往纸上谈兵,但一旦开始创作,就会发现它并没有那么令人印象深刻。尽管如此, Gemini Omni 的诸多雄心勃勃的升级仍然值得关注。在这篇评测中,我将深入探讨它的优势所在以及它仍需证明自身实力的地方。
为了节省您的时间,我想概述一下Veo 3和Gemini Omni (Veo 4)之间的区别。
| 特征 | Veo 3 | Gemini Omni (Veo 4) |
| 视频时长 | 短视频,通常约为 8 秒。 | 较长的视频片段,预计时长在15-30秒左右,节奏更流畅,过渡更自然。 |
| 场景一致性 | 帧间一致性有限 | 场景间时间一致性更强,物体持久性更高,多角色互动更稳定。 |
| 相机控制 | 基础的基于提示的摄像机移动 | 更精确地控制镜头、运动、构图和节奏 |
| 快速理解 | 适用于简单提示 | 对细致入微的电影指令进行高级解读,并提供更可靠的后续指导。 |
| 多角度场景 | 不支持 | 支持从单个提示符设置每个场景的多个摄像机角度 |
| 个性化数字人 | 无法使用 | 具有语音同步、精准面部表情和同步唇部动作的个性化虚拟形象 |
| 编辑工作流程 | 重新生成整个剪辑以进行更改 | 生成过程中可进行交互式编辑,允许在过程中进行调整。 |
| 主要用例 | 生成短实验视频 | 可用于生产的视频创作工作流程 |
| 解决 | 最高支持 1080p 输出 | 最高支持 4K 输出 |
| 声音 | 无声视频或基本音频(时间参考) | 更高品质、更精心设计的音频,拥有更富表现力的语音、更佳的节奏感、更丰富的氛围感和更连贯的声音设计。 |
| 多语言准确性 | 基础级别 | 更准确的屏幕文字、标牌、用户界面渲染,以及更清晰的跨语言唇形同步 |
Gemini Omni 的独特之处
- 情境感知聊天编辑: Gemini Omni 的出现,对人工智能视频而言,就像生图界的Nano Banana 的横空出世。它允许用户在对话过程中修改视频片段,同时还能理解哪些内容需要修改、哪些内容需要保留,以及场景应该如何继续。
- 原生多模态视频工作流程: Gemini Omni将视频生成、编辑、混音和基于参考的创作整合到一个 Gemini 原生工作流程中。它不再将文本、图像、片段、模板和编辑视为独立的模式,而是将它们作为一个相互关联的上下文来塑造最终的视频。
- 更清晰的文本和公式控制: Gemini Omni可以让视频中的文字细节、公式、动态效果和含义更加协调一致。这使其非常适用于教程、讲解视频、教育内容和其他知识密集型场景。
- 生成与编辑融为一体: Gemini Omni认为,未来的 AI 视频将不再泾渭分明地分为文本/图像/视频参考和视频编辑三部分。一旦模型能够理解参考信息并通过提示修改结果,创作和编辑的工作流程将逐渐融合。
我使用Gemini Omni 的体验
原生多模态视频生成
Gemini Omni旨在提供更灵活的视频制作方式。用户可以导入提示、图片、片段、音频提示或模板,该模型可以将这些素材视为一个完整的创意简报。
因此,以往文本转视频和图像转视频的区分在这里显得不那么重要了。Gemini Omni 的工作方式更像是参考驱动的视频模型,不同的输入共同决定了最终的制作方向。
| 提示 | 视频输入 | 视频输出 |
| 这是一则自然风格的UGC护肤广告,广告中一位年轻女性留着红棕色长发,脸上带着明显的雀斑,妆容清新淡雅。她将一罐绿色面霜靠近镜头,涂抹在脸上,清晰地展示了使用前后肌肤的变化:从粗糙的裸露肌肤变得光滑、柔软、透亮。 |
太棒了!这段护肤视频始终保持人物形象真实可信,产品视觉效果也前后一致,使整体效果更加精致,更具沉浸感。
基于聊天功能的视频编辑
对话式编辑功能让Gemini Omni真正展现出实用性。用户无需重新剪辑视频或浏览时间线,只需告诉模型需要修改什么即可。
它将视频剪辑变成了一种基于提示的互动。从这个意义上讲, Gemini Omni将Nano Banana式的剪辑体验带到了动态影像领域。
| 提示 | 视频输入 | 视频输出 |
| 请移除此视频片段中的 Sora2 标志。 |
![]() |
![]() |
更强的文本和公式一致性
在需要保持文字信息清晰易读且含义明确的场景中, Gemini Omni 的表现尤为突出。这对 AI 视频来说是一项严峻的考验,因为即使场景持续移动,文字也必须保持稳定。
对于教程、讲解视频、课程和其他知识型视频来说,这一点至关重要。模型不仅需要处理文字的外观,还需要处理文字在场景中的时序、结构和含义。
| 提示 | 视频输出 |
| 一位教授在传统的黑板上写出三角恒等式的数学证明,并解释他目前在方程式中执行到的步骤。 |
我真的被Gemini Omni 的这段视频惊艳到了。它不仅保证了屏幕上文字的准确性,还保证了场景中复杂数学公式的正确性,使整个效果更加可信,技术上也令人印象深刻。
对象和场景级编辑
当视频只需要进行局部修改时, Gemini Omni非常实用。用户无需从头开始制作新视频,即可调整特定对象、细节或场景的某个部分。
这在实际制作中至关重要,因为一些小的改动往往决定了视频是否可用。保持原始镜头完整,只修改需要修改的部分,会让剪辑过程更加高效便捷。
| 提示 | 视频输入 | 视频输出 |
|
|
Gemini Omni真的让我很惊喜。它只替换了食物,而且替换得非常自然,既保持了菜肴的真实感,又保留了人物的动作和整个场景。
视频混音
在第一稿之后,通过重新混音, Gemini Omni变得更加实用。
用户无需从零开始,而是可以利用现有的视频片段,在保留其结构、运动或创意方向的前提下,将其转换为新的版本。这更接近于真实创作者的工作方式。
| 视频输入 | 提示 | 视频输出 |
|
|
将“海边漫步的女孩”片段与产品片段结合起来,制作一部电影风格的电视广告,将生活方式美容镜头与精美的产品视觉效果融合在一起,打造一部高端、优雅的护肤品广告。 |
世界知识意识创造
Gemini Omni的价值还在于它能够理解场景背后的含义。它不仅追求视频的精美呈现,还需要了解场景的意义所在。
这种理解对于历史题材、教育内容、产品说明和故事驱动型视频尤其有用,因为在这些题材中,细节既要有意义,又要看起来美观。
| 提示 | 视频输出 |
|
|
在Pollo AI上试试Gemini Omni
Pollo AI将顶尖的 AI 视频生成工具整合到一个平台上,为您提供一个兼具灵活性和高性能的创意中心。
集成Gemini Omni后, Pollo AI 的功能更加强大。您可以亲自探索Gemini Omni 的强大功能并比较结果。
除了各种模型外, Pollo AI还提供一系列丰富的 AI 工具。这些工具可以减少重复性工作,在您遇到瓶颈时激发新思路,即使您并非专家,也能轻松进行高级创作。
- AI动作控制:通过真实视频,使任何静态角色图像都能拥有逼真的动作。
- AI视频滤镜:用创意视觉风格改变你的视频素材。
- AI视频延长器:以一致的运动和风格平滑地延长您的视频。

Pollo Agent 是我推荐你使用这个平台的另一个原因。作为一款 AI 创作助手,它能够理解你的目标并指导你的工作流程。因此,你的创作过程将更加流畅,无需再为各种提示和设置而烦恼。
无论您是制作UGC视频还是音乐视频,都可以节省更多时间并减少试错。

最后想说
在测试了Gemini Omni (Veo 4)之后,我可以说它感觉比Veo 3有了明显的提升。
最让我印象深刻的是它更强的上下文理解能力、基于聊天的编辑功能、视频混剪功能,以及保持复杂细节连贯性的能力,尤其是在涉及文本、公式或特定用户指令的场景中。它不仅让视频片段看起来更美观,还让视频的指导和优化变得更加容易。
如果你想要一个能够理解你的意图、响应变化并通过对话不断塑造结果的模型,那么Gemini Omni是一个更值得关注的方向。

