Google 刚刚发布了其最新的视频生成模型 Veo 3.1,该模型基于最初的 Veo 3 构建。
Veo 3.1 不仅提高了对提示的遵循度,确保您的创意以更高的准确度栩栩如生地呈现,还提供了更丰富的原生音频输出,使声音和画面比以往任何时候都更自然地结合在一起。
此外,它还引入了三项新的关键功能,包括:
- 素材生视频:从参考图像生成完整视频,锁定角色和场景风格。
- 连帧成片:通过提供拍摄的起始帧和结束帧,生成流畅自然的过渡。
- 视频延展:通过将动作延长一分钟或更长时间,将短片转化为更长的视频。
一键式移除工具也即将推出,该工具将能够移除不想要的物体并重建背景,以获得干净的画面效果。
Google 的 Veo 3.1 现已在 Pollo AI 视频生成器 上线,为创作者提供增强的视频生成功能。
我进行了一系列测试,重点关注四项关键升级:改进的原生音频输出、素材生视频和连帧成片。以下是我的发现——剧透一下:Veo 3.1 彻底改变了游戏规则。
对 Veo 3.1 进行测试
- 原生音频生成
提示:“一个热闹的餐厅厨房里,滋滋作响的铸铁煎锅特写。一位厨师在翻牛排,你可以听到其他厨师的谈话声以及背景中锅碗瓢盆的碰撞声。”
结果:输出令人印象深刻。主要声音——牛排尖锐、噼啪作响的滋滋声——清晰而突出。然而,尽管提示中明确要求了“其他厨师的谈话声”,但这种声音却缺失了。这使得背景感觉不像预期的那样“热闹”,缺少了能够使音频真正丰富和分层的关键人类元素。
- 连帧成片
提示:使用起始帧和结束帧作为开头和结尾,生成一个 10 秒钟的流畅过渡视频,其中一对情侣进入咖啡馆,坐下,点咖啡,并在夜幕降临时开始热烈交谈。
| 起始帧和结束帧图像 | 输出视频 |
![]() ![]() |
结果:虽然角色和场景在视觉上保持一致,并且起始/结束帧被用作开头和结尾,但视频未能生成流畅的过渡。点咖啡等动作很突然(例如,咖啡杯突然出现),并且与最后一帧的连续性明显不足。
- 素材生视频
提示:一位身穿紫色长袍的胡须男巫师,在烛光石制图书馆里阅读一本古老的卷轴,突然惊讶地抬起头,然后施放一个咒语,使书籍在他周围漂浮
| 参考图像 | 输出视频 |
![]() ![]() |
结果:虽然整体场景和氛围得到了极好的维持——拥有细节丰富的烛光石制图书馆和富有氛围的灯光——但巫师的外观并未完全符合参考图像。
他的面部特征和胡须风格差异明显,表明角色迁移保真度有限。
尽管存在初始不匹配,但该模型仍展现出出色的时间连贯性和场景遵循性,交付了一段符合所描述动作的、富有电影感且引人入胜的序列。
最终结论
Veo 3.1 在渲染一致的角色和场景方面展现了强大的能力,成功地在帧和指定的开头/结尾之间保持了视觉完整性。
它在处理主要动作和物体方面表现良好,并且能够生成清晰的主要音频效果。然而,该模型在生成动态和细微的视频内容方面存在明显弱点。它在以下方面遇到困难:
- 流畅的过渡与连续性:复杂的多步动作常常显得生硬(例如,物体突然出现),过渡缺乏连续性,导致序列断断续续,尤其是在结尾帧处。
- 情感细微差别:角色表情和语气可能不一致或缺乏指定的情感深度(例如,“惊讶”的表情显得平淡,或者“大笑”的情侣缺乏活力)。
- 复杂物体动画:涉及多个物体(如漂浮的书籍)的交互可能显得僵硬、机械,或者物体是“弹出”出现的,而不是有机地移动。
- 分层音频:虽然主要声音效果良好,但生成明显次要或背景音频元素(即使在明确提示的情况下)仍然是一个挑战,这影响了声景的丰富性。
为什么要使用 Pollo AI 上的 Veo 3.1?
Pollo AI 将AI视频生成领域的佼佼者汇集在一起——尽在掌握。将其视为您的创意控制中心,在这里强大与灵活性兼备。
您不必局限于 Veo 3.1l 这样单一的模式。在 Pollo AI 上,您可以随时在 Sora 2、Veo 3、Kling 2.5 Turbo、Wan 2.5、Seedance 等顶级引擎之间切换。
这意味着,如果您喜欢 Veo 3.1 的真实感和叙事深度(顺便说一句,这非常棒),您可以在最适合的场合使用它——然后切换到另一个模型以获得速度、风格或细节。没有限制。没有妥协。
此外,它还拥有所有关键的AI视频生成功能:
- 通过我们的 图像转视频 AI 让照片栩栩如生。
- 将剧本转化为令人惊叹的视觉效果,只需 文本转视频 AI。
- 使用 AI 数字人视频生成器 制作引人入胜的短片。
- 使用 AI 短视频生成器 创作舒缓、动物或动漫风格的短片。
- 使用 Pollo 动作模仿 模仿参考视频的任何动作。
立即体验 Pollo AI,释放AI视频创作的全部潜力。



