我最近测试了阿里巴巴最新的AI视频模型Wan 2.5 。在它发布后引起了广泛关注,我很好奇它的表现如何——显然,这个模型带来了一些显著的升级。
Wan 2.5在Wan 2.2 的基础上增加了原生音频生成功能,可以直接在视频旁边生成声音——环境噪音、背景音乐,甚至是为匹配场景而设计的旁白。
这使其与谷歌的Veo 3处于同一水平,后者已经提供了强大的音频集成。从纸面上看, Wan 2.5还承诺更流畅的动作、更清晰的视觉效果、更好的提示理解以及从头到尾更一致的帧。
我进行了四项真实世界的测试,以了解音频和视觉效果的融合程度,因为这种协同作用是区分优秀人工智能视频和普通人工智能视频的关键。
快速总结: Wan 2.5版本有所改进
Wan 2.5在多种场景中展示了令人印象深刻的音频生成能力,具有逼真的环境音和恰当的音效。视频质量,尤其是人物主体,则不太稳定——虽然有精彩的瞬间,但在真实感和口型同步方面仍有改进空间。在一种情况下,根本没有生成音频,这表明该模型仍在发展中,尚未完全可靠。
Wan 2.5的真实案例
为了测试它的多功能性,我准备了四个不同的提示,混合了写实和风格化的场景,并对每个提示进行了评分:
- 音频准确性和场景匹配
- 视觉真实感和流畅的动作
- 动作和面部表情的精准度
1. 与朋友一起徒步旅行的场景——流畅自然
提示:两名年轻男子和一名年轻女子沿着风景优美的山路徒步而上,一边随意地聊天,一边开心地笑着。微风吹拂着树叶,阳光透过树林洒落,每个人都背着一个背包。他们轻松愉快的谈话和笑容捕捉到了户外休闲的时刻。
结果:森林氛围、微风和笑声都与视觉效果自然地融合在一起。动作流畅,没有明显的故障。
评分:8/10 — 对于休闲内容而言,这是一个强大且可用的结果。
2. 地铁站的女人——音质不错,但需要更生动一些
提示:一位年轻的亚洲女性站在地铁站楼梯上,手里拿着智能手机,热情地微笑着。日光透过,柔和的阴影落在她都市街头风的穿着上。
结果:逼真的地铁背景音效有助于营造场景氛围,但她的面部表情和动作可以更自然、更具动感。
评分:8/10 — 音质扎实,但动作方面有改进空间。
3. 西装革履的狡猾狐狸——引人入胜的视觉概念
提示:一只穿着考究西装的狐狸,自信地走近镜头,脸上带着狡黠的笑容,手里拿着一叠文件。
结果:动画角色看起来时尚且富有表现力。但是,此测试没有产生音频,这表明声音生成偶尔会出现中断。
评分:不适用 — 音频缺失,视觉效果强。
4. 记者在街头直播——讲话清晰,但音画同步效果有待改进
提示:一位短发记者在繁忙的街道上进行现场报道,她一边说话,一边还要盖过车流和人群的喧嚣。
结果:语音准确清晰,但唇部动作与音频未能完全同步,导致同步效果不够令人信服。
评分:5/10 — 功能正常,但同步功能有待改进。
最终结论:一次有前景且潜力巨大的更新
Wan 2.5引入了宝贵的视听功能,在某些情况下可以提供出色的效果。虽然不同提示下的表现各不相同,但其出色的表现表明了未来改进和更广泛可用性的潜力。
比Veo 3好吗?还不能完全这么说,因为Veo 3的整体表现仍然更稳定。但Wan 2.5的音频集成和偶尔出现的高质量视觉效果预示着随着技术的成熟,未来发展前景光明。
适用人群:喜欢尝试新事物的人、创作自然或风格化场景的人,以及能接受偶尔瑕疵的人。
适用人群:需要精确的真实感和完美同步的以人为中心的视频的专业人士。
为什么在Pollo AI上尝试Wan 2.5
Wan 2.5是Pollo AI上提供的几款功能强大的 AI 视频工具之一。该平台可以轻松创建各种风格的高质量视觉效果,包括文本转视频、图像转视频和其他高级生成器。
您还可以访问Runway 、 Veo 3 、 Seedance 、 Hailuo AI 、 Kling AI和PixVerse AI等领先模型,因此您永远不会仅限于一种选择。

其中一个突出功能是AI 虚拟形象视频生成器,它可以将单张照片转换成具有自然手势、逼真面部表情和准确口型同步的逼真虚拟形象。

Pollo AI Shorts 可快速生成创意短视频,包括动漫、动物或舒缓风格的短视频,并可一次性生成多场景视频。

Pollo AI凭借其一系列 AI 效果、可自定义的工具和 LoRA,只需点击几下即可将概念转化为精美的视频。
如果您想探索人工智能视频创作,又不想经历陡峭的学习曲线,请免费试用Pollo AI ,看看您的想法能走多远。