我最近測試了阿里巴巴最新的AI影片模型 「Wan 2.5」 。在它發布後引起了廣泛的討論,我很好奇它的表現如何——很明顯,這個模型帶來了一些顯著的升級。
Wan 2.5在Wan 2.2 的基礎上,增加了原生音訊生成功能,讓它能夠直接在影片旁邊生成聲音——像是環境音、背景音樂,甚至是為了搭配場景而設計的語音旁白。
這讓它和Google的Veo 3一樣,都提供了強大的音訊整合功能。從規格來看, Wan 2.5也承諾能提供更流暢的動作、更清晰的畫面、更精準的指令理解,以及從頭到尾更穩定的畫面幀數。
我實際測試了四種情境,來看看音訊和視覺效果的融合程度,因為這種協同作用是區分一個好的AI影片和一個優秀的AI影片的關鍵。
快速總結: Wan 2.5展現了進步
Wan 2.5在多種情境下展現了令人印象深刻的音訊生成能力,包括逼真的環境音和恰當的音效。然而,影片品質,特別是針對人物的呈現,則較為不穩定——雖然有許多精彩的時刻,但在真實感和嘴型同步方面仍有進步的空間。在其中一個案例中,甚至完全沒有生成音訊,這表示該模型仍在發展中,距離完全可靠還有待努力。
Wan 2.5的實際應用案例
為了測試它的多功能性,我準備了四個不同的提示,混合了寫實和風格化的場景,並對每個提示進行評分:
- 音訊精準度與場景匹配度
- 畫面寫實,動作流暢
- 動作和臉部表情都很精準
1. 和朋友一起爬山 — 輕鬆又自然
提示:兩位年輕男子和一位年輕女子沿著風景優美的山路健行,他們邊走邊聊天,開心地說笑著。微風輕拂,樹葉沙沙作響,陽光穿過樹林灑落下來,每個人都背著一個背包。他們輕鬆愉快的對話和笑容,捕捉了一個戶外休閒的時刻。
結果:森林的氛圍、微風和笑聲都跟畫面很搭。動作流暢,沒有明顯的卡頓。
分數:8/10 — 對於一般內容來說,這是一個不錯且實用的結果。
2. 地鐵站的女人 — 音質不錯,但需要更多活力
提示:一位年輕的亞洲女性站在地鐵站的樓梯上,臉上帶著溫暖的笑容,手中拿著一支智慧型手機。日光從上方灑落,柔和的陰影落在她時尚的都會街頭穿搭上。
結果:逼真的捷運背景音效有助於營造氛圍,但她的臉部表情和動作可以再更自然、更有活力一些。
評分:8/10 — 音質不錯,但動作流暢度還有進步空間。
3. 西裝革履的狡猾狐狸——引人入勝的視覺概念
提示:一隻穿著時髦西裝的狐狸,自信地走近鏡頭,手上拿著一疊文件,臉上帶著狡黠的笑容。
結果:動畫角色看起來很時尚,表情也很豐富。不過,這次測試沒有聲音,這表示聲音生成偶爾會有斷斷續續的狀況。
分數:不適用 — 沒聲音,但畫面很棒。
4. 記者在街頭直播 — 聲音清晰,但需要更好的畫面同步
提示:一位短髮記者在繁忙的街道上進行現場報導,她必須蓋過車聲和人聲的喧囂。
結果:語音很準確、清晰,但嘴唇的動作沒有完全跟上音訊,讓同步效果沒那麼令人信服。
分數:5/10 — 功能正常,但同步功能需要改進。
總結:一個很有潛力、值得期待的更新
Wan 2.5導入了許多實用的影音功能,在某些情況下能產生很棒的結果。雖然表現會因提示詞而異,但好的部分展現了未來改進和更廣泛使用的潛力。
比Veo 3還好嗎?還沒,因為Veo 3整體來說還是比較穩定。不過Wan 2.5的音訊整合和偶爾出現的高畫質畫面,都預示著隨著技術的成熟,未來發展潛力無窮。
適合對象:喜歡嘗試新事物的人、想用自然或風格化的場景來做創意發想的人,以及能接受偶爾出現小瑕疵的人。
誰應該等待:需要精準寫實和完美同步的專業人士,適用於以人為本的影片。
為什麼要在Pollo AI上試用Wan 2.5?
Wan 2.5是Pollo AI上眾多強大 AI 影片工具之一。這個平台讓您輕鬆製作各種風格的高品質視覺內容,包括文字轉影片、圖片轉影片以及其他進階生成器。
您也可以使用領先的AI模型,像是Runway 、 Veo 3 、 Seedance 、 Hailuo AI 、 Kling AI和PixVerse AI ,讓您永遠不會只有一個選擇。

其中一個特別值得一提的是AI虛擬人像影片生成器,它能將一張照片變成栩栩如生的虛擬人像,擁有自然的肢體動作、逼真的臉部表情和精準的唇形同步。

想要快速產出創意內容嗎? Pollo AI Shorts可以瞬間製作短影片,像是動漫、動物或是療癒風格的影片,還能一次生成多個場景喔。

Pollo AI擁有各種 AI 效果、可自訂工具和 LoRA 模型,只需點擊幾下,就能將您的概念轉化為精美的影片。
如果你想探索AI影片製作,又不想花太多時間學習,那就來試試Pollo AI吧,免費的喔!看看你的創意能發揮到什麼程度。