我最近有機會試用 Google 最新的人工智慧影片技術Veo 3。它是在 2025 年 5 月 20 日,Google I/O 2025 活動期間發布的。
它很酷的功能已經引起了很多討論。身為一個在AI影片生成領域工作的人,我很樂意分享我對這個模型的真實想法和經驗。

懶人包
我用Veo 3製作了一個 Podcast 和幾個演唱會影片來測試。雖然它不是完美的,而且有一些奇怪的小問題,但它能製作出逼真的影片和同步的音訊,這點還是很令人驚艷。
但是有時候我也會對這個模型感到很沮喪:音訊和字幕的生成無法完全控制,而且它生成的文字也常常會出錯。
| 優點 | 缺點 |
| ✔️ 一次生成影片和音檔 | ❌ 訂閱方案超貴 |
| ✔️ 唇形動畫和音效逼真 | ❌ 音訊和字幕生成無法控制 |
| ✔️ 高品質的視覺效果,搭配不錯的物理引擎 | ❌ 經常出現明顯的怪異行為和文字亂碼 |
| ✔️ 已整合至Google Flow |
影片、音訊、旁白、口型同步,一次搞定。
我第一個注意到的是, Veo 3 如何將多個影片製作步驟簡化成一個簡單的流程。
當我使用Veo 3,我對它如何用聲音讓我的影片栩栩如生感到驚訝。我可以加入環境音,像是樹上鳥兒的歌唱聲,或是城市街道的喧囂聲,這真的讓我的場景感覺很真實。
最讓我驚豔的是,它能生成與角色嘴型完全吻合的對話,非常自然,有時候根本看不出來是AI生成的。
AI影片工作流程全新定義
這個新的多模態功能絕對是這個模型的一大亮點。你再也不用為了音樂、配音和唇形同步這些事情而煩惱了。
這可能會改變人們用AI製作影片的方式:
- 舊的製作流程是:先製作影片,然後製作旁白、音效、配樂,接著是唇形同步,最後才是剪輯。
- Veo 3的全新工作流程:只要輸入文字提示,其他就交給它了。
範例生成
我很想知道Veo 3能不能應付一些時下流行的影片需求,所以我請它生成了四個獨特的影片。
在第一個例子中,我要求製作一個看起來很真實的假新聞,內容是關於墨西哥捲餅大軍快速入侵美國的報導。
我對這段影片的半寫實程度感到驚訝。雖然有一些臉部變形,但播報員看起來很逼真,嘴型也對得蠻準的。
下一個例子是關於一個新奇的影片,內容是關於一隻看起來很逼真、會說話的大猩猩,牠在看一場重要的英格蘭足球賽。牠拿著一根自拍桿,在看台上和其他球迷一起,對著鏡頭憤怒地抱怨裁判不公平的判決。
這結果蠻有趣的,因為那隻大猩猩看起來和聽起來都超逼真,表情和肢體動作都很自然。但背景還是有幾個地方怪怪的,蠻明顯的。
第三個例子,我想看看如果把蔬菜對半切開,裡面會是什麼樣子。
大部分來說,我的提示都正確地被執行了,但不知為何,這個工具卻生成了結晶化的蔬菜,這影響了我追求的視覺真實感。對了,聲音聽起來很放鬆。
在這個最後的例子中,我請Veo 3製作一段時間旅行的電影場景,內容是一位女性回到 1912 年 4 月 14 日,試圖警告鐵達尼號上的乘客,這艘船即將在紐芬蘭附近北大西洋海域沉沒。
這次,我覺得那個場景太誇張了,而且突然消失的橋段也沒必要。老實說,那根本就是一個隨機又不太準確的AI影片渲染。
總體來說, Veo 3 的表現還算不錯。它在提示詞的遵循度和視覺一致性方面有一些小問題。所以,有時候可能需要重新生成,但我認為這個 AI 模型有能力生成爆紅的影片。
Flow:搶先看次世代AI影片製作
Google在發布Veo 3 的同時,也推出了Flow 。這是一個 AI 影片腳本平台,整合了Veo 3和它之前的影片模型,還有許多 AI 生成和編輯工具。

分鏡圖
故事板這個概念其實不是什麼新鮮事, Sora最早提出這個概念,但因為表現不佳而被忽略了。Google FlowGoogle故事板的概念發揚光大,讓它變得更有用。
你可以把任何你上傳的或是用Veo系列模型產生的影片片段放到時間軸上,然後去排列、剪輯,做一些基本的編輯。但最酷的功能是他們稱之為「擴充」的。
流暢影片擴充功能
它的運作方式是:你錄製一段八秒的影片,然後可以從影片中的任何一幀開始,生成一段新的動畫,讓動畫從那個時刻繼續下去。

最讓我驚訝的是,原始內容和新內容之間的過渡是多麼流暢。FlowFlow會分析原始影片中的動作趨勢,而不是只使用單一影像作為參考。
這個擴充功能真的很重要,因為它突破了AI生成影片的長度限制。你不再只能製作短片,現在可以製作更長、更有故事性的影片了。
這跟Sora之前承諾的差不多,但Google的實作方式真的很好用,很有用。
不過有一點要注意:目前這個擴充功能只適用於Veo 2 ,不適用於較新的Veo 3。
很厲害,但也有點前後不一。
我對Veo 3 的酷炫功能和驚人影片效果感到非常興奮。但隨著我進一步探索,我也發現我製作的一些影片有畫質問題。
音訊和字幕生成不受控制
有一點讓我很困擾,就是音訊和字幕的生成感覺很隨機。即使你在提示中指定了,也無法控制它們是否會出現。
舉例來說,這支影片就是用這個提示詞生成的: 「那個二十歲的女生很沮喪,她說:『怎麼會這樣?我明明自己寫的作文,卻被判定是AI生成的?』」影片中,女生把手放在頭上,表情很焦慮,沒有字幕。
我特別在我的提示中要求影片中的女孩說話,而且不要有字幕。結果影片完全沒有聲音,但卻有字幕。
而且在這個用來宣傳牙刷的TikTok影片範例中,你也可以聽到沒有聲音。
怪癖與小毛病
我也有注意到Veo 3生成的影片有一些小瑕疵,像是動作不流暢或是畫面出現一些不該有的視覺錯誤。
舉例來說,我試著製作一個筆電開箱影片。影片中,沒有人真的打開盒子、拿出筆電,而是紙箱本身直接變成了筆電!
看到Veo 2的這些問題在新版本中仍然存在,真是令人失望。
另外,我覺得整體音質還是需要再加強,有些音效聽起來怪怪的。這些都是小問題,但仔細聽還是會發現。
亂碼
另外一個問題是文字生成的品質。Veo Veo 3可以為影片生成字幕,但文字經常會出現錯字和拼寫錯誤。
這個問題在之前的例子中就已經出現了。這裡還有更多例子,讓您知道這個問題有多常發生。



我知道這是很多AI模型都會遇到的常見問題。但就像我說的,你沒辦法完全控制它們的外觀。所以你可能需要多試幾次,才能避免這個問題。
價格不菲的門票
我發現的另一個缺點是Veo 3超級貴。它只開放給訂閱 Google Ultra 方案的用戶,而這個方案每個月要價 249.99 美元。
這個價格真的蠻貴的。如果你只是個一般使用者,或是小規模的內容創作者,想要試用看看這個模型,那我覺得這個可能不太適合你。希望Google未來可以擴大使用範圍,或是提供更實惠的選擇。
用不了Veo 3?試試Pollo AI!
如果你正在尋找一款高品質的AI影片生成器,但覺得Veo 3用起來不太順手,Pollo AI絕對值得你試試看!
Pollo AI是一個功能強大、整合式的 AI 影音和圖像生成平台,讓您可以在一個方便的平台中嘗試所有最棒的影片模型。作為Google Cloud 的官方合作夥伴,您現在可以在Pollo AI上試用Veo 3 ,親身體驗其尖端功能!

除了Veo 3,這個平台還讓您可以在其他頂級型號之間無縫切換,體驗它們獨特的功能,像是Veo 3.1 、 Vidu、 Hailuo、 Kling和PixVerse。這讓您可以使用所有您需要的進階模型,來製作令人驚豔、高品質的影片。
更棒的是, Pollo AI提供一套完整的原生影音工具,滿足您所有的創作需求。
舉例來說,你可以試試它創新的圖片轉影片AI、文字轉影片AI、參考影片轉影片AI、影片轉影片AI等等。此外,你還可以套用多種AI影片特效,來製作各種有趣又充滿想像力的AI影片。
總結
身為一個試過大部分AI影片生成工具的人,我對Veo 3所提供的超高品質感到非常興奮。
它有很棒的音訊整合功能、逼真的細節,還有簡化的影片製作流程,這些都讓我印象深刻。
另一方面,價格限制了它的普及,而且生成品質和一致性還有很大的進步空間。
儘管如此, Veo 3還是讓我對 AI 影像技術的未來發展有了更深入的了解,我很期待看到Google和其他公司如何在此基礎上繼續發展。
另外,如果你正在尋找一個多合一的AI影片生成平台,我建議你可以試試看Pollo AI影片生成器!