我最近有機會試用了谷歌在 AI 視訊技術方面的最新進展Veo 3。它將於 2025 年 5 月 20 日在谷歌 I/O 2025 大會期間發布。
它的酷炫功能引起了廣泛關注。作為一名從事 AI 視訊生成工作的人士,我迫不及待地想分享我對這個模型的真實想法和使用體驗。

TL;DR
我測試了Veo 3 ,製作了一個播客和幾段音樂會影片。雖然它並不完美,也有一些奇怪的小故障,但它製作的逼真視訊和同步音訊的效果令人印象深刻。
但有時我也對這種模型感到沮喪:音訊和字幕生成不是完全可控的,而且它產生的文字經常混亂。
優點 | 缺點 |
✔️一次性產生視訊和音頻 | ❌ 非常昂貴的訂閱計劃 |
✔️ 逼真的唇形同步與音效 | ❌ 不受控制的音訊和字幕生成 |
✔️ 高品質的視覺效果和良好的物理特性 | ❌ 頻繁可見的怪癖和混亂的文本 |
✔️ 整合到Google Flow |
視訊、音訊、畫外音、唇形同步…一站式
我注意到的第一件事是Veo 3 如何將多個影片建立步驟簡化為一個簡單的過程。
使用Veo 3時,我驚訝於它如何透過聲音賦予我的視訊生命力。我可以添加環境音效,例如樹上的鳥鳴聲或城市街道的喧囂聲,這讓我的場景更加真實。
最讓我印象深刻的是它如何創造與角色嘴唇動作相匹配的對話——它非常自然,有時看起來不像是人工智慧生成的。
重新定義 AI 視訊工作流程
這種全新的多模式功能無疑是該模型的一大亮點。你不再需要費力地處理音樂,也不再需要單獨尋找畫外音和唇形同步。
這可以改變人們利用人工智慧製作影片的方式:
- 舊的工作流程:產生影片>產生畫外音/音效/音樂>口型同步>編輯。
- Veo 3的新工作流程:只需輸入文字提示,一切就會被處理。
生成範例
我很想看看Veo 3如何處理某些流行影片請求,所以我要求它產生四個獨特的影片。
在第一個例子中,我請求一個看起來真實的假天氣新聞主播公告,描述玉米餅入侵迅速進入美國。
我對這段影片的半真實感感到驚訝。雖然有一些臉部扭曲,但播音員看起來栩栩如生,唇形也相當準確。
下一個例子是一段新穎的視頻,視頻中一隻長相逼真、會說話的大猩猩出席了一場重要的英格蘭足球比賽,它舉著自拍杆,與其他球迷一起在看台上向觀眾憤怒地咆哮裁判的不公平判罰。
這個結果挺有趣的,因為大猩猩的表情和聲音都栩栩如生,表情和肢體動作都十分自然。不過,背景中還是有一些明顯的失真。
第三個例子,我想看看如果將蔬菜切成兩半,裡面會是什麼樣子。
大部分情況下,我的提示都準確無誤地遵循了,但不知何故,該工具渲染出了結晶蔬菜,破壞了我想要的視覺真實感。順便說一下,聲音很舒緩。
在這個最後的例子中,我要求Veo 3製作一個時間旅行電影序列,其中一名女性回到 1912 年 4 月 14 日,並試圖警告泰坦尼克號上的乘客,該船將在北大西洋紐芬蘭附近沉沒。
這次,我發現場景過於誇張,突然消失的片段毫無必要。坦白說,這是一個相當隨機且不準確的AI視訊渲染。
總的來說, Veo 3整體表現還不錯。雖然在快速貼合和視覺一致性方面存在一些小問題,但有時可能需要進行一些更新,但我認為這個 AI 模型有能力產生足以爆紅的影片。
Flow:下一代 AI 影片製作的先睹為快
Google與Veo 3一同發布的還有 Flow ,它是一個 AI 視訊故事板平台,整合了Veo 3及其先前的視訊模型,以及大量的 AI 生成和編輯工具。

劇情板
Storyboard 的概念並不新鮮。 Sora 引入了Sora,但由於性能不佳而被忽視。 Google Flow 採用了 Storyboard 的概念,並使其更加實用。
您可以將上傳的或Veo系列機型產生的任何片段放到時間線上,進行排列、修剪以及基本編輯。但最酷的功能是他們所謂的「擴充」。
流暢的視訊擴展
它的工作原理如下:拍攝一段 8 秒的視頻,可以使用任意一幀作為起點來生成從該時刻開始的新動畫。

令人驚嘆的是,原始內容和新內容之間的過渡非常流暢。 Flow 似乎分析了原始影片中的運動趨勢,而不僅僅是使用單一影像作為參考。
這個擴充功能非常重要,因為它突破了AI生成影片的典型長度限制。現在,你可以創作更長、更具敘事性的視頻,而不必再局限於短視頻。
這與Sora承諾的類似,但 Google 的實施實際上效果很好,足夠實用。
但有一點要注意:目前,擴充功能僅適用於Veo 2 ,而不適用於較新的Veo 3。
令人印象深刻,但也不一致
Veo 3 的酷炫功能和令人驚嘆的影片讓我興奮不已。但隨著進一步探索,我發現我產生的一些影片存在品質問題。
不受控制的音訊和字幕生成
有一件事讓我很煩,那就是音訊和字幕的生成感覺很隨機。即使你在提示中指定了它們是否顯示,你也無法控制它們是否顯示。
一個例子是這個根據這個提示生成的視頻:一個20歲的女孩非常苦惱,說:“怎麼了?我自己寫的一篇文章被認定為人工智能生成的?” 女孩用手抱頭,表情焦慮,沒有字幕。
我特意在提示中要求女孩說點什麼,不要字幕。結果影片完全靜音,但有字幕。
在這個 TikTok 推廣牙刷的影片範例中,你也聽不到聲音。
怪癖和故障
我還注意到Veo 3生成的影片中存在一些小問題,包括不自然的動作或不合理的視覺效果。
例如,我嘗試製作一個筆記型電腦開箱影片。影片中並沒有展示一個人真正打開盒子並取出筆記型電腦的過程,而是直接把紙盒變成了一台筆記型電腦!
令人失望的是, Veo 2 中的這些問題在新版本中仍然存在。
另外,我覺得整體音質還有待提升,有些音效聽起來有些奇怪。雖然這些音效很小,但仔細聽還是能感覺到的。
混亂的文本
另一個問題是文字生成品質。 Veo Veo 3可以為影片產生字幕,但產生的文字經常出現混亂且拼字錯誤的情況。
您可以在前面的例子中看到這個問題。下面還有更多範例,可以向您展示這個問題的發生頻率。



我知道這是許多 AI 模型中常見的問題。但正如前文所述,你無法完全控制它們的外觀。所以你可能需要多嘗試幾次才能避免這個問題。
昂貴的訪問
我發現的另一個缺點是Veo 3價格超貴。它只對訂閱 Google Ultra 套餐的用戶開放,每月費用為 249.99 美元。
這個價格太高了。如果你只是個普通用戶或小創作者,想試試這個型號,我覺得它不太適合你。希望Google未來能擴大覆蓋範圍,或提供更多平價的選擇。
無法使用Veo 3?嘗試Pollo AI!
如果您正在尋找高品質的 AI 視訊產生器,但又無法嘗試Veo 3,那麼就看看Pollo AI吧!
Pollo AI是一款功能強大的一體式 AI 影片和影像產生器,可讓您在一個地方試用所有最佳影片模型。作為Google Cloud 的官方合作夥伴,您現在可以在Pollo AI上試用Veo 3 !

除了Veo 3,您還可以體驗Runway 、 Vidu 、 Hailuo 、 Kling 、 PixVerse等的功能,這些都是創建高品質影片所需的所有高級模型。
此外, Pollo AI還提供各種影片工具來滿足您所有的影片創作需求。
例如,你可以嘗試它的圖像轉影片、文字轉影片、連字號影片、影片轉影片產生器以及多種AI影片效果,製作出各種有趣、有創意的AI影片。
最後的想法
作為一個嘗試過大多數 AI 視訊生成工具的人,我對Veo 3所提供的高品質感到非常興奮。
自然的音訊融合、逼真的細節以及簡化的影片創作流程,這些都是令我印象深刻的酷炫功能。
另一方面,價格限制了它的普及,發電品質和一致性仍有提升的空間。
話雖如此, Veo 3仍然讓我對 AI 視訊技術的發展方向有了令人著迷的了解,我很好奇Google和其他公司如何在此基礎上發展。
另外,如果您正在尋找一體化的 AI 影片生成平台,我建議您嘗試Pollo AI !