在探索了眾多人工智慧影片工具後,很少有工具能像Gemini Omni(又名Veo 4)一樣給我留下深刻印象。這不僅僅是一次小小的更新;它實現了向可用於製作 4K 解析度、精心設計的音訊和卓越的場景一致性的影片的飛躍。
從更長的影片片段到多角度控制, Gemini Omni提供了創作者所需的專業功能。繼續閱讀,了解我對這些突破性升級的完整上手評測,並了解如何透過Pollo AI親自體驗Gemini Omni 。
我對Gemini Omni (Veo 4)的第一印象
過去一年裡,我評測過很多AI影片工具,說實話,真正讓我眼前一亮的工具並不多。 Gemini Gemini Omni (Veo 4)就是其中之一。
就我目前所見, Gemini Omni與其說是一次小幅升級,不如說是邁向原生多模態 AI 影片的重大一步。最令我印象深刻的不僅是更出色的視覺效果,更是它將視訊生成、基於聊天的編輯、混音和上下文理解整合到一個工作流程中。
這正是它對創作者而言價值所在。 Gemini Gemini Omni更注重影片的後期修改,而非一次性輸出,進而提升影片的實用性:提供參考、提出修改意見、保留有效部分,並透過溝通不斷完善最終成果。對於行銷人員、電影製作人和內容創作者來說,這能讓 AI 影片更接近真實的製作體驗。
聽起來Google正試圖將人工智慧影片從短小的實驗性片段發展成更適用於實際專案的東西。
當然,人們的期望很高,但並非所有承諾都能在實踐中同樣奏效。人工智慧視訊工具往往在紙上看起來令人興奮,但一旦開始創作,就會發現它並沒有那麼令人印象深刻。儘管如此, Gemini Omni 的許多雄心勃勃的升級仍然值得關注。在這篇評測中,我將深入探討它的優點所在以及它仍需證明自身實力的地方。
為了節省您的時間,我想概述一下Veo 3和Gemini Omni (Veo 4)之間的差異。
| 特徵 | Veo 3 | Gemini Omni (Veo 4) |
| 影片時長 | 短視頻片段,通常約 8 秒。 | 較長的影片片段,預計長度在15-30秒左右,節奏更流暢,過渡更自然。 |
| 場景一致性 | 幀間一致性有限 | 場景間時間一致性較強,物件持久性較佳,多角色互動較穩定。 |
| 相機控制 | 基本的基於提示的攝影機移動 | 更精確地控制鏡頭、運動、構圖和節奏 |
| 快速理解 | 適用於簡單提示 | 對細緻的電影指令進行高階解讀,並提供更可靠的後續指導。 |
| 多角度場景 | 不支援 | 支援從單一提示符號設定每個場景的多個攝影機角度 |
| 個人化頭像 | 無法使用 | 具有語音同步、精準臉部表情和同步唇部動作的個人化虛擬形象 |
| 編輯工作流程 | 重新生成整個剪輯以進行更改 | 生成過程中可進行互動式編輯,允許在過程中進行調整。 |
| 主要用例 | 生成短實驗視頻 | 可用於生產的影片創作工作流程 |
| 解決 | 最高支援 1080p 輸出 | 最高支援 4K 輸出 |
| 聲音的 | 無聲視訊或基本音訊(時間參考) | 更高品質、更精心設計的音頻,擁有更富表現力的語音、更佳的節奏感、更豐富的氛圍感和更連貫的聲音設計。 |
| 多語言準確性 | 基本的 | 更準確的螢幕文字、標誌、使用者介面渲染,以及更清晰的跨語言唇形同步 |
Gemini Omni 的獨特之處
- 情境感知聊天編輯: Gemini Omni 的出現,對人工智慧視訊而言,就像Nano Banana 的橫空出世。它允許用戶在對話過程中修改影片片段,同時也能理解哪些內容需要修改、哪些內容需要保留,以及場景應該如何繼續。
- 原生多模態影片工作流程: Gemini Omni將影片產生、編輯、混音和基於參考的創作整合到一個 Gemini 原生工作流程中。它不再將文字、圖像、片段、模板和編輯視為獨立的模式,而是將它們作為一個相互關聯的上下文來塑造最終的影片。
- 更清晰的文字和公式控制: Gemini Omni可以讓影片中的文字細節、公式、動態效果和含義更加協調一致。這使其非常適用於教程、講解影片、教育內容和其他知識密集型場景。
- 生成與編輯融為一體: Gemini Omni認為,未來的 AI 影片將不再涇渭分明地分為文字/圖像/影片參考和影片編輯三部分。一旦模型能夠理解參考資訊並透過提示修改結果,創作和編輯的工作流程將逐漸整合。
我使用Gemini Omni 的體驗
原生多模態影片生成
Gemini Omni旨在提供更靈活的影片製作方式。使用者可以匯入提示、圖片、片段、音訊提示或模板,該模型可以將這些素材視為一個完整的創意簡報。
因此,以往文字轉影片和影像轉影片的區分在這裡顯得不那麼重要了。 Gemini Gemini Omni 的工作方式更像是參考驅動的視訊模型,不同的輸入共同決定了最終的製作方向。
| 迅速的 | 視訊輸入 | 視訊輸出 |
| 這是一則自然風格的UGC護膚廣告,廣告中一位年輕女性留著紅棕色長髮,臉上帶著明顯的雀斑,妝容清新淡雅。她將一罐綠色乳霜靠近鏡頭,塗抹在臉上,清晰地展示了使用前後肌膚的變化:從粗糙的裸露肌膚變得光滑、柔軟、透亮。 |
太棒了!這段護膚影片始終保持人物真實可信,產品視覺效果也前後一致,使整體效果更加精緻,更具沉浸感。
基於聊天功能的影片編輯
對話式編輯功能讓Gemini Omni真正展現實用性。用戶無需重新剪輯影片或瀏覽時間線,只需告訴模型需要修改什麼。
它將視訊剪輯變成了一種基於提示的互動。從這個意義上講, Gemini Omni將Nano Banana式的剪輯體驗帶到了動態影像領域。
| 迅速的 | 視訊輸入 | 視訊輸出 |
| 請移除此影片片段中的 Sora2 標誌。 | ![]() | ![]() |
更強的文字和公式一致性
在需要保持文字訊息清晰易讀且意義明確的場景中, Gemini Omni 的表現尤其突出。這對 AI 影片來說是一項嚴峻的考驗,因為即使場景持續移動,文字也必須保持穩定。
對於教程、講解影片、課程和其他知識型影片來說,這一點至關重要。模型不僅需要處理文字的外觀,還需要處理文字在場景中的時序、結構和意義。
| 迅速的 | 視訊輸出 |
| 一位教授在傳統的黑板上寫出三角恆等式的數學證明,並解釋他目前在方程式中所執行的步驟。 |
我真的被Gemini Omni 的這段影片驚艷到了。它不僅保證了螢幕上文字的準確性,還保證了場景中複雜數學公式的正確性,使整個效果更加可信,技術上也令人印象深刻。
物件和場景級編輯
當影片只需要進行局部修改時, Gemini Omni非常實用。用戶無需從頭開始製作新視頻,即可調整特定物件、細節或場景的某個部分。
這在實際製作中至關重要,因為一些小的改動往往決定了影片是否可用。保持原廠鏡頭完整,只修改需要修改的部分,會讓剪輯過程更有效率、方便。
| 迅速的 | 視訊輸入 | 視訊輸出 |
Gemini Omni真的讓我很驚喜。它只替換了食物,而且替換得非常自然,既保持了菜餚的真實感,又保留了人物的動作和整個場景。
影片混音
在第一稿之後,透過重新混音, Gemini Omni變得更加實用。
使用者無需從零開始,而是可以利用現有的影片片段,在保留其結構、運動或創意方向的前提下,將其轉換為新的版本。這更接近真實創作者的工作方式。
| 視訊輸入 | 迅速的 | 視訊輸出 |
| 將「海邊漫步的女孩」片段與產品片段結合起來,製作一部電影風格的電視廣告,將生活風格美容鏡頭與精美的產品視覺效果融合在一起,打造一部高端、優雅的護膚品廣告。 |
世界知識意識創造
Gemini Omni的價值還在於它能夠理解場景背後的意義。它不僅追求影片的精美呈現,還需要了解場景的意義。
這種理解對於歷史主題、教育內容、產品說明和故事驅動型影片尤其有用,因為在這些主題中,細節既要有意義,又要看起來美觀。
| 迅速的 | 視訊輸出 |
在Pollo AI上試試Gemini Omni
Pollo AI將頂尖的 AI 視訊生成工具整合到一個平台上,為您提供一個兼具靈活性和高效能的創意中心。
整合Gemini Omni後, Pollo AI 的功能更加強大。您可以親自探索Gemini Omni 的強大功能並比較結果。
除了各種模型外, Pollo AI還提供一系列豐富的 AI 工具。這些工具可以減少重複性工作,在您遇到瓶頸時激發新思路,即使您並非專家,也能輕鬆進行高級創作。
- AI動作控制:透過真實視頻,使任何靜態角色圖像都能擁有逼真的動作。
- AI視訊濾鏡:用創意視覺風格改變你的影片素材。
- AI影片延長器:以一致的運動和風格平滑地延長您的影片。

Pollo Agent 是我推薦你使用這個平台的另一個原因。作為一款 AI 創作助手,它能夠理解你的目標並指導你的工作流程。因此,你的創作過程將更加流暢,無需再為各種提示和設定而煩惱。
無論您是製作UGC視頻還是音樂視頻,都可以節省更多時間並減少試錯。

最後想說
在測試了Gemini Omni (Veo 4)之後,我可以說它感覺比Veo 3有了明顯的提升。
最讓我印象深刻的是它更強的上下文理解能力、基於聊天的編輯功能、視訊混剪功能,以及保持複雜細節連貫性的能力,尤其是在涉及文字、公式或特定使用者指令的場景中。它不僅讓影片片段看起來更美觀,還讓影片的指導和優化變得更加容易。
如果你想要一個能夠理解你的意圖、回應變化並透過對話不斷塑造結果的模型,那麼Gemini Omni是一個更值得關注的方向。

