Google 剛剛發表了最新的影片生成模型 Veo 3.1,該模型建立在原版的 Veo 3 之上。
Veo 3.1 不僅能提升提示詞的符合度,確保您的構想更精確地實現,還提供了更豐富的原生音訊輸出,將聲音與動作以前所未有的自然方式結合。
它還引入了三項新的關鍵功能,包括:
- 素材生影片:從參考圖像生成完整影片,鎖定角色和場景風格。
- 連幁成片:提供鏡頭的起始和結束畫面,創造流暢自然的轉場。
- 延長影片:透過延長一分鐘或更長的動作,將短片轉換為更長的影片。
一鍵移除工具也即將推出,可消除不需要的物體並重建背景,以獲得乾淨的成品。
Google 的 Veo 3.1 現已在 Pollo AI 影片生成器 上線,為創作者提供增強的影片生成功能。
我進行了一系列測試,重點關注四項關鍵升級:改進的原生音訊輸出、素材生影片,以及連幁成片。以下是我發現的結果 — 劇透一下:Veo 3.1 是一款革命性的工具。
實測 Veo 3.1
- 原生音訊生成
提示詞:「在繁忙的餐廳廚房裡,一個正在滋滋作響的鑄鐵鍋特寫。一位廚師翻動牛排,您可以聽到背景中其他廚師的交談聲和鍋碗瓢盆的碰撞聲。」
結果:輸出效果令人印象深刻。主要的聲音 — 牛排那清脆、噼啪作響的滋滋聲 — 非常清晰且突出。然而,儘管提示詞中明確要求,但「其他廚師的交談聲」卻缺失了。這使得背景的「繁忙」感不如預期,缺少了能讓音訊真正豐富且富有層次感的關鍵人類元素。
- 連幁成片
提示詞:使用起始和結束畫面作為開頭和結尾,創建一個 10 秒的流暢轉場影片,其中一對夫婦走進咖啡館,坐下,點咖啡,並在夜幕降臨時開始熱烈地聊天。
| 起始和結束畫面圖像 | 輸出影片 |
![]() ![]() |
結果:雖然角色和場景在視覺上保持一致,並且起始/結束畫面被用作了開頭和結尾,但影片未能創造流暢的轉場。點餐等動作顯得突兀(例如,咖啡杯突然出現),並且與最終畫面之間明顯缺乏連續性。
- 素材生影片
提示詞:一位留著鬍子的巫師穿著紫色長袍,在燭光石砌的圖書館裡閱讀一本古老的書卷,突然驚訝地抬頭,然後施放一個讓書本在他周圍漂浮的法術
| 參考圖像 | 輸出影片 |
![]() ![]() |
結果:雖然整體場景和氛圍得到了絕佳的維護 — 擁有一個細節豐富的燭光石砌圖書館和氛圍照明 — 但巫師的外觀與參考圖像並不完全匹配。
他的面部特徵和鬍鬚風格有明顯差異,表明角色轉換的保真度有限。
儘管存在初步的不匹配,該模型仍展現了出色的時間連貫性和場景符合度,呈現了一個符合所述動作的、富有電影感且身臨其境的序列。
最終評語
Veo 3.1 在渲染一致的角色和場景方面展現了強大的能力,成功地在畫面和指定的開頭結尾之間保持了視覺完整性。
它在主要動作和物體方面表現良好,並且能夠生成清晰的主要音效。然而,該模型在生成動態且細膩的影片內容方面存在顯著的弱點。它在以下方面遇到困難:
- 流暢的轉場與連續性:複雜的多步驟動作經常顯得突兀(例如,物體突然出現),並且轉場缺乏連續性,導致序列斷斷續續,尤其是在進入最終畫面時。
- 情感細微差別:角色的表情和語氣可能不一致,或缺乏指定的情感深度(例如,「驚訝」的表情顯得溫和,或「大笑」的夫婦缺乏活力)。
- 複雜物體動畫:涉及多個物體的互動(如漂浮的書本)可能顯得僵硬、機械化,或物體「彈出」而非有機地移動。
- 層次豐富的音訊:雖然主要聲音效果良好,但生成獨立的次要或背景音訊元素,即使在明確提示的情況下,仍然是一個挑戰,影響了音景的豐富度。
為什麼要在 Pollo AI 上使用 Veo 3.1?
Pollo AI 將頂尖的 AI 影片生成技術匯集於一處。將其視為您的創意控制中心,兼具強大的功能和靈活性。
您不必局限於像 Veo 3.1 這樣的單一模式。在 Pollo AI 上,您可以隨時在頂級引擎之間切換,例如 Sora 2、Veo 3、Kling 2.5 Turbo、Wan 2.5、Seedance 等。
這意味著,如果您喜歡 Veo 3.1 的寫實風格和敘事深度(順帶一提,這點非常出色),您可以在最適合的時機使用它 — 然後切換到另一個模型以獲得速度、風格或細節。沒有限制。沒有妥協。
此外,它還具備所有關鍵的 AI 影片生成功能:
- 使用我們的 圖片轉影片 AI,讓照片栩栩如生。
- 運用 文字轉影片 AI,將劇本轉換為驚豔的視覺效果。
- 透過 AI 數字人影片生成器 製作引人入勝的短片。
- 使用 AI 短片生成器 製作令人舒緩、動物或動畫風格的短片。
- 運用 Pollo 動作模仿 模仿參考影片中的任何動作。
立即體驗 Pollo AI,釋放 AI 驅動影片創作的全部潛力。



