Google ha appena svelato il suo ultimo modello di generazione video, Veo 3.1, costruito sul Veo 3 originale.
Veo 3.1 non solo offre una migliore aderenza al prompt, garantendo che la tua visione prenda vita con maggiore accuratezza, ma offre anche un output audio nativo più ricco, unendo suono e movimento in modo più naturale rispetto a prima.
Ha inoltre introdotto tre nuove funzionalità chiave, tra cui:
- Ingredienti per il video: Genera un video completo da immagini di riferimento, bloccando lo stile del personaggio e della scena.
- Fotogrammi per il video: Crea transizioni fluide e naturali fornendo il primo e l'ultimo fotogramma di una ripresa.
- Estendi video: Trasforma clip brevi in video più lunghi estendendo l'azione per un minuto o più.
È in arrivo anche uno strumento di rimozione con un clic, che eliminerà gli oggetti indesiderati e ricostruirà lo sfondo per una finitura pulita.
Veo 3.1 di Google è ora attivo sul generatore video Pollo AI, offrendo ai creatori l'accesso a capacità di generazione video potenziate.
Ho eseguito una serie di test concentrati su quattro aggiornamenti chiave: miglioramento dell'output audio nativo, Ingredienti per il video e Fotogrammi per il video. Ecco cosa ho scoperto: spoiler: Veo 3.1 cambia le regole del gioco.
Mettere Veo 3.1 alla prova
- Generazione audio nativa
Prompt: "Un primo piano di una padella in ghisa sfrigolante in una cucina di ristorante affollata. Uno chef gira una bistecca e si sente il chiacchiericcio degli altri cuochi e il clangore di pentole e padelle in sottofondo."
Risultato: L'output è stato impressionante. Il suono principale, il netto e crepitante sfrigolio della bistecca, era nitido e in primo piano. Tuttavia, nonostante fosse esplicitamente richiesto nel prompt, il distinto "chiacchiericcio degli altri cuochi" era assente. Ciò ha lasciato lo sfondo meno "affollato" del previsto, mancando un elemento umano chiave che avrebbe reso l'audio veramente ricco e stratificato.
- Fotogrammi per il video
Prompt: Utilizzando il primo e l'ultimo fotogramma come cornice, crea un video di transizione fluida di 10 secondi in cui una coppia entra nel caffè, si siede, ordina un caffè e inizia a chiacchierare animatamente mentre scende la sera.
| Immagine del fotogramma iniziale e finale | Video di output |
![]() ![]() |
Risultato: Mentre i personaggi e la scena sono rimasti visivamente coerenti e i fotogrammi iniziali/finali sono stati utilizzati come cornice, il video non è riuscito a creare una transizione fluida. Azioni come l'ordinazione erano brusche (ad esempio, le tazze da caffè sono apparse improvvisamente) e c'era una significativa mancanza di continuità con il fotogramma finale.
- Ingredienti per il video
Prompt: Un mago barbuto in vesti viola in una biblioteca di pietra illuminata da candele sta leggendo un antico tomo, alzando improvvisamente lo sguardo sorpreso, poi lanciando un incantesimo che fa fluttuare libri intorno a lui
| Immagini di riferimento | Video di output |
![]() ![]() |
Risultato: Sebbene l'ambientazione generale e l'atmosfera siano state mantenute in modo eccellente, con una biblioteca di pietra riccamente dettagliata illuminata da candele e un'illuminazione suggestiva, l'aspetto del mago non corrispondeva completamente all'immagine di riferimento.
Le sue caratteristiche facciali e lo stile della barba differivano notevolmente, suggerendo una fedeltà limitata nel trasferimento del personaggio.
Nonostante l'incongruenza iniziale, il modello dimostra un'eccellente coerenza temporale e aderenza alla scena, offrendo una sequenza cinematografica e immersiva che si allinea bene con l'azione descritta.
Verdetto finale
Veo 3.1 dimostra forti capacità nel rendering di personaggi e scene coerenti, mantenendo con successo l'integrità visiva tra i fotogrammi e le cornici specificate.
Funziona bene con le azioni e gli oggetti primari, e può generare chiari effetti audio primari. Tuttavia, il modello presenta significative debolezze nella generazione di contenuti video dinamici e sfumati. Lotta con:
- Transizioni fluide e continuità: Azioni complesse a più passaggi appaiono spesso brusche (ad esempio, oggetti che appaiono improvvisamente) e le transizioni mancano di continuità, portando a sequenze disarticolate, in particolare verso i fotogrammi finali.
- Sfumature emotive: Le espressioni dei personaggi e il tono possono essere incoerenti o mancare della profondità emotiva specificata (ad esempio, uno sguardo "sorpreso" appare debole, o una coppia che "ride" manca di animazione).
- Animazione complessa di oggetti: Interazioni che coinvolgono più oggetti (come libri fluttuanti) possono apparire rigide, meccaniche o con oggetti che appaiono "dal nulla" piuttosto che muoversi organicamente.
- Audio stratificato: Mentre i suoni primari sono buoni, la generazione di elementi audio secondari o di sottofondo distinti, anche quando esplicitamente richiesto, rimane una sfida, incidendo sulla ricchezza del paesaggio sonoro.
Perché usare Veo 3.1 su Pollo AI?
Pollo AI riunisce il meglio della generazione video AI, tutto sotto lo stesso tetto. Pensalo come il tuo centro di controllo creativo, dove potenza e flessibilità si incontrano.
Non sei bloccato con un solo modello come Veo 3.1l. Su Pollo AI, puoi passare da un motore di prim'ordine all'altro come Sora 2, Veo 3, Kling 2.5 Turbo, Wan 2.5, Seedance e altri, in qualsiasi momento.
Ciò significa che se ami il realismo e la profondità narrativa di Veo 3.1 (che, tra l'altro, è incredibile), puoi usarlo esattamente quando si adatta, quindi passare a un altro modello per velocità, stile o dettaglio. Nessun limite. Nessun compromesso.
Inoltre, dispone di tutte le principali funzionalità di generazione video AI:
- Dai vita alle foto con il nostro AI da immagine a video.
- Trasforma sceneggiature in immagini straordinarie con l'AI da testo a video.
- Crea clip accattivanti con il generatore di video con avatar AI.
- Crea clip rilassanti, in stile animale o anime con l'generatore di brevi video AI.
- Imita qualsiasi movimento del video di riferimento con Pollo Mimic.
Prova Pollo AI oggi stesso e sblocca il pieno potenziale della creazione video guidata dall'IA.



