Google har nettopp avduket sin nyeste videogenereringsmodell, Veo 3.1, som ble bygget på den originale Veo 3.
Veo 3.1 leverer ikke bare forbedret prompt-etterlevelse, som sikrer at visjonen din blir virkelighet med større nøyaktighet, men tilbyr også rikere native lydupptak, som bringer lyd og bevegelse sammen mer naturlig enn før.
Den har også introdusert tre nye nøkkelfunksjoner, inkludert:
- Ingredienser til video: Generer en hel video fra referansebilder, som låser fast karakter og scenestil.
- Bilder til video: Skap jevne, naturlige overganger ved å gi start- og sluttbildene av et klipp.
- Utvid video: Gjør korte klipp om til lengre videoer ved å utvide handlingen i et minutt eller mer.
Et verktøy for fjerning med ett klikk er også på vei, som vil fjerne uønskede objekter og rekonstruere bakgrunnen for en ren finish.
Googles Veo 3.1 er nå tilgjengelig på Pollo AI videogenerator, som tilbyr skapere tilgang til forbedrede videogenereringsmuligheter.
Jeg kjørte en rekke tester med fokus på fire nøkkeloppgraderinger: forbedret native lydupptak, Ingredienser til video, og Bilder til video. Her er hva jeg fant – spoiler: Veo 3.1 er en game-changer.
Setter Veo 3.1 på prøve
- Native lydupptak
Prompt: "En nærbilde av en fresende støpejernspanne på et travelt restaurantkjøkken. En kokk snur en biff, og du kan høre praten fra andre kokker og klirringen av gryter og panner i bakgrunnen."
Resultat: Utgangen var imponerende. Hovedlyden – den skarpe, knitrende fresingen av biffen – var klar og i forgrunnen. Men, til tross for at den eksplisitt ble bedt om i prompten, manglet den tydelige "praten fra andre kokker". Dette gjorde at bakgrunnen føltes mindre "travel" enn forventet, og manglet et sentralt menneskelig element som ville ha gjort lyden virkelig rik og lagdelt.
- Bilder til video
Prompt: Bruk start- og sluttbildene som rammer, og lag en 10-sekunders jevn overgangsvideo der et par kommer inn på kafeen, setter seg ned, bestiller kaffe og begynner å prate animert mens natten faller på.
| Start- og sluttbilde | Utgangsvideo |
![]() ![]() |
Resultat: Mens karakterer og scene forble visuelt konsistente, og start-/sluttbildene ble brukt som rammer, klarte ikke videoen å skape en jevn overgang. Handlinger som bestilling var brå (f.eks. kaffekopper dukket plutselig opp), og det var en betydelig mangel på kontinuitet inn i sluttbildet.
- Ingredienser til video
Prompt: En skjeggkledd trollmann i lilla kappe i et stearinbelyst steinkabinett leser en gammel bok, ser plutselig opp overrasket, og kaster deretter en trolldom som får bøker til å sveve rundt ham
| Referansebilder | Utgangsvideo |
![]() ![]() |
Resultat: Mens den generelle settingen og stemningen ble utmerket opprettholdt – med et rikt detaljert, stearinbelyst steinkabinett og stemningsfull belysning – samsvarte ikke trollmannens utseende fullt ut med referansebildet.
Ansiktstrekkene og skjeggstilen hans skilte seg merkbart, noe som antyder begrenset nøyaktighet i karakteroverføring.
Til tross for den innledende uoverensstemmelsen, demonstrerer modellen utmerket temporal koherens og scenetilpasning, og leverer en filmatisk og engasjerende sekvens som stemmer godt overens med den beskrevne handlingen.
Endelig dom
Veo 3.1 demonstrerer sterke evner til å gjengi konsistente karakterer og scener, og opprettholder vellykket visuell integritet på tvers av bilder og spesifiserte rammer.
Den presterer bra med primære handlinger og objekter, og kan generere klare primære lydeffekter. Modellen viser imidlertid betydelige svakheter i generering av dynamisk og nyansert videoinnhold. Den sliter med:
- Jevne overganger og kontinuitet: Komplekse, flerleddede handlinger virker ofte brå (f.eks. objekter som plutselig dukker opp), og overganger mangler kontinuitet, noe som fører til usammenhengende sekvenser, spesielt inn i sluttbildene.
- Emosjonell nyansering: Karakteruttrykk og tone kan være inkonsistente eller mangle den spesifiserte emosjonelle dybden (f.eks. et "overrasket" blikk som virker mildt, eller et "latterlig" par som mangler animasjon).
- Kompleks objektanimasjon: Interaksjoner som involverer flere objekter (som svevende bøker) kan virke stive, mekaniske, eller objekter kan "poppe" inn i eksistens i stedet for å bevege seg organisk.
- Lagdelt lyd: Mens primære lyder er bra, er generering av distinkte sekundære eller bakgrunnselementer, selv når det eksplisitt er bedt om, fortsatt en utfordring, noe som påvirker rikheten i lydbildet.
Hvorfor bruke Veo 3.1 på Pollo AI?
Pollo AI samler det beste innen AI-videogenerering – alt under ett tak. Tenk på det som ditt kreative kontrollsenter, der kraft møter fleksibilitet.
Du er ikke bundet til bare én modus som Veo 3.1. På Pollo AI kan du bytte mellom toppmoderne motorer som Sora 2, Veo 3, Kling 2.5 Turbo, Wan 2.5, Seedance, og andre – når som helst.
Det betyr at hvis du elsker realismen og historiefortellingsdybden til Veo 3.1 (som, forresten, er fantastisk), kan du bruke den akkurat når det passer – bytt deretter til en annen modell for hastighet, stil eller detaljer. Ingen begrensninger. Ingen kompromisser.
I tillegg har den alle de viktigste AI-videogenereringsfunksjonene:
- Vekk bilder til live med vår bilde-til-video AI.
- Gjør manus om til imponerende bilder med tekst-til-video AI.
- Lag fengslende klipp med AI avatar videogenerator.
- Lag beroligende klipp i dyre-, eller anime-stil med AI kortvideo-generator.
- Etterlign enhver bevegelse fra referansevideoen med Pollo Mimic.
Opplev Pollo AI i dag, og lås opp det fulle potensialet av AI-drevet videoproduksjon.



