Kling 2.0 er lanceret, hvilket betyder, at den i øjeblikket bedst bedømte AI-videogenerator er blevet endnu bedre. Vi vil dykke ned i dag for at se, hvor meget den er forbedret, hvad der mangler, og hvad du kan forvente af denne nye, overlegne version.
Kling holder på varmen med sin nye 2.0-æra. Vi kan se 1.6-modellen holde sin førsteplads på ranglisten for bedste billede-til-video-model, mens 1.5 tekst-til-video-modellen kom på andenpladsen, kun efter Googles Veo 2 . Så lad os se, hvordan Klings 2.0-version klarer sig.
Et første kig på Kling 2.0 - Fidelity & Coherence Boost
Med hensyn til overordnet troskab og hurtig sammenhæng må jeg indrømme, at den nye Kling 2.0 model er et spring foran, især på billed-til-video-siden. Uanset dit inputbillede, forbliver tingene konsekvente med solid overordnet karakterskuespil.
Evaluering af Kling 2.0's tekst-til-video
Lad os begynde med dette tekst-til-video-eksempel, der starter med en Game of Thrones-inspireret direwolf-prompt, i vid udstrækning inspireret af den virkelige nyhedshistorie om Colossal Bioscience, der bringer tre direwolves tilbage fra udryddelse.
Videoprompten ser ret solid ud, især for tekst-til-video. Selvom der er et par problemer med perspektivet og omfanget af direwolf sammenlignet med den mørke troldmand, Jon Snow, er dette også i overensstemmelse med den indledende prompt. Med det i tankerne er dette virkelig en meget imponerende tekst-til-video-output.
Evaluering af Kling 2.0's billede-til-video
Eksempel 1
Ser vi på vores første eksempel, har vi 10 sekunders solid gang. Det, der imponerede mig, er, at på trods af en lille smule dekohærens, er fokus for skuddet fødderne, der går og viser en meget solid gangcyklus. Der er minimalt stammetrin, og fødderne ser ud til at reagere på ting som vandpytter i mudderet.
Nogle gange kan du løbe ind i baglæns flyvende rumfartøjer, men baglæns gående mennesker er ikke noget, jeg er stødt på. Selvom du løber ind i dette, er en hurtig løsning bare at køre det omvendt.
Eksempel 2
Et andet eksempel på problemfri generation kommer i form af dette 60'er Vogue-inspirerede skud. Mens modellen er i fokus, på trods af at hun er for sej til rent faktisk at se ind i kameraet, sidder hun passivt. Men det er de andre karakterer i scenen, der fangede min opmærksomhed. Mændene, der går på scenen, er ikke rigtig en del af det, men kontekstmæssigt ser de ud, som om de hører hjemme der.
Opgraderede funktioner i Kling 2.0
Sammenhængende hurtig bevægelse
En stor styrke ved Kling 2.0 er, at den er enestående ved sammenhængende, hurtig bevægelse.
Hvis vi ser på Kung-fu-kampen via tekst-til-video. Er det helt perfekt? Nej, men det er ret imponerende, især når man tager det roterende kamera i betragtning, som modvirker noget af dekohærensen.
Det faktum, at begge fyre bliver på jorden, og ingen af dem flyver væk, og baggrunden ikke bliver til eksplosioner, viser et imponerende output.
Et andet output fra den samme prompt var lidt mere akavet med hensyn til karakterernes bevægelser, men overordnet set var der ikke megen dekohærens, hvor karaktererne smeltede sammen eller nogle af de andre aspekter, vi ofte forventer. Hvis du skulle bruge nogle kyndige redigeringsevner, kunne du sikkert få en solid del af klippet på 10 sekunder.
Generationsspecifikationer og kamerakontrol
Ved at bruge Kling 2.0 kan vi generere i fem eller 10 sekunders intervaller og bruge billedformater på 16:9, 9:16 og 1:1. Derudover, hvis du vælger Premier-planen, kan du generere mere end ét output ad gangen. I øjeblikket er videoudgangene på 720p, selvom jeg har fået at vide, at 1080p er på vej.
Billedforklaringer til linse og kamerabevægelse
I øjeblikket er der ingen kamerastyringsmuligheder inden for prompten, men jeg må sige, at modellen er meget lydhør, ikke kun over for kamerabevægelser, men endda objektivvalg. For eksempel, her opfordrer vi til en 85 mm linse, med en lav dybdeskarphed og en kredsende bevægelse.
Især kan jeg se, at bordet er lidt skævt, og stangen hænger ikke helt sammen, hvor den skal, men det er interessant at bemærke, at det har forblevet konstant skævt hele vejen igennem. Generelt fulgte prompten instruktionerne om kamerabevægelse og linsetype.
Hvis vi så skifter 85 mm-objektivet til et 20 mm-objektiv, får vi et meget bredere billede ved hjælp af den samme bevægelse, med stor opmærksomhed på detaljer, der lægges ud på forklaringen af vidvinkelobjektivet. Selvom det er uundgåeligt, at nogen vil påpege, at det ikke netop er et 20 mm eller 85 mm objektiv, er fokus her, at du får en ret god boldbane af det, du leder efter.
Nye værktøjer lanceres - Multi-Elements-funktionen
Et aspekt, jeg ikke vil overse, er den nye multi-elements funktion, der også lanceres. Jeg har ikke haft meget tid til at lege med det, men jeg synes, det er vigtigt at give dig en idé om, hvad det gør, fordi det har potentialet til at blive et ret kraftfuldt værktøj.
Når du åbner en video, kan du trykke på "Tilføj valg", og det vil øjeblikkeligt maskere din karakter.

Når du er glad, kan du "Bekræft" og derefter uploade et billede af en anden karakter.

Prompten udfyldes med "Skift X fra (miniaturebillede af dit billede) med X fra (miniaturebillede af din video). Du skal udfylde "X"-værdierne, i dette eksempel pige og pige, og derefter trykke på "Generer".

Værktøjet bytter et tegn ud med et andet, og selvom inputtet i dette eksempel ikke er perfekt, giver det en god indikation af, hvad multi-elements-funktionen gør.

Med nogle eksperimenter og måske mere tonalt tilpassede muligheder kan du ende med nogle spektakulære resultater, især når Kling 2.0 modellen ankommer.
Endelig dom: Er Kling AI stadig kongen?
Med hensyn til tekst-til-video, føler jeg, at den mere eller mindre ligger på lige fod med Veo 2, med Veo 2 foran, men kun lidt.
Men igen, du skal medregne de højere driftsomkostninger for Veo 2. Når det er sagt, har jeg fået at vide, at flere andre 2.0-modeller er på vej, så vi må se, om Kilng bliver konge, eller om en anden model fejer ind for at tage dens plads.

Bemærk: Artiklen er skrevet på baggrund af følgende YouTube video.