Kling AI har nettopp sluppet sin nye Kling 2.0-modell , og med den følger forbedringer av bilde-til-video og tekst-til-video . Spesielt har Kling 2.0 bedre resultater med dynamiske, actionfylte spørsmål og bilder, noe som kan føre til mer imponerende videoer. La oss gå gjennom hva som er nytt med Kling 2.0 og hvordan du kan få mest mulig ut av tokens.
Komme i gang med Kling 2.0
La oss først snakke om hva du kan gjøre med den nye Kling 2.0-modellen.

For øyeblikket støtter KlingAI både tekst-til-video og bilde-til-video-alternativer med Kling 2.0. Du kan selvfølgelig bruke hvilket som helst bilde du vil, inkludert genererte bilder; Eksemplene mine bruker bilder laget med Flux . Du vil også legge merke til et "Multi-Elements"-alternativ , som lar deg bytte, legge til eller slette deler fra et videoklipp.

Alt du trenger å gjøre er å sette på pause til bestemte tider av videoen, legge til delene du vil redigere (i dette tilfellet bytter jeg), og Kling AI vil håndtere resten for deg.

Du vil også legge til poeng på forskjellige områder av utvalget ditt for å forbedre resultatene. Generelt, jo flere poeng du legger til, jo bedre vil AI være til å spore og maskere bevegelsene. Jeg la til ganske mange punkter i dette utvalget fordi menneskelig bevegelse er kompleks med mange bevegelige deler.
Men du er ikke helt ferdig ennå. Når du refererer til videoer med spesielt komplekse bevegelser (for eksempel danser), vil du ikke få de beste resultatene ved å legge til utvalg i bare ett bilde.

Hvis videoen din ikke har mye action, er du heldig. Du trenger ikke legge til så mange masker for å få et anstendig resultat. I dette eksemplet har jeg bare to masker i videotidslinjen, men jeg klarte likevel å få et ganske konsistent resultat siden bevegelsene er relativt enkle og kameraet ikke beveger seg så mye.

Kling 2.0 vs WAN 2.1
Jeg nevnte tidligere at Kling 2.0 lar deg lage videoer mye som WAN 2.1 VACE, som er en åpen kildekode-modell. Og selv om det er fint å ha en gratis AI-modell som kjører lokalt på datamaskinen din, er de fleste brukere begrenset av maskinvare. Og med mindre du har en top-of-the-line GPU ment for AI-modeller, som H100, vil du sannsynligvis ikke få de best mulige resultatene. Selv flaggskip forbruker-GPUer som 4090 og 5090 vil slite med å matche kvaliteten på videoer generert gjennom premiummodeller som Kling 2.0.
For å vise hvor forskjellig WAN 2.1 VACE og Kling 2.0 presterer, brukte jeg de samme bildene og de samme ledetekstene og la dem gjennom bilde-til-video. Resultatene var veldig, veldig merkbare.

Jeg brukte dette bildet av feer som lager en bursdagskake i begge modellene. Med WAN 2.1 var videoen ganske foreldet. Feene sto stort sett stille, og den eneste virkelige bevegelsen i videoen kom fra de magiske boblene som fløt over kaken. Ikke akkurat en dynamisk scene.
På den annen side var videoen til Kling 2.0 langt mer actionfylt. Den lille feen i midten løp rundt kaken, magiske effekter fløy ut av tryllestavene deres, og selve kaken vokste til en mye større størrelse. Det ser mye bedre ut enn resultatet til WAN 2.1. Faktisk overgår Kling 2.0s evne til å håndtere fartsfylte scener den forrige versjonen, Kling 1.6.
Kling 2.0 vs Kling 1.6
I dette neste eksempelet fikk jeg Kling 2.0 til å generere en kampscene mellom to kvinnelige karakterer. Den resulterende videoen hadde komplekse kampsportbevegelser og et hurtiggående kamera som sirklet de to mens de kjempet. Det var også mange partikkeleffekter som ga scenen den ekstra stilen.
På den annen side slet Kling 1.6 med å holde tritt med Kling 2.0s tempo. Selv med de samme karakterene og ledeteksten, var videoen til Kling 1.6 mye tregere, med knapt noen kamerabevegelser. Du kan virkelig se forbedringene i Kling 2.0 når du sammenligner den med Kling 1.6 ved å bruke actionscener og ledetekster.
Kling 2.0s Quirks
Kling 2.0 har imidlertid sine særheter. Når jeg prøver å være litt for spesifikk med spørsmålet mitt, takler ikke modellen det veldig bra. Denne videoen av en kvinne på vannscooter ser av seg fordi kvinnens hode er vendt bakover.
Hvis du ønsker å få naturlige resultater, må du holde instruksjonene enkle. Ved å bruke en forenklet ledetekst fikk jeg et mye finere resultat her. Dette ville også være et godt tidspunkt å nevne at Kling 2.0 håndterer vann ganske bra, med realistiske bølger og sprut.
Så lenge du holder forespørslene dine enkle, kan du også få karakterene i videoene til å gjøre interessante ting, for eksempel å endre fokus vekk fra kameraet.
Det første bildet av denne videoen får kvinnen til å se på kameraet, men mens det fortsetter, kjører hun av gårde og snur hodet mot veien. Dette ser langt mer realistisk ut enn WAN 2.1s versjon av den samme ledeteksten; mens åpen kildekode-modellen kunne håndtere refleksjoner og lys godt, er det ikke mye bevegelse fra kvinnen som kjører motorsykkelen.