Kling 2.0 è stato lanciato, il che significa che il generatore video basato su intelligenza artificiale attualmente più apprezzato è stato ulteriormente migliorato. Oggi approfondiremo i suoi miglioramenti, le sue mancanze e cosa ci si può aspettare da questa nuova, avanzata versione.
Kling continua a tenere alta la pressione con la sua nuova era 2.0. Possiamo vedere il modello 1.6 al primo posto nella classifica dei migliori modelli di conversione da immagine a video, mentre il modello 1.5 di conversione da testo a video si è classificato secondo, solo dietro a Veo 2 di Google . Vediamo quindi come si comporta la versione 2.0 di Kling.
Un primo sguardo a Kling 2.0 - Fidelity & Coherence Boost
In termini di fedeltà generale e coerenza immediata, devo ammettere che il nuovo modello Kling 2.0 è un passo avanti, soprattutto per quanto riguarda la conversione immagine-video. Indipendentemente dall'immagine in ingresso, tutto rimane coerente, con una solida interpretazione dei personaggi.
Valutazione del Text-to-Video di Kling 2.0
Cominciamo con questo esempio di conversione da testo a video, partendo da un suggerimento su un metalupo ispirato a Game of Thrones, in gran parte ispirato alla notizia vera di Colossal Bioscience che ha riportato in vita tre metalupi dall'estinzione.
Il prompt video risulta piuttosto solido, soprattutto per la conversione da testo a video. Sebbene ci siano alcuni problemi con la prospettiva e le dimensioni del meta-lupo rispetto al mago oscuro Jon Snow, anche questo è in linea con il prompt iniziale. Considerando tutto ciò, si tratta di un output testo-video davvero impressionante.
Valutazione della conversione da immagine a video di Kling 2.0
Esempio 1
Nel nostro primo esempio, abbiamo 10 secondi di camminata continua. Ciò che mi ha colpito è che, nonostante un po' di decoerenza, il focus dell'inquadratura sono i piedi che camminano e mostra un ciclo di camminata molto solido. Il passo è minimamente incerto e i piedi sembrano reagire a cose come le pozzanghere nel fango.
A volte, potresti imbatterti in astronavi che volano all'indietro, ma non ho mai visto persone che camminano all'indietro. Tuttavia, se ti capita, una soluzione rapida è semplicemente farla girare all'indietro.
Esempio 2
Un altro esempio di generazione senza soluzione di continuità è rappresentato da questo scatto ispirato a Vogue anni '60. Sebbene la modella sia al centro dell'attenzione, pur essendo troppo cool per guardare in macchina fotografica, rimane seduta passivamente. Ma sono gli altri personaggi della scena ad aver catturato la mia attenzione. Gli uomini che camminano nella scena non ne fanno parte, ma contestualmente sembrano appartenere a quel contesto.
Funzionalità aggiornate di Kling 2.0
Movimento veloce coerente
Uno dei maggiori punti di forza di Kling 2.0 è la sua eccezionale capacità di riprodurre movimenti coerenti e veloci.
Se guardiamo il combattimento di kung-fu tramite la conversione da testo a video, è completamente perfetto? No, ma è piuttosto impressionante, soprattutto considerando la rotazione della telecamera, che contrasta parte della decoerenza.
Il fatto che entrambi i ragazzi restino a terra e nessuno dei due voli via, e che lo sfondo non si trasformi in esplosioni, dimostra un risultato impressionante.
Un altro output dello stesso prompt era un po' più goffo in termini di movimenti dei personaggi, ma nel complesso non c'era molta decoerenza, con i personaggi che si fondevano l'uno nell'altro o con alcuni degli altri aspetti che spesso ci aspettiamo. Con un po' di abilità nel montaggio, probabilmente si potrebbe ottenere una buona porzione della clip di 10 secondi.
Specifiche di generazione e controllo della telecamera
Con Kling 2.0, possiamo generare contenuti a intervalli di cinque o dieci secondi e utilizzare i rapporti d'aspetto 16:9, 9:16 e 1:1. Inoltre, se si sceglie il piano Premier, è possibile generare più output contemporaneamente. Attualmente, gli output video sono a 720p, anche se mi è stato detto che a breve arriverà anche il 1080p.
Callout di movimento dell'obiettivo e della telecamera
Al momento, non ci sono opzioni di controllo della telecamera all'interno del prompt, ma devo dire che il modello è molto reattivo, non solo ai comandi di movimento della telecamera, ma anche alla scelta dell'obiettivo. Ad esempio, qui richiediamo un obiettivo da 85 mm, con una ridotta profondità di campo e un movimento orbitale.
In particolare, noto che il tavolo è leggermente traballante, con il palo che non si collega esattamente dove dovrebbe, ma è interessante notare che è rimasto costantemente traballante per tutto il tempo. Nel complesso, il prompt ha seguito le istruzioni sul movimento della telecamera e sul tipo di obiettivo.
Quindi, sostituendo l'obiettivo da 85 mm con un 20 mm, otteniamo un'inquadratura molto più ampia con lo stesso movimento, con grande attenzione ai dettagli nella descrizione dell'obiettivo grandangolare. Anche se è inevitabile che qualcuno faccia notare che non si tratta esattamente di un obiettivo da 20 mm o 85 mm, l'obiettivo qui è quello di ottenere un'idea piuttosto precisa di ciò che si sta cercando.
Lancio di nuovi strumenti: la funzionalità Multi-Elementi
Un aspetto che non voglio trascurare è la nuova funzionalità multi-elemento che verrà lanciata prossimamente. Non ho avuto molto tempo per provarla, ma penso sia importante darvi un'idea di cosa fa, perché ha il potenziale per diventare uno strumento piuttosto potente.
Aprendo un video, puoi cliccare sull'opzione "Aggiungi selezione" e il tuo personaggio verrà immediatamente mascherato.

Quando sei soddisfatto, puoi "Confermare" e poi caricare un'immagine di un altro personaggio.

Il prompt si popola con "Scambia X da (miniatura della tua immagine) con X da (miniatura del tuo video). Dovrai inserire i valori "X", in questo esempio, ragazza e ragazza, e poi premere "Genera".

Lo strumento sostituisce un carattere con un altro e, sebbene l'input in questo esempio non sia perfetto, fornisce una buona indicazione di cosa fa la funzionalità multi-elemento.

Con un po' di sperimentazione e forse opzioni più allineate dal punto di vista tonale, potresti ottenere risultati spettacolari, soprattutto quando arriverà il modello Kling 2.0 .
Verdetto finale: Kling AI è ancora il re?
In termini di conversione da testo a video, ritengo che sia più o meno alla pari con Veo 2, con Veo che lo supera, ma solo di poco.
Ma ancora una volta, bisogna considerare il costo di gestione più elevato della Veo 2. Detto questo, mi è stato detto che sono in arrivo altri modelli 2.0, quindi vedremo se Kilng rimarrà il re o se un altro modello prenderà il suo posto.

Nota: l'articolo è stato scritto basandosi sul seguente video YouTube .