Kling AI vient de lancer son nouveau modèle Kling 2.0 , qui apporte des améliorations aux conversions d'images et de textes . Kling 2.0 offre notamment de meilleurs résultats grâce à des invites et des images dynamiques et riches en action, permettant de créer des vidéos encore plus époustouflantes. Découvrons les nouveautés de Kling 2.0 et comment optimiser l'utilisation de vos jetons.
Premiers pas avec Kling 2.0
Tout d’abord, parlons de ce que vous pouvez faire avec le nouveau modèle Kling 2.0 .

Actuellement, KlingAI prend en charge les options de conversion de texte en vidéo et d'image en vidéo avec Kling 2.0. Vous pouvez bien sûr utiliser n'importe quelle image, y compris des images générées ; mes exemples utilisent des images créées avec Flux . Vous remarquerez également une option « Multi-éléments » , qui vous permet d'échanger, d'ajouter ou de supprimer des sections d'un clip vidéo.

Il vous suffit de faire une pause à certains moments de la vidéo, d'ajouter les sections que vous souhaitez éditer (dans ce cas, j'échange), et Kling AI s'occupera du reste pour vous.

Vous souhaiterez également ajouter des points sur différentes zones de votre sélection pour améliorer les résultats. En général, plus vous ajoutez de points, plus l'IA sera efficace pour suivre et masquer les mouvements. J'ai ajouté de nombreux points dans cette sélection, car le mouvement humain est complexe et comporte de nombreux éléments mobiles.
Mais ce n'est pas tout. Pour référencer des vidéos comportant des mouvements particulièrement complexes (comme des danses), vous n'obtiendrez pas les meilleurs résultats en ajoutant des sélections à une seule image.

Si votre vidéo ne comporte pas beaucoup d'action, vous avez de la chance. Vous n'aurez pas besoin d'ajouter beaucoup de masques pour obtenir un résultat satisfaisant. Dans cet exemple, je n'ai que deux masques dans la timeline, mais j'ai quand même réussi à obtenir un résultat assez cohérent, car les mouvements sont relativement simples et la caméra ne bouge pas beaucoup.

Kling 2.0 contre WAN 2.1
J'ai mentionné précédemment que Kling 2.0 permet de créer des vidéos de manière très similaire à WAN 2.1 VACE, un modèle open source. Bien qu'il soit appréciable de disposer d'un modèle d'IA gratuit exécuté localement sur son ordinateur, la plupart des utilisateurs sont limités par le matériel. À moins de disposer d'un GPU haut de gamme conçu pour les modèles d'IA, comme le H100, vous n'obtiendrez probablement pas les meilleurs résultats possibles. Même les GPU grand public phares comme les 4090 et 5090 peineront à égaler la qualité des vidéos générées par des modèles haut de gamme comme Kling 2.0.
Pour illustrer les différences de performances entre WAN 2.1 VACE et Kling 2.0 , j'ai utilisé les mêmes images et les mêmes invites et les ai converties en vidéo. Les résultats ont été très remarquables.

J'ai utilisé cette image de fées préparant un gâteau d'anniversaire dans les deux modèles. Avec le WAN 2.1, la vidéo était assez fade. Les fées restaient la plupart du temps immobiles, et le seul véritable mouvement provenait des bulles magiques qui flottaient au-dessus du gâteau. Pas vraiment une scène dynamique.
En revanche, la vidéo de Kling 2.0 était bien plus riche en action. La petite fée au milieu courait autour du gâteau, des effets magiques jaillissaient de ses baguettes, et le gâteau lui-même prenait une taille bien plus grande. Le rendu était bien meilleur que celui de WAN 2.1. En fait, la capacité de Kling 2.0 à gérer les scènes rapides surpasse celle de sa version précédente, Kling 1.6.
Kling 2.0 contre Kling 1.6
Dans l'exemple suivant, j'ai fait générer par Kling 2.0 une scène de combat entre deux personnages féminins. La vidéo obtenue comportait des mouvements d'arts martiaux complexes et une caméra rapide qui encerclait les deux personnages pendant leur combat. De nombreux effets de particules ont également donné à la scène une touche supplémentaire.
En revanche, Kling 1.6 peinait à suivre le rythme de Kling 2.0. Même avec les mêmes personnages et le même message, la vidéo de Kling 1.6 était beaucoup plus lente, avec peu de mouvements de caméra. Les améliorations de Kling 2.0 sont clairement visibles lorsqu'on les compare à Kling 1.6 en utilisant des scènes d'action et des messages.
Les bizarreries de Kling 2.0
Kling 2.0 a cependant ses défauts. Quand j'essaie d'être un peu trop précis dans mes instructions, le modèle ne s'en sort pas très bien. Cette vidéo d'une femme sur un jet-ski paraît étrange car elle a la tête tournée vers l'arrière.
Pour obtenir des résultats naturels, privilégiez des instructions simples. En utilisant une instruction simplifiée, j'ai obtenu un résultat bien plus esthétique. C'est également l'occasion de souligner que Kling 2.0 gère plutôt bien l'eau, avec des vagues et des éclaboussures réalistes.
Tant que vos invites restent simples, vous pouvez également demander aux personnages de vos vidéos de faire des choses intéressantes, comme détourner leur attention de la caméra.
Dans la première image de cette vidéo, la femme regarde la caméra, mais la vidéo continue et elle démarre en tournant la tête vers la route. Cela semble bien plus réaliste que la version WAN 2.1 du même sujet ; si le modèle open source gère bien les reflets et les lumières, la femme au volant de la moto ne bouge pas beaucoup.