Kling AI acaba de lanzar su nuevo modelo Kling 2.0 , que incluye mejoras en la conversión de imagen a video y texto a video . En particular, Kling 2.0 ofrece mejores resultados con indicaciones e imágenes dinámicas y llenas de acción, lo que permite crear videos más impactantes. Repasemos las novedades de Kling 2.0 y cómo puedes aprovechar al máximo tus tokens.
Introducción a Kling 2.0
Primero, hablemos de lo que puedes hacer con el nuevo modelo Kling 2.0 .

Actualmente, KlingAI admite las opciones de conversión de texto a vídeo e imagen a vídeo con Kling 2.0. Por supuesto, puedes usar cualquier imagen que desees, incluidas las generadas; mis ejemplos usan imágenes creadas con Flux . También encontrarás la opción "Multielementos" , que te permite intercambiar, añadir o eliminar secciones de un videoclip.

Todo lo que tienes que hacer es pausar en ciertos momentos del video, agregar las secciones que quieres editar (en este caso, estoy intercambiando) y Kling AI se encargará del resto por ti.

También querrás añadir puntos en diferentes regiones de tu selección para mejorar los resultados. Generalmente, cuantos más puntos añadas, mejor será la IA para rastrear y enmascarar los movimientos. Añadí bastantes puntos en esta selección porque el movimiento humano es complejo y tiene muchas partes móviles.
Pero aún no has terminado. Al hacer referencia a vídeos con movimientos especialmente complejos (como bailes), no obtendrás los mejores resultados añadiendo selecciones a un solo fotograma.

Si tu video no tiene mucha acción, estás de suerte. No necesitarás añadir tantas máscaras para obtener un buen resultado. En este ejemplo, solo tengo dos máscaras en la línea de tiempo del video, pero aun así logré un resultado bastante consistente, ya que los movimientos son relativamente simples y la cámara no se mueve mucho.

Kling 2.0 frente a WAN 2.1
Mencioné antes que Kling 2.0 permite crear videos de forma muy similar a WAN 2.1 VACE, un modelo de código abierto. Si bien es útil tener un modelo de IA gratuito ejecutándose localmente en el ordenador, la mayoría de los usuarios tienen limitaciones de hardware. Y a menos que tengas una GPU de gama alta diseñada para modelos de IA, como la H100, probablemente no obtendrás los mejores resultados posibles. Incluso las GPU de consumo más importantes, como la 4090 y la 5090, tendrán dificultades para igualar la calidad de los videos generados con modelos premium como Kling 2.0.
Para demostrar las diferencias en el rendimiento de WAN 2.1 VACE y Kling 2.0 , utilicé las mismas imágenes y los mismos mensajes, y los convertí en video. Los resultados fueron muy notables.

Usé esta imagen de hadas preparando un pastel de cumpleaños en ambos modelos. Con WAN 2.1, el video era bastante aburrido. Las hadas permanecían prácticamente inmóviles, y el único movimiento real provenía de las burbujas mágicas que flotaban sobre el pastel. No es una escena precisamente dinámica.
Por otro lado, el video de Kling 2.0 estaba mucho más cargado de acción. La pequeña hada del centro corría alrededor del pastel, los efectos mágicos salían volando de sus varitas y el pastel mismo se hizo mucho más grande. Se ve mucho mejor que el resultado de WAN 2.1. De hecho, la capacidad de Kling 2.0 para manejar escenas de ritmo rápido supera a la de su versión anterior, Kling 1.6.
Kling 2.0 frente a Kling 1.6
En el siguiente ejemplo, hice que Kling 2.0 generara una escena de lucha entre dos personajes femeninos. El vídeo resultante incluía complejos movimientos de artes marciales y una cámara rápida que las envolvía mientras luchaban. También se incluyeron numerosos efectos de partículas que le dieron a la escena un toque especial.
Por otro lado, Kling 1.6 tuvo dificultades para seguir el ritmo de Kling 2.0. Incluso con los mismos personajes e indicaciones, el vídeo de Kling 1.6 era mucho más lento, con apenas movimiento de cámara. Las mejoras en Kling 2.0 se aprecian claramente al compararlo con Kling 1.6 con las escenas de acción y las indicaciones.
Las peculiaridades de Kling 2.0
Sin embargo, Kling 2.0 tiene sus peculiaridades. Cuando intento ser demasiado específico con mi propuesta, el modelo no lo gestiona muy bien. Este video de una mujer en una moto acuática se ve raro porque tiene la cabeza hacia atrás.
Si quieres obtener resultados naturales, necesitas instrucciones sencillas. Con una instrucción simplificada, obtuve un resultado mucho más atractivo. Cabe mencionar que Kling 2.0 se comporta bastante bien con el agua, con olas y salpicaduras realistas.
Siempre que mantengas tus indicaciones simples, también puedes hacer que los personajes de tus videos hagan cosas interesantes, como cambiar su foco de la cámara.
En el primer fotograma de este vídeo, la mujer mira a la cámara, pero a medida que avanza, se aleja, girando la cabeza hacia la carretera. Esto parece mucho más realista que la versión de WAN 2.1 del mismo mensaje; si bien el modelo de código abierto podía manejar bien los reflejos y las luces, no se observa mucho movimiento en la mujer que conduce la motocicleta.