Kling AI только что выпустила свою новую модель Kling 2.0 , а вместе с ней и улучшения преобразования изображений в видео и текста в видео . В частности, Kling 2.0 может похвастаться лучшими результатами с динамичными, насыщенными действиями подсказками и изображениями, которые могут привести к более потрясающим видео. Давайте рассмотрим, что нового в Kling 2.0 и как вы можете максимально эффективно использовать свои токены.
Начало работы с Kling 2.0
Сначала давайте поговорим о том, что можно сделать с новой моделью Kling 2.0 .

В настоящее время KlingAI поддерживает как текст в видео, так и изображение в видео с Kling 2.0. Конечно, вы можете использовать любое изображение, включая сгенерированные изображения; в моих примерах используются изображения, созданные с помощью Flux . Вы также заметите опцию «Multi-Elements» , которая позволяет вам менять местами, добавлять или удалять разделы из видеоклипа.

Все, что вам нужно сделать, это сделать паузу в определенных моментах видео, добавить разделы, которые вы хотите отредактировать (в данном случае я меняю местами), а Kling AI сделает все остальное за вас.

Вам также захочется добавить точки в различные области вашего выбора, чтобы улучшить результаты. Как правило, чем больше точек вы добавляете, тем лучше ИИ будет отслеживать и маскировать движения. Я добавил довольно много точек в этот выбор, потому что движение человека является сложным и имеет много движущихся частей.
Но вы еще не закончили. При ссылке на видео с особенно сложными движениями (например, танцами) вы не получите наилучших результатов, добавляя выборки только к одному кадру.

Если же в вашем видео не так много действий, вам повезло. Вам не нужно добавлять так много масок, чтобы получить приличный результат. В этом примере у меня всего две маски на временной шкале видео, но мне все равно удалось получить довольно последовательный результат, поскольку движения относительно просты, а камера не так уж много двигается.

Kling 2.0 против WAN 2.1
Я уже упоминал, что Kling 2.0 позволяет создавать видео во многом похоже на WAN 2.1 VACE, которая является моделью с открытым исходным кодом. И хотя приятно иметь бесплатную модель ИИ, работающую локально на вашем компьютере, большинство пользователей ограничены аппаратным обеспечением. И если у вас нет топового графического процессора, предназначенного для моделей ИИ, например H100, вы, вероятно, не получите наилучших возможных результатов. Даже флагманские потребительские графические процессоры, такие как 4090 и 5090, будут бороться за то, чтобы соответствовать качеству видео, созданных с помощью премиальных моделей, таких как Kling 2.0.
Чтобы продемонстрировать, насколько по-разному работают WAN 2.1 VACE и Kling 2.0 , я использовал те же изображения и те же подсказки и пропустил их через image-to-video. Результаты были очень, очень заметны.

Я использовал это изображение фей, делающих праздничный торт в обеих моделях. С WAN 2.1 видео было довольно пресным. Феи в основном стояли неподвижно, и единственное реальное движение в видео было от волшебных пузырей, которые парили над тортом. Не совсем динамичная сцена.
С другой стороны, видео Kling 2.0 было гораздо более насыщенным действием. Маленькая фея в середине бегала вокруг торта, из их палочек вылетали магические эффекты, а сам торт увеличивался в размерах. Выглядит намного лучше, чем результат WAN 2.1. Фактически, способность Kling 2.0 справляться с динамичными сценами превосходит его предыдущую версию, Kling 1.6.
Kling 2.0 против Kling 1.6
В следующем примере я заставил Kling 2.0 сгенерировать сцену боя между двумя женскими персонажами. Получившееся видео содержало сложные движения боевых искусств и быстро движущуюся камеру, которая кружила вокруг двух, пока они сражались. Также было много эффектов частиц, которые придавали сцене дополнительный колорит.
С другой стороны, Kling 1.6 с трудом поспевал за темпом Kling 2.0. Даже с теми же персонажами и подсказками видео Kling 1.6 было намного медленнее, с едва заметным движением камеры. Вы можете действительно увидеть улучшения в Kling 2.0 , сравнивая его с Kling 1.6, используя сцены действия и подсказки.
Причуды Kling 2.0
Хотя у Kling 2.0 есть свои странности. Когда я пытаюсь быть немного более конкретным с моей подсказкой, модель не очень хорошо справляется с этим. Это видео женщины на гидроцикле выглядит странно, потому что голова женщины повернута назад.
Если вы хотите получить результаты, выглядящие естественно, вам нужно сделать ваши подсказки простыми. Используя упрощенную подсказку, я получил здесь гораздо более приятный результат. Также сейчас самое время упомянуть, что Kling 2.0 довольно хорошо справляется с водой, с реалистичными волнами и брызгами.
Если ваши подсказки будут простыми, вы также сможете заставить персонажей в ваших видео делать интересные вещи, например, отводить взгляд от камеры.
В первом кадре этого видео женщина смотрит в камеру, но по мере продолжения она уезжает, поворачивая голову к дороге. Это выглядит гораздо реалистичнее, чем версия WAN 2.1 того же приглашения; хотя модель с открытым исходным кодом могла бы хорошо обрабатывать отражения и свет, движения женщины за рулем мотоцикла не так уж много.