Kling AI właśnie wydał nowy model Kling 2.0 , a wraz z nim ulepszenia w zakresie image-to-video i text-to-video . W szczególności Kling 2.0 oferuje lepsze wyniki dzięki dynamicznym, pełnym akcji podpowiedziom i obrazom, które mogą prowadzić do bardziej oszałamiających filmów. Przeanalizujmy, co nowego w Kling 2.0 i jak możesz najlepiej wykorzystać swoje tokeny.
Pierwsze kroki z Kling 2.0
Najpierw omówmy, co można zrobić dzięki nowemu modelowi Kling 2.0 .

Obecnie KlingAI obsługuje zarówno opcje text-to-video, jak i image-to-video z Kling 2.0. Możesz oczywiście użyć dowolnego obrazu, w tym wygenerowanych obrazów; moje przykłady wykorzystują obrazy wykonane za pomocą Flux . Zauważysz również opcję „Multi-Elements” , która umożliwia zamianę, dodawanie lub usuwanie sekcji z klipu wideo.

Wystarczy, że zatrzymasz odtwarzanie filmu w określonych momentach, dodasz fragmenty, które chcesz edytować (w tym przypadku zamieniam miejscami), a Kling AI zajmie się resztą.

Będziesz także chciał dodać punkty w różnych regionach swojego wyboru, aby poprawić wyniki. Generalnie, im więcej punktów dodasz, tym lepiej AI będzie śledzić i maskować ruchy. Dodałem całkiem sporo punktów w tym wyborze, ponieważ ruch człowieka jest złożony z wielu ruchomych części.
Ale jeszcze nie skończyłeś. Kiedy odwołujesz się do filmów ze szczególnie złożonymi ruchami (takimi jak tańce), nie uzyskasz najlepszych rezultatów, dodając selekcje tylko do jednej klatki.

Jeśli jednak Twój film nie ma zbyt wiele akcji, masz szczęście. Nie musisz dodawać tak wielu masek, aby uzyskać przyzwoity wynik. W tym przykładzie mam tylko dwie maski na osi czasu filmu, ale i tak udało mi się uzyskać dość spójny wynik, ponieważ ruchy są stosunkowo proste, a kamera nie porusza się aż tak bardzo.

Kling 2.0 kontra WAN 2.1
Wspomniałem wcześniej, że Kling 2.0 pozwala tworzyć filmy bardzo podobnie do WAN 2.1 VACE, który jest modelem open-source. I chociaż miło jest mieć darmowy model AI działający lokalnie na komputerze, większość użytkowników jest ograniczona sprzętem. I jeśli nie masz najwyższej klasy procesora graficznego przeznaczonego do modeli AI, takiego jak H100, prawdopodobnie nie uzyskasz najlepszych możliwych wyników. Nawet flagowe procesory graficzne dla konsumentów, takie jak 4090 i 5090, będą miały problem z dorównaniem jakości filmów generowanych przez modele premium, takie jak Kling 2.0.
Aby pokazać, jak inaczej działają WAN 2.1 VACE i Kling 2.0 , użyłem tych samych obrazów i tych samych podpowiedzi i przepuściłem je przez image-to-video. Rezultaty były bardzo, bardzo zauważalne.

W obu modelach wykorzystałem ten obraz wróżek robiących tort urodzinowy. Przy WAN 2.1 wideo było dość nudne. Wróżki w większości stały nieruchomo, a jedyny prawdziwy ruch w wideo pochodził z magicznych baniek unoszących się nad tortem. Nie była to dokładnie dynamiczna scena.
Z drugiej strony, wideo Kling 2.0 było o wiele bardziej wypełnione akcją. Mała wróżka w środku biegała wokół tortu, magiczne efekty wylatywały z ich różdżek, a sam tort urósł do znacznie większych rozmiarów. Wygląda to o wiele lepiej niż wynik WAN 2.1. W rzeczywistości zdolność Kling 2.0 do radzenia sobie z szybkimi scenami przewyższa jego poprzednią wersję, Kling 1.6.
Kling 2.0 kontra Kling 1.6
W tym kolejnym przykładzie Kling 2.0 wygenerował scenę walki między dwiema postaciami kobiecymi. Powstały film zawierał złożone ruchy sztuk walki i szybko poruszającą się kamerę, która krążyła wokół tych dwóch postaci podczas walki. Było też wiele efektów cząsteczkowych, które nadały scenie dodatkowego polotu.
Z drugiej strony Kling 1.6 miał problemy z nadążaniem za tempem Kling 2.0. Nawet z tymi samymi postaciami i podpowiedziami, wideo Kling 1.6 było znacznie wolniejsze, z ledwie widocznym ruchem kamery. Naprawdę widać poprawę w Kling 2.0 , porównując go z Kling 1.6, używając scen akcji i podpowiedzi.
Osobliwości Kling 2.0
Kling 2.0 ma jednak swoje dziwactwa. Kiedy próbuję być trochę zbyt konkretny w swoim pytaniu, model nie radzi sobie z tym zbyt dobrze. Ten film z kobietą na skuterze wodnym wygląda dziwnie, ponieważ głowa kobiety jest odwrócona do tyłu.
Jeśli chcesz uzyskać naturalnie wyglądające rezultaty, musisz zachować prostotę swoich poleceń. Używając uproszczonego polecenia, uzyskałem tutaj o wiele ładniejszy rezultat. To również dobry moment, aby wspomnieć, że Kling 2.0 radzi sobie całkiem dobrze z wodą, z realistycznymi falami i rozpryskami.
Jeśli tylko Twoje polecenia będą proste, możesz sprawić, że postacie w Twoich filmach będą wykonywać ciekawe rzeczy, na przykład odwracać uwagę od kamery.
Pierwsza klatka tego filmu pokazuje kobietę patrzącą w kamerę, ale w miarę jak film się kończy, odjeżdża, odwracając głowę w stronę drogi. Wygląda to o wiele bardziej realistycznie niż wersja tego samego komunikatu w WAN 2.1; podczas gdy model open-source dobrze radzi sobie z odbiciami i światłami, kobieta prowadząca motocykl nie porusza się zbyt wiele.