Kling 2.0 został uruchomiony, co oznacza, że obecnie najlepiej oceniany generator wideo AI stał się jeszcze lepszy. Zanurzymy się dzisiaj, aby zobaczyć, jak bardzo się poprawił, czego brakuje i czego można oczekiwać od tej nowej, lepszej wersji.
Kling trzyma temperaturę dzięki swojej nowej erze 2.0. Widzimy, że model 1.6 utrzymuje swoją pozycję lidera w rankingu najlepszego modelu image-to-video, podczas gdy model 1.5 text-to-video znalazł się na drugim miejscu, zaraz za Veo 2 firmy Google . Zobaczmy więc, jak radzi sobie wersja Kling 2.0.
Pierwsze spojrzenie na Kling 2.0 – Wierność i Spójność Wzmocnione
Jeśli chodzi o ogólną wierność i szybką spójność, muszę przyznać, że nowy model Kling 2.0 jest o krok do przodu, szczególnie po stronie obrazu do wideo. Bez względu na obraz wejściowy, wszystko pozostaje spójne, z solidnym ogólnym aktorstwem postaci.
Ocena funkcji Text-to-Video w Kling 2.0
Zacznijmy od przykładu zamiany tekstu na wideo, zaczynając od inspirowanego Grą o tron tematu dotyczącego wilków, który w dużej mierze opiera się na prawdziwej historii o tym, jak firma Colossal Bioscience przywróciła do życia trzy wilki przed wyginięciem.
Monit wideo wygląda całkiem solidnie, szczególnie w przypadku tekstu na wideo. Chociaż jest kilka problemów z perspektywą i skalą wilkora w porównaniu do mrocznego czarodzieja, Jona Snowa, jest to również zgodne z początkowym monitem. Mając to na uwadze, jest to naprawdę bardzo imponujący wynik tekstu na wideo.
Ocena funkcji Image-to-Video w Kling 2.0
Przykład 1
Patrząc na nasz pierwszy przykład, mamy 10 sekund solidnego chodzenia. Co mnie zaimponowało, to fakt, że pomimo odrobiny dekoherencji, uwaga ujęcia skupia się na stopach chodzących i pokazuje bardzo solidny cykl chodzenia. Jest minimalny krok zacinania się, a stopy wydają się reagować na takie rzeczy jak kałuże w błocie.
Czasami możesz natknąć się na latające do tyłu statki kosmiczne, ale nie spotkałem się z ludźmi chodzącymi do tyłu. Chociaż jeśli natkniesz się na to, szybkim rozwiązaniem jest po prostu uruchomienie go w odwrotnej kolejności.
Przykład 2
Innym przykładem płynnego generowania jest ujęcie inspirowane latami 60. Vogue. Podczas gdy modelka jest w centrum uwagi, mimo że jest zbyt fajna, by faktycznie spojrzeć w kamerę, siedzi biernie. Ale to inne postacie w scenie przykuły moją uwagę. Mężczyźni idący w scenie nie są jej częścią, ale kontekstowo wyglądają, jakby tam należeli.
Ulepszone funkcje Kling 2.0
Spójny, szybki ruch
Największą zaletą Kling 2.0 jest wyjątkowa spójność i szybkość ruchu.
Jeśli spojrzymy na walkę Kung-fu przez tekst-na-wideo. Czy jest ona całkowicie idealna? Nie, ale jest całkiem imponująca, zwłaszcza biorąc pod uwagę obracającą się kamerę, która niweluje część dekoherencji.
Fakt, że obaj panowie pozostają na ziemi i żaden z nich nie odlatuje, a tło nie zamienia się w eksplozje, świadczy o imponującym efekcie.
Inny wynik z tego samego monitu był nieco bardziej niezręczny pod względem ruchów postaci, ale ogólnie rzecz biorąc, nie było wiele dekoherencji, postacie łączyły się ze sobą lub niektóre inne aspekty, których często się spodziewamy. Gdybyś użył pewnych umiejętności edycyjnych, prawdopodobnie mógłbyś uzyskać solidną porcję 10-sekundowego klipu.
Specyfikacje generacji i sterowanie kamerą
Używając Kling 2.0, możemy generować w pięcio- lub 10-sekundowych odstępach i używać współczynników proporcji 16:9, 9:16 i 1:1. Ponadto, jeśli wybierzesz Premier Plan, możesz generować więcej niż jedno wyjście na raz. Obecnie wyjścia wideo są w rozdzielczości 720p, chociaż powiedziano mi, że 1080p jest w drodze.
Wyróżnienia ruchu obiektywu i kamery
Obecnie nie ma opcji sterowania kamerą w ramach podpowiedzi, ale muszę powiedzieć, że model jest bardzo responsywny, nie tylko na wywołania ruchu kamery, ale nawet na wybór obiektywu. Na przykład tutaj wzywamy obiektyw 85 mm, z płytką głębią ostrości i ruchem typu orbitalnego.
Co ciekawe, widzę, że stół jest lekko krzywy, ponieważ drążek nie łączy się dokładnie tam, gdzie powinien, ale ciekawe jest to, że cały czas pozostaje krzywy. Ogólnie rzecz biorąc, monit był zgodny z instrukcjami dotyczącymi ruchu kamery i typu obiektywu.
Następnie, zamieniając obiektyw 85 mm na 20 mm, otrzymujemy znacznie szersze ujęcie przy użyciu tego samego ruchu, z dużą dbałością o szczegóły poświęconą opisowi obiektywu szerokokątnego. Chociaż nieuniknione jest, że ktoś zauważy, że nie jest to dokładnie obiektyw 20 mm lub 85 mm, tutaj chodzi o to, aby uzyskać całkiem dobry przybliżony obraz tego, czego szukasz.
Nowe narzędzia wprowadzane na rynek – funkcja Multi-Elements
Jednym aspektem, którego nie chcę pominąć, jest nowa funkcja multi-elements, która również jest uruchamiana. Nie miałem zbyt wiele czasu, aby się nią pobawić, ale myślę, że ważne jest, aby dać ci pojęcie o tym, co ona robi, ponieważ ma potencjał, aby stać się całkiem potężnym narzędziem.
Po otwarciu filmu możesz kliknąć opcję „Dodaj zaznaczenie”, a Twoja postać zostanie natychmiast zamaskowana.

Gdy będziesz zadowolony, możesz kliknąć „Potwierdź”, a następnie przesłać obraz innej postaci.

Monit wypełnia się komunikatem „Zamień X z (miniaturka obrazu) na X z (miniaturka filmu). Musisz wpisać wartości „X”, w tym przykładzie dziewczyna i dziewczyna, a następnie kliknąć „Generuj”.

Narzędzie zamienia jeden znak na inny i chociaż dane wejściowe w tym przykładzie nie są idealne, dają dobry obraz tego, co robi funkcja obsługi wielu elementów.

Przy odrobinie eksperymentów i być może dzięki lepiej dopasowanym opcjom tonalnym można uzyskać naprawdę spektakularne rezultaty, zwłaszcza po pojawieniu się modelu Kling 2.0 .
Ostateczny werdykt: Czy Kling AI nadal króluje?
Jeśli chodzi o funkcję zamiany tekstu na wideo, uważam, że jest on mniej więcej na tym samym poziomie co Veo 2, przy czym Veo 2 nieznacznie go wyprzedza.
Ale znowu, trzeba wziąć pod uwagę wyższe koszty eksploatacji Veo 2. Mając to na uwadze, powiedziano mi, że w drodze jest kilka innych modeli 2.0, więc zobaczymy, czy Kilng pozostanie królem, czy też inny model zajmie jego miejsce.

Uwaga: Artykuł powstał w oparciu o poniższy film z YouTube .