Kling 2.0 – Ist es immer noch der beste KI-Generator oder wurde er vom Thron gestoßen?

Kling 2.0 ist da – der derzeit am besten bewertete KI-Videogenerator ist noch besser geworden. Wir schauen uns heute genauer an, wie viel er verbessert wurde, was fehlt und was Sie von der neuen, besseren Version erwarten können.

Kling hält mit seiner neuen Version 2.0 die Messlatte hoch. Das Modell 1.6 behauptet seinen Spitzenplatz in der Rangliste der besten Bild-zu-Video-Modelle, während das Text-zu-Video-Modell 1.5 nur hinter Googles Veo 2 auf dem zweiten Platz landet. Mal sehen, wie sich Klings Version 2.0 schlägt.

Ein erster Blick auf Kling 2.0 – Verbesserung der Wiedergabetreue und Kohärenz
Bewertung der Text-to-Video-Funktion von Kling 2.0
Evaluierung der Bild-zu-Video-Funktion von Kling 2.0
- Beispiel 1
- Beispiel 2
Verbesserte Funktionen von Kling 2.0
Einführung neuer Tools – Die Multi-Elements-Funktion
Endgültiges Urteil: Ist Kling AI immer noch der König?

Ein erster Blick auf Kling 2.0 – Verbesserung der Wiedergabetreue und Kohärenz

In puncto Wiedergabetreue und prompter Kohärenz muss ich zugeben, dass das neue Kling 2.0 Modell, insbesondere bei der Bild-zu-Video-Konvertierung, einen großen Schritt voraus ist. Unabhängig vom Eingangsbild bleibt die Darstellung konsistent, und die Charaktere liefern insgesamt eine solide Darstellung.

Bewertung der Text-to-Video-Funktion von Kling 2.0

Beginnen wir mit diesem Text-zu-Video-Beispiel und starten mit einer von Game of Thrones inspirierten Schattenwolf-Eingabeaufforderung, die größtenteils von der realen Nachrichtengeschichte inspiriert ist, in der Colossal Bioscience drei Schattenwölfe vor dem Aussterben bewahrt hat.

Die Videoanweisung wirkt recht solide, insbesondere bei der Text-zu-Video-Umwandlung. Zwar gibt es einige Probleme mit der Perspektive und der Größe des Schattenwolfs im Vergleich zum dunklen Zauberer Jon Snow, aber sie entspricht auch der ursprünglichen Anweisung. In diesem Sinne ist dies wirklich eine sehr beeindruckende Text-zu-Video-Ausgabe.

Evaluierung der Bild-zu-Video-Funktion von Kling 2.0

Beispiel 1

Betrachten wir unser erstes Beispiel, sehen wir 10 Sekunden durchgehendes Gehen. Was mich beeindruckt hat, ist, dass trotz leichter Dekohärenz der Fokus der Aufnahme auf den laufenden Füßen liegt und ein sehr solider Gehzyklus zu sehen ist. Es gibt nur minimale Stottern, und die Füße scheinen auf Dinge wie Pfützen im Schlamm zu reagieren.

Gelegentlich trifft man auf rückwärts fliegende Raumschiffe, aber rückwärts gehende Menschen habe ich noch nie erlebt. Sollte dies dennoch passieren, lässt sich das Problem schnell lösen, indem man es einfach rückwärts laufen lässt.

Beispiel 2

Ein weiteres Beispiel für nahtlose Generierung ist diese von der Vogue der 60er inspirierte Aufnahme. Das Model steht im Mittelpunkt, obwohl sie zu cool ist, um tatsächlich in die Kamera zu schauen, und sitzt passiv da. Doch es sind die anderen Figuren in der Szene, die meine Aufmerksamkeit erregt haben. Die Männer, die in der Szene herumlaufen, gehören zwar nicht wirklich dazu, wirken aber kontextuell so, als gehörten sie dorthin.

Verbesserte Funktionen von Kling 2.0

Kohärente schnelle Bewegung

Eine große Stärke von Kling 2.0 ist seine außergewöhnliche Fähigkeit zur kohärenten, schnellen Bewegung.

Wenn wir uns den Kung-Fu-Kampf per Text-zu-Video ansehen. Ist er vollkommen perfekt? Nein, aber er ist ziemlich beeindruckend, insbesondere wenn man die rotierende Kamera berücksichtigt, die einen Teil der Dekohärenz ausgleicht.

Die Tatsache, dass beide Jungs am Boden bleiben und keiner von ihnen wegfliegt und dass es im Hintergrund keine Explosionen gibt, zeigt eine beeindruckende Leistung.

Ein anderes Ergebnis derselben Aufforderung war hinsichtlich der Bewegungen der Figuren etwas ungeschickter, aber insgesamt gab es keine große Dekohärenz, die Figuren verschmolzen miteinander oder zeigten andere Aspekte, die wir oft erwarten. Mit etwas geschicktem Schnitt ließe sich wahrscheinlich ein guter Teil des 10-Sekunden-Clips herausholen.

Generationsspezifikationen und Kamerasteuerung

Mit Kling 2.0 können wir in Fünf- oder Zehn-Sekunden-Intervallen generieren und die Seitenverhältnisse 16:9, 9:16 und 1:1 nutzen. Mit dem Premier-Plan können Sie zudem mehrere Ausgaben gleichzeitig generieren. Die Videoausgabe erfolgt derzeit in 720p, mir wurde jedoch gesagt, dass 1080p in Vorbereitung ist.

Objektiv- und Kamerabewegungsbeschriftungen

Derzeit gibt es in der Eingabeaufforderung keine Optionen zur Kamerasteuerung, aber ich muss sagen, dass das Modell sehr gut reagiert, nicht nur auf Kamerabewegungsbefehle, sondern auch auf die Wahl des Objektivs. Hier wird beispielsweise ein 85-mm-Objektiv mit geringer Schärfentiefe und kreisender Bewegung angefordert.

Ich sehe, dass der Tisch leicht wackelig ist und die Stange nicht richtig sitzt. Interessant ist aber, dass er die ganze Zeit über wackelig blieb. Insgesamt folgte die Eingabeaufforderung den Anweisungen zur Kamerabewegung und zum Objektivtyp.

Wenn wir dann das 85-mm-Objektiv gegen ein 20-mm-Objektiv austauschen, erhalten wir mit derselben Bewegung eine deutlich breitere Aufnahme, wobei der Hervorhebung des Weitwinkelobjektivs große Aufmerksamkeit geschenkt wird. Zwar wird unweigerlich jemand darauf hinweisen, dass es sich nicht genau um ein 20-mm- oder 85-mm-Objektiv handelt, aber hier geht es darum, eine ziemlich gute Vorstellung davon zu bekommen, was Sie suchen.

Einführung neuer Tools – Die Multi-Elements-Funktion

Ein Aspekt, den ich nicht unerwähnt lassen möchte, ist die neue Multi-Elemente-Funktion, die ebenfalls eingeführt wird. Ich hatte noch nicht viel Zeit, damit zu experimentieren, aber ich halte es für wichtig, Ihnen einen Eindruck davon zu vermitteln, was sie leistet, denn sie hat das Potenzial, ein ziemlich mächtiges Werkzeug zu werden.

Wenn Sie ein Video öffnen, können Sie auf die Option „Auswahl hinzufügen“ klicken, wodurch Ihr Charakter sofort maskiert wird.

Wenn Sie zufrieden sind, können Sie auf „Bestätigen“ klicken und dann ein Bild einer anderen Figur hochladen.

Die Eingabeaufforderung lautet „Tausche X von (Vorschaubild deines Bildes) gegen X von (Vorschaubild deines Videos). Du musst die „X“-Werte eingeben, in diesem Beispiel „Mädchen“ und „Mädchen“, und dann auf „Generieren“ klicken.

Das Tool tauscht ein Zeichen gegen ein anderes aus, und obwohl die Eingabe in diesem Beispiel nicht perfekt ist, gibt sie einen guten Hinweis darauf, was die Funktion für mehrere Elemente bewirkt.

Mit etwas Experimentieren und vielleicht klanglich besser abgestimmten Optionen könnten Sie einige spektakuläre Ergebnisse erzielen, insbesondere wenn das Modell Kling 2.0 auf den Markt kommt.

Endgültiges Urteil: Ist Kling AI immer noch der König?

In Bezug auf Text-zu-Video bin ich der Meinung, dass es mehr oder weniger auf Augenhöhe mit Veo 2 steht, wobei Veo 2 die Nase vorn hat, wenn auch nur knapp.

Allerdings müssen Sie auch hier die höheren Betriebskosten von Veo 2 berücksichtigen. Mir wurde gesagt, dass mehrere andere 2.0-Modelle auf dem Weg sind. Wir werden also sehen, ob Kilng König bleibt oder ob ein anderes Modell seinen Platz einnimmt.

Hinweis: Der Artikel wurde basierend auf dem folgenden YouTube Video verfasst.

Kling 2.0 – Ist es immer noch der beste KI-Generator oder wurde er vom Thron gestoßen?

Ein erster Blick auf Kling 2.0 – Verbesserung der Wiedergabetreue und Kohärenz

Bewertung der Text-to-Video-Funktion von Kling 2.0

Evaluierung der Bild-zu-Video-Funktion von Kling 2.0

Beispiel 1

Beispiel 2

Verbesserte Funktionen von Kling 2.0

Kohärente schnelle Bewegung

Generationsspezifikationen und Kamerasteuerung

Objektiv- und Kamerabewegungsbeschriftungen

Einführung neuer Tools – Die Multi-Elements-Funktion

Endgültiges Urteil: Ist Kling AI immer noch der König?

Das könnte Ihnen auch gefallen

Kling AI Was es ist: Mein persönlicher Leitfaden zu Kling AI

Kling 1.5 vs. Kling 1.0: Welche Version des KI-Videogenerators ist die beste?

Kling 1.5-Testbericht: Was ist das und ist es der beste KI-Videogenerator?

Vidu Q1: Was es bietet und wie es funktioniert

AUF DIESER SEITE