Kling AI hat gerade Kling 2.0 der Öffentlichkeit zugänglich gemacht.
Diese neue Version steckt voller wichtiger Verbesserungen und belegt den ersten Platz in den KI-Video-Rankings. Aber ist sie wirklich so bahnbrechend, wie es klingt?
Wir haben Kling 2.0 getestet und es mit anderen hochmodernen Modellen wie Runway Gen 4 und Googles Veo 2 verglichen.
Wir werden die Ergebnisse in Kürze bekannt geben, aber zunächst wollen wir verstehen, was Kling 2.0 so besonders macht.
Was ist neu in Kling 2.0 ?
Kling 2.0 hat mehrere neue Funktionen und Änderungen eingeführt.
Multimodale visuelle Eingabeaufforderungen
Eine der wichtigsten Ergänzungen des Kling Ökosystems ist die neue Funktion „Multi Elements“.
Es handelt sich um ein multimodales visuelles Eingabesystem, das es Nutzern ermöglicht, innerhalb von Textaufforderungen auf Bilder und Videos zu verweisen. Diese Funktion stellt einen wesentlichen Fortschritt in puncto Kontrolle und Präzision dar, ist jedoch derzeit noch nicht in Kling 2.0 integriert (die Integration wird in Kürze erwartet).
Das System bietet drei Hauptfunktionen:
- Austauschen: Ersetzen Sie Themen in vorhandenen Videos (bei der Funktion traten während des Tests Fehler auf)
- Hinzufügen: Neue Elemente aus Referenzbildern in Videos einfügen
- Löschen: Entfernen Sie unerwünschte Objekte dynamisch aus Szenen
In unseren Tests haben wir die Funktion „Hinzufügen“ erfolgreich verwendet, um eine laufende Frau (aus einem Referenzbild) in eine Szene einzufügen, in der Lava in ein altes Opernhaus eindringt.

Ebenso konnten wir mit der Funktion „Löschen“ einen Papagei von der Schulter eines Roboters entfernen und dabei die visuelle Kohärenz im gesamten Video aufrechterhalten.

Insbesondere bietet Kling AI hilfreiche Vorlagen für Eingabeaufforderungen beim Hochladen von Referenzmaterialien, sodass das Auswendiglernen komplexer Eingabeaufforderungsstrukturen entfällt – eine sinnvolle Verbesserung der Benutzererfahrung.
Änderungen an der Benutzeroberfläche und am Workflow
In dieser Version hat Kling AI auch mehrere Änderungen an der Benutzeroberfläche eingeführt:
- Die Unterscheidung zwischen den Modi „Standard“ und „Professional“ wurde aufgehoben
- Kreativitäts- und Eingabeaufforderungs-Schieberegler sind nicht mehr verfügbar
- Der Frame-Modus wird derzeit von Kling 2.0 nicht unterstützt.
- Die Funktion „Originalelemente“ (für Zeichenposition und Objektreferenzen) ist noch nicht mit Kling 2.0 kompatibel

Kling 2.0 vs. Kling 1.6: Was hat sich verbessert?
Kling 2.0 zeichnet sich durch hervorragende Bewegungsqualität und Physiksimulation aus, gelegentlich bevorzugen Sie für bestimmte Projekte jedoch möglicherweise die Szenenkohärenz von Kling 1.6.
Bewegungsflüssigkeit und Naturalismus
Kling 2.0 verbessert die Bewegungsqualität erheblich. Tiere bewegen sich mit natürlicher Flüssigkeit statt mit den ruckartigen, unrealistischen Bewegungen von Kling 1.6.
Menschliche Ausdrücke wirken überzeugender, wodurch das Problem „Lippenbewegungen ohne Sprechen“ beseitigt wird. Gesichtsausdrücke wirken in allen Sequenzen natürlich und konsistent.
Dynamische Szenenverarbeitung
Fliegende Kreaturen zeigen richtige Flügelbewegungen und natürliche Gleitmuster. Die starren Flugrouten von Kling 1.6 werden durch realistische Luftdynamik ersetzt.
Die Umweltphysik wurde deutlich verbessert. Wassereffekte, Objektinteraktionen und Materialeigenschaften verhalten sich realistischer.
Der Kohärenz-Kompromiss
Kling 2.0 produziert dynamischere Szenen, allerdings manchmal auf Kosten der Kohärenz. Charaktere können in komplexen Sequenzen unerwartet erscheinen oder verschwinden.
Kling 1.6 ist zwar optisch weniger beeindruckend, weist aber in allen Videos eine bessere Szenenkonsistenz auf.
Schnelles Verständnis
Kameraanweisungen wie Schwenken, Neigen und Fokusverschiebungen werden in Kling 2.0 mit größerer Präzision ausgeführt.
Sequenzielle Aktionen werden besser verstanden. Mehrteilige Anweisungen wie „Kronleuchter fällt in Lava und geht in Flammen auf“ folgen der richtigen logischen Reihenfolge.
Technische Einschränkungen
Beide Versionen haben Probleme mit Händen, Textwiedergabe und komplexen Interaktionen, obwohl 2.0 in diesen Bereichen bescheidene Verbesserungen zeigt.
Generierungsparameter
Kling 2.0 entfernt die Schieberegler für Kreativität/Eingabeaufforderungen und führt die Standard-/Profi-Modi in einer einheitlichen Benutzeroberfläche zusammen.
Dieser optimierte Ansatz kann für Anfänger von Vorteil sein, schränkt jedoch die Optionen für fortgeschrittene Benutzer ein, die an die Feinabstimmung ihrer Ausgaben gewöhnt sind.
Kling 2.0 im Test
Wir wollten sehen, wie sich Kling 2.0 im Vergleich zu Runway Gen 4 und Google Veo 2 schlägt.
Daher haben wir mit allen drei KI-Videogeneratoren eine Reihe von Tests unter Verwendung derselben Eingabeaufforderungen durchgeführt.
Schnelle Einhaltung und Bewegungswiedergabefunktionen
Unser erster Test konzentrierte sich auf die Fähigkeit von Kling 2.0, komplexe Anweisungen zu verstehen und umzusetzen, die sowohl die Bewegung des Motivs als auch die Kamerabewegungen einschließen. Die Aufgabe war einfach, aber anspruchsvoll: Eine Frau blickt auf ihre Hände, und ein Papagei landet auf ihren Händen.
Kling 2.0 hat die Anweisungen auf beeindruckende Weise genau befolgt. Die Handlung verlief natürlich und mit einer klaren Abfolge von Ereignissen.
Die Ausgabe von Runway hingegen verfehlte das Ziel leicht. Der Papagei war bereits anwesend, als die Frau nach unten schaute, was nicht mit den Anforderungen der Aufforderung übereinstimmt.
Googles Veo 2 folgte der Aufforderung, es fehlte jedoch die klare, sequentielle Aktion, die Kling 2.0 lieferte.
Bewertung von Umweltauswirkungen: Hochwassersimulation
Als Nächstes testeten wir die Fähigkeit von Kling 2.0, Umwelteffekte darzustellen, insbesondere ein Überschwemmungsszenario in einer Stadtumgebung.
Kling 2.0 lieferte eine bewundernswerte Leistung ab und stellte präzise dar, wie das Hochwasser die Straßen füllte und Autos wegdrückte.
Runway hatte mit dieser Herausforderung zu kämpfen und entschied sich stattdessen für die Darstellung einer riesigen Meereswelle, die nicht zur Aufforderung passte.
Veo 2 konnte die Überschwemmung zwar darstellen, es fehlte jedoch an Dynamik und das in der Eingabeaufforderung beschriebene Szenario wurde nicht vollständig erfasst.
Dynamisches Handeln und schnelles Verstehen in Hochgeschwindigkeitsszenarien
Wir haben Kling 2.0 noch weiter weiterentwickelt und seine Fähigkeit zur Verarbeitung von Hochgeschwindigkeits-Actionsequenzen getestet. Die Aufgabe bestand darin, eine Frau auf einem Pferd galoppieren zu lassen, während die Kamera sie umkreiste.
Kling 2.0 lieferte eine dynamische, optisch ansprechende Ausgabe, hatte jedoch leichte Probleme, die Gesichtskohärenz während der Hochgeschwindigkeitsaktion aufrechtzuerhalten.
Die Ausgabe von Runway ähnelte eher einer Zeitlupenszene und ließ die Hochgeschwindigkeitsdynamik vermissen, die wir anstrebten.
Veo 2 lieferte in diesem Szenario leider keine brauchbaren Ergebnisse.
Rendern schwebender Objekte und komplexer Kamerabewegungen
In diesem Test haben wir Kling 2.0 herausgefordert, eine Szene mit schwebenden Objekten und einer nach unten geneigten Kamerabewegung zu rendern.
Kling 2.0 glänzte erneut, indem es die schwebenden Objekte präzise darstellte und der vorgegebenen Kamerabewegung folgte. Runway und Veo 2 hatten mit dieser Aufgabe zu kämpfen und konnten die schwebenden Objekte und die Kamerabewegung nicht vollständig wie in der Anweisung beschrieben rendern.
Die ultimative Herausforderung: KI-Videomodelle vs. Samurai-Kampfszene
Die letzte Herausforderung bestand darin, eine Kampfszene zwischen zwei Samurai zu rendern, eine Aufgabe, die sich für KI-Videomodelle in der Vergangenheit als schwierig erwiesen hat.
Kling 2.0 war zwar gegenüber früheren Versionen verbessert, hatte aber immer noch Probleme mit der Darstellung natürlicher Kämpfe. Die Kohärenz der Schwerter nahm ab, insbesondere bei der Interaktion, und die Gesamtszene wirkte nicht so realistisch wie erhofft.
Runway Gen 4 und Veo 2 hatten mit ähnlichen Problemen zu kämpfen, darunter Kohärenzprobleme und ein Mangel an natürlicher Bewegung in den Kampfszenen.
Vorteile und Einschränkungen von Kling 2.0
Insgesamt sind wir der Meinung, dass Kling 2.0 die folgenden Vor- und Nachteile mit sich bringt.
Kling 2.0 Stärken
- Einhaltung von Eingabeaufforderungen: Kling 2.0 zeigt eine bemerkenswerte Einhaltung komplexer Eingabeaufforderungen, insbesondere solcher, die mehrere Aktionen und Umgebungseinflüsse beinhalten.
- Realismus bei Interaktionen: Das Modell zeichnet sich durch die Darstellung subtiler Interaktionen und realistischer Bewegungen aus und verbessert so die allgemeine visuelle Qualität.
Kling 2.0 Herausforderungen
- Kohärenz wahren: Kling 2.0 hat bei schnellen und komplexen Action-Sequenzen Probleme mit der Kohärenz, was zu Inkonsistenzen in den Ausgaben führt.
- Rendern komplexer Szenen: Trotz Verbesserungen steht Kling 2.0 immer noch vor der Herausforderung, realistische Kampfszenen und dynamische Kamerabewegungen darzustellen.
Preise und Zugänglichkeit
- Kostenauswirkungen: Die Preisgestaltung von Kling 2.0, insbesondere bei kurzen Videogenerationen, könnte für einige Benutzer ein Problem darstellen und auf einen Bedarf an günstigeren Optionen hinweisen.
Abschließende Gedanken: Lohnt sich Kling 2.0 ?
Kling 2.0 stellt einen bedeutenden Fortschritt in der KI-Videogenerierung dar und bietet beeindruckende Verbesserungen bei der Einhaltung komplexer Eingabeaufforderungen und der Darstellung realistischer Interaktionen.
Allerdings ist es immer noch eine Herausforderung, die Kohärenz in dynamischen Szenen aufrechtzuerhalten. Trotz der Fortschritte sollten Sie bei der Entscheidung für Kling 2.0 die Vorteile gegen die aktuellen Kosten und die spezifischen Anforderungen Ihres Projekts abwägen.
Hinweis: Dieser Artikel wurde basierend auf dem Inhalt des folgenden Videos verfasst: