Kling 2.0 – 依然として最高の AI ジェネレーターでしょうか、それとも王座は奪われたのでしょうか?

Kling 2.0がリリースされました。現在最高評価を得ているAI動画ジェネレーターが、さらに進化しました。今日は、Kling 2.0がどれだけ進化したのか、何が欠けているのか、そしてこの優れた新バージョンに何が期待できるのかを詳しく見ていきましょう。

Klingは新バージョン2.0で勢いを維持しています。1.6モデルは画像から動画への変換モデルとしてトップの座を維持し、1.5モデルはGoogleのVeo 2に次ぐ2位となりました。それでは、Klingの2.0バージョンの出来栄えを見てみましょう。

Kling 2.0初見 - 忠実度と一貫性の向上

全体的な忠実度とプロンプトの一貫性という点では、新しいKling 2.0モデルは、特に画像から動画への変換において飛躍的に進歩していると言わざるを得ません。入力画像に関わらず、一貫性が保たれ、キャラクターの演技も全体的にしっかりとしています。

Kling 2.0のテキスト・トゥ・ビデオ機能の評価

では、テキストからビデオへの変換の例から始めましょう。まずは、Colossal Bioscience 社が 3 匹のダイアウルフを絶滅から蘇らせたという実際のニュース記事に大きく影響を受けた、ゲームオブスローンズにヒントを得たダイアウルフのプロンプトから始まります。

ビデオプロンプトは、特にテキストからビデオへの変換としては非常にしっかりとした仕上がりになっています。遠近法やダイアウルフのスケール感、そして闇の魔法使いジョン・スノウとの比較に若干の問題があるものの、最初のプロンプトと調和しています。この点を考慮すると、これは非常に印象的なテキストからビデオへの変換出力と言えるでしょう。

Kling 2.0の画像から動画への変換を評価する

例1

最初の例を見てください。10秒間、しっかりとした歩行が続いています。少しデコヒーレンスがあるにもかかわらず、ショットの焦点は歩行する足にあり、非常に安定した歩行サイクルが映っているのが印象的です。スタッターステップは最小限で、足は泥の中の水たまりなどに反応しているように見えます。

時々、後ろ向きに飛行する宇宙船に遭遇することもあるかもしれませんが、後ろ向きに歩く人間に遭遇したことは一度もありません。もし遭遇してしまったら、逆方向に走らせるだけですぐに解決できます。

例2

シームレスな生成のもう一つの例は、60年代のヴォーグ誌にインスパイアされたこのショットです。モデルは焦点を当てていますが、クールすぎてカメラを見つめる余裕もなく、ただ座っているだけです。しかし、私の目を惹きつけたのは、このシーンに登場する他の登場人物たちです。歩いている男性たちは実際にはシーンの一部ではありませんが、文脈上、そこにいるかのように見えます。

Kling 2.0のアップグレード機能

コヒーレントファストモーション

Kling 2.0の大きな強みは、一貫性のある高速モーションに優れていることです。

カンフーの戦闘シーンをテキストから動画に変換して見てみましょう。完璧と言えるでしょうか？いいえ、そうではありません。しかし、特に回転するカメラを考慮すると、デコヒーレンスをある程度抑えることができ、かなり印象的です。

二人とも地面に留まっていて、どちらも飛び去っておらず、背景が爆発していないという事実は、印象的な成果を示しています。

同じプロンプトから出力された別の動画は、登場人物の動きが少しぎこちないものの、全体的には支離滅裂な部分はほとんどなく、登場人物同士が融合したり、その他私たちがよく期待するような要素も見られませんでした。編集スキルを磨けば、10秒の動画の重要な部分をうまく活用できるかもしれません。

世代仕様とカメラコントロール

Kling 2.0を使用すると、5秒または10秒間隔で動画を生成でき、アスペクト比は16:9、9:16、1:1から選択できます。さらに、プレミアプランをお選びいただくと、一度に複数の出力を生成できます。現在、動画出力は720pですが、1080pも近日中にサポートされる予定です。

レンズとカメラの動きのコールアウト

現時点では、プロンプト内にカメラ操作のオプションはありませんが、モデルは非常に応答性が高く、カメラの動きだけでなくレンズの選択にも反応します。例えば、ここでは85mmレンズを浅い被写界深度で周回するような動きで呼び出しています。

注目すべきは、テーブルが少し歪んでいて、ポールが本来あるべき位置に接続されていないことですが、最初から最後までずっと歪んだままだったのは興味深い点です。全体的に、カメラの動きとレンズの種類に関する指示はプロンプトに忠実に従っていました。

次に、85mmレンズを20mmに交換すると、同じ動きでより広角なショットが得られます。広角レンズの表記には細心の注意が払われています。厳密には20mmや85mmのレンズではないと指摘されるのは避けられませんが、ここで重要なのは、求めているものをほぼ正確に捉えられることです。

新しいツールのリリース - マルチエレメント機能

見逃したくない機能の一つは、同時にリリースされる新しいマルチエレメント機能です。まだ試す時間はあまりありませんが、非常に強力なツールになる可能性を秘めているので、その機能について少しご紹介しておくのは重要だと思います。

ビデオを開いて、「選択範囲を追加」オプションをクリックすると、キャラクターが即座にマスクされます。

満足したら、「確認」して別のキャラクターの画像をアップロードできます。

プロンプトに「（画像のサムネイル）のXを（動画のサムネイル）のXと入れ替えます」と表示されます。「X」の値（この例ではgirlとgirl）を入力し、「生成」をクリックしてください。

このツールは、ある文字を別の文字と交換します。この例の入力は完璧ではありませんが、複数要素機能が何を行うかをよく示しています。

いくつかの実験と、おそらくより音色的に調整されたオプションにより、特にKling 2.0モデルが登場すれば、素晴らしい結果が得られる可能性があります。

最終判定: Kling AI は依然として王者か?

テキストをビデオに変換する機能に関しては、 Veo 2 とほぼ同等で、 Veo 2 がわずかにリードしているように感じます。

しかし、ここでも、 Veo 2 のランニングコストが高いことを考慮に入れる必要があります。そうは言っても、他にもいくつかの 2.0 モデルがリリースされる予定だと聞いているので、Kilng が王者の座を維持するのか、それとも別のモデルが台頭してその地位を奪うのか、注目されます。

注：この記事は以下のYouTube動画をもとに執筆しました。

Kling 2.0 – 依然として最高の AI ジェネレーターでしょうか、それとも王座は奪われたのでしょうか?

Kling 2.0初見 - 忠実度と一貫性の向上

Kling 2.0のテキスト・トゥ・ビデオ機能の評価

Kling 2.0の画像から動画への変換を評価する

例1

例2