Kling AIは新しいKling 2.0モデルをリリースしました。これにより、画像から動画への変換とテキストから動画への変換がさらに向上しました。特にKling 2.0は、ダイナミックでアクション満載のプロンプトや画像でより優れた結果を実現し、より魅力的な動画の作成を可能にします。Kling Kling 2.0の新機能と、トークンを最大限に活用する方法についてご紹介します。
Kling 2.0を使い始める
まず、新しいKling 2.0モデルで何ができるのかについて説明します。

現在、KlingAIはKling 2.0でテキストから動画への変換と画像から動画への変換の両方のオプションをサポートしています。もちろん、生成された画像も含め、お好きな画像を使用できます。私の例ではFluxで作成した画像を使用しています。また、 「マルチエレメント」オプションがあり、これを使用すると動画クリップのセクションを交換、追加、または削除できます。

動画の特定の部分で一時停止し、編集したい部分を追加するだけで(この場合は、スワップ)、あとはKling AI が処理してくれます。

結果を改善するには、選択範囲の様々な領域にポイントを追加することをお勧めします。一般的に、ポイントを多く追加するほど、AIの動きの追跡とマスキングの精度が向上します。人間の動きは多くの可動部で構成されているため、この選択範囲にはかなりの数のポイントを追加しました。
しかし、まだ終わりではありません。特に複雑な動き(ダンスなど)のある動画を参照する場合、1つのフレームだけを選択しても最適な結果は得られません。

動画にアクションがあまりない場合は、幸運です。それほど多くのマスクを追加しなくても、十分な効果が得られます。この例では、動画のタイムラインにマスクを2つしか追加していませんが、動きが比較的シンプルでカメラもそれほど動かないため、かなり安定した結果を得ることができました。

Kling 2.0とWAN 2.1
先ほど、 Kling 2.0 はオープンソースモデルである WAN 2.1 VACE によく似た動画を作成できると述べました。無料の AI モデルをローカルコンピューターで実行できるのは便利ですが、ほとんどのユーザーはハードウェアの制約を受けます。また、H100 のような AI モデル向けの最上位 GPU を搭載していない限り、最高の結果は得られないでしょう。4090 や 5090 のようなフラッグシップコンシューマー向け GPU でさえ、 Kling 2.0のようなプレミアムモデルで生成される動画の品質に匹敵するのは困難でしょう。
WAN 2.1 VACEとKling 2.0のパフォーマンスの違いを示すために、同じ画像とプロンプトを使用し、画像から動画への変換処理を行いました。その結果は非常に顕著でした。

妖精たちがバースデーケーキを作っているこの画像を、両方のモデルで使用しました。WAN 2.1では、動画はかなり停滞していました。妖精たちはほとんど動かず、動画の中で実際に動いているのはケーキの上に浮かぶ魔法の泡だけで、ダイナミックなシーンとは言えませんでした。
一方、 Kling 2.0の動画ははるかにアクション満載でした。中央の小さな妖精がケーキの周りを走り回り、杖から魔法のエフェクトが飛び出し、ケーキ自体も大きく成長しました。WAN 2.1の結果よりもはるかに良く見えます。実際、 Kling 2.0のテンポの速いシーンの処理能力は、前バージョンのKling 1.6を凌駕しています。
Kling 2.0とKling 1.6の比較
次の例では、 Kling 2.0 を使って2人の女性キャラクターの戦闘シーンを生成しました。完成した動画には、複雑な格闘技の動きと、2人の戦闘シーンを周回する高速カメラの動きが再現されています。また、多くのパーティクルエフェクトがシーンにさらなる華やかさを添えています。
一方、 Kling 1.6はKling 2.0のペースに追いつくのに苦労しました。同じキャラクターとプロンプトであっても、 Kling 1.6の動画ははるかに遅く、カメラの動きもほとんどありませんでした。アクションシーンやプロンプトを使ってKling 2.0とKling 1.6を比較すると、 Kling 2.0の改善がはっきりと分かります。
Kling 2.0の癖
ただし、 Kling 2.0には癖があります。プロンプトを少し具体的にしすぎると、モデルがうまく対応してくれません。このジェットスキーに乗っている女性の動画は、頭が後ろを向いているため、違和感があります。
自然な仕上がりを求めるなら、プロンプトはシンプルにする必要があります。シンプルなプロンプトを使うことで、はるかに見栄えの良い結果が得られました。また、 Kling 2.0は水の表現が非常に優れており、波や水しぶきもリアルに表現できることも付け加えておきましょう。
プロンプトをシンプルにしておけば、ビデオ内のキャラクターにカメラから焦点を変えるなど、興味深いことをさせることもできます。
この動画の最初のフレームでは、女性がカメラを見つめていますが、動画が進むにつれて、彼女は道路に顔を向けて走り去ります。これは、WAN 2.1版の同じプロンプトよりもはるかにリアルに見えます。オープンソースモデルは反射や光をうまく処理できているものの、バイクを運転する女性の動きはあまりありません。