Kling AI 새로운 Kling 2.0 모델을 출시했습니다. 이미지-비디오 변환 및 텍스트-비디오 변환 기능이 개선되었습니다. 특히 Kling 2.0 역동적이고 액션이 가득한 프롬프트와 이미지를 통해 더욱 뛰어난 결과를 자랑하며, 이를 통해 더욱 멋진 영상을 제작할 수 있습니다. Kling 2.0 의 새로운 기능과 토큰을 최대한 활용하는 방법을 살펴보겠습니다.
Kling 2.0 시작하기
먼저, 새로운 Kling 2.0 모델로 무엇을 할 수 있는지 알아보겠습니다.

현재 KlingAI는 Kling 2.0 에서 텍스트-비디오 변환과 이미지-비디오 변환 옵션을 모두 지원합니다. 물론, 생성된 이미지를 포함하여 원하는 이미지를 사용할 수 있습니다. 제 예시에서는 Flux 로 만든 이미지를 사용했습니다. 또한 비디오 클립에서 섹션을 교체, 추가 또는 삭제할 수 있는 "다중 요소" 옵션 도 있습니다.

여러분이 해야 할 일은 비디오의 특정 지점에서 일시 정지하고, 편집하고 싶은 부분을 추가하는 것뿐입니다(이 경우에는 교체하겠습니다). 그러면 Kling AI 나머지 작업을 처리해 드립니다.

결과를 개선하려면 선택 영역의 여러 영역에 점을 추가하는 것이 좋습니다. 일반적으로 점을 많이 추가할수록 AI가 움직임을 추적하고 마스킹하는 능력이 향상됩니다. 사람의 움직임은 여러 부분으로 구성되어 복잡하기 때문에 이 선택 영역에 점을 꽤 많이 추가했습니다.
하지만 아직 끝나지 않았습니다. 특히 복잡한 동작(예: 댄스)이 포함된 비디오를 참조할 때, 한 프레임에만 선택 영역을 추가하는 것만으로는 최상의 결과를 얻을 수 없습니다.

하지만 비디오에 동작이 많지 않다면 운이 좋으시네요. 괜찮은 결과를 얻기 위해 마스크를 그렇게 많이 추가할 필요는 없습니다. 이 예시에서는 비디오 타임라인에 마스크를 두 개만 사용했지만, 움직임이 비교적 단순하고 카메라 움직임이 많지 않아서 상당히 일관된 결과를 얻을 수 있었습니다.

Kling 2.0 대 WAN 2.1
앞서 Kling 2.0 사용하면 오픈 소스 모델인 WAN 2.1 VACE와 매우 유사한 방식으로 비디오를 제작할 수 있다고 말씀드렸습니다. 컴퓨터에서 로컬로 실행되는 무료 AI 모델을 사용하는 것은 좋지만, 대부분의 사용자는 하드웨어 제약을 받습니다. H100처럼 AI 모델 전용 최고급 GPU가 아니라면 최상의 결과를 얻기 어려울 것입니다. 4090이나 5090 같은 플래그십 소비자용 GPU조차도 Kling 2.0 과 같은 프리미엄 모델에서 생성된 비디오의 품질을 따라잡기 어려울 것입니다.
WAN 2.1 VACE와 Kling 2.0 성능이 얼마나 다른지 보여드리기 위해 동일한 이미지와 동일한 프롬프트를 사용하여 이미지-비디오 변환을 진행했습니다. 결과는 매우 눈에 띄었습니다.

요정들이 생일 케이크를 만드는 이 이미지를 두 모델 모두에 사용했습니다. WAN 2.1에서는 영상이 꽤 진부했습니다. 요정들은 대부분 가만히 서 있었고, 영상에서 유일하게 실제 움직임은 케이크 위에 떠 있는 마법의 거품뿐이었습니다. 그다지 역동적인 장면은 아니었습니다.
반면, Kling 2.0 의 영상은 훨씬 더 액션으로 가득했습니다. 가운데 있는 작은 요정이 케이크 주위를 뛰어다니고, 마법 지팡이에서 마법 효과가 튀어나오고, 케이크 자체도 훨씬 더 커졌습니다. WAN 2.1의 결과물보다 훨씬 나아 보입니다. 실제로 Kling 2.0 의 빠른 속도감 있는 장면 처리 능력은 이전 버전인 Kling 1.6을 능가합니다.
Kling 2.0 대 Kling 1.6
다음 예시에서는 Kling 2.0 사용하여 두 여성 캐릭터의 격투 장면을 생성했습니다. 그 결과, 복잡한 무술 동작과 두 캐릭터가 싸우는 모습을 빠르게 촬영하는 카메라가 사용되었습니다. 또한, 장면에 특별한 분위기를 더하기 위해 다양한 파티클 효과도 사용했습니다.
반면, Kling 1.6은 Kling 2.0 의 속도를 따라잡는 데 어려움을 겪었습니다. 같은 캐릭터와 프롬프트를 사용했음에도 불구하고, Kling 1.6의 영상은 훨씬 느렸고 카메라 움직임도 거의 없었습니다. 액션 장면과 프롬프트를 사용하여 Kling 1.6과 비교해 보면 Kling 2.0 의 발전된 모습을 확실히 알 수 있습니다.
Kling 2.0 의 특이점
하지만 Kling 2.0 나름의 단점이 있습니다. 제가 프롬프트를 너무 구체적으로 표현하려고 하면 모델이 제대로 처리하지 못하죠. 제트 스키를 탄 여성이 나오는 이 영상은 머리를 뒤로 돌리고 있어서 이상해 보입니다.
자연스러운 결과를 얻으려면 프롬프트를 간단하게 만들어야 합니다. 간소화된 프롬프트를 사용했더니 훨씬 더 멋진 결과를 얻었습니다. Kling 2.0 사실적인 물결과 물보라를 구현하여 물을 꽤 잘 처리한다는 점도 언급해 두는 것이 좋겠습니다.
프롬프트를 간단하게 유지하는 한, 영상 속 캐릭터가 카메라에서 시선을 옮기는 등 흥미로운 행동을 하도록 할 수도 있습니다.
이 영상의 첫 프레임에서는 여성이 카메라를 바라보지만, 영상이 진행되면서 그녀는 고개를 도로 쪽으로 돌리고 차를 몰고 떠납니다. WAN 2.1 버전에서 보여준 동일한 프롬프트보다 훨씬 더 사실적으로 보입니다. 오픈소스 모델은 반사와 빛을 잘 처리하지만, 오토바이를 운전하는 여성의 움직임은 거의 없습니다.