Kling AI เพิ่งเปิด ตัวโมเดล Kling 2.0 ใหม่ และมาพร้อมกับการปรับปรุงการ แปลงรูปภาพเป็นวิดีโอ และ ข้อความเป็นวิดีโอ โดยเฉพาะอย่างยิ่ง Kling 2.0 ให้ผลลัพธ์ที่ดีขึ้นด้วยคำแนะนำและรูปภาพแบบไดนามิกที่เต็มไปด้วยแอ็คชัน ซึ่งสามารถนำไปสู่วิดีโอที่น่าทึ่งยิ่งขึ้น มาดูกันว่า Kling 2.0 มีอะไรใหม่บ้าง และคุณจะใช้ประโยชน์จากโทเค็นของคุณได้อย่างไร
เริ่มต้นใช้ Kling 2.0
ก่อนอื่นมาพูดถึงสิ่งที่คุณสามารถทำได้ด้วยรุ่น Kling 2.0 ใหม่กันก่อน

ปัจจุบัน KlingAI รองรับทั้งตัวเลือกการแปลงข้อความเป็นวิดีโอและการแปลงภาพเป็นวิดีโอด้วย Kling 2.0 แน่นอนว่าคุณสามารถใช้รูปภาพใดๆ ก็ได้ที่คุณต้องการ รวมถึงรูปภาพที่สร้างขึ้นด้วย ตัวอย่างของฉันใช้รูปภาพที่สร้างด้วย Flux นอกจากนี้ คุณยังจะสังเกตเห็น ตัวเลือก "หลายองค์ประกอบ" ซึ่งช่วยให้คุณสลับ เพิ่ม หรือลบส่วนต่างๆ จากคลิปวิดีโอได้

สิ่งที่คุณต้องทำก็คือหยุดชั่วคราวที่เวลาบางช่วงของวิดีโอ เพิ่มส่วนต่างๆ ที่คุณต้องการแก้ไข (ในกรณีนี้ ฉันจะสลับ) และ Kling AI จะจัดการส่วนที่เหลือให้กับคุณ

นอกจากนี้ คุณยังต้องการเพิ่มคะแนนให้กับภูมิภาคต่างๆ ที่คุณเลือกเพื่อปรับปรุงผลลัพธ์ โดยทั่วไป ยิ่งคุณเพิ่มคะแนนมากเท่าใด AI ก็จะติดตามและปกปิดการเคลื่อนไหวได้ดีขึ้นเท่านั้น ฉันเพิ่มคะแนนค่อนข้างมากในส่วนที่เลือกนี้เนื่องจากการเคลื่อนไหวของมนุษย์มีความซับซ้อนเนื่องจากมีชิ้นส่วนที่เคลื่อนไหวจำนวนมาก
แต่คุณยังทำไม่เสร็จเสียที เมื่ออ้างอิงวิดีโอที่มีการเคลื่อนไหวที่ซับซ้อนเป็นพิเศษ (เช่น การเต้นรำ) คุณจะไม่ได้ผลลัพธ์ที่ดีที่สุดหากเพิ่มตัวเลือกลงในเฟรมเดียว

หากวิดีโอของคุณไม่มีการเคลื่อนไหวมากนัก คุณก็โชคดีแล้ว เพราะคุณไม่จำเป็นต้องเพิ่มมาสก์มากมายเพื่อให้ได้ผลลัพธ์ที่ดี ในตัวอย่างนี้ ฉันมีมาสก์เพียงสองอันในไทม์ไลน์ของวิดีโอ แต่ฉันก็ยังสามารถได้ผลลัพธ์ที่ค่อนข้างสม่ำเสมอ เนื่องจากการเคลื่อนไหวค่อนข้างเรียบง่ายและกล้องก็ไม่ได้เคลื่อนไหวมากนัก

Kling 2.0 เทียบกับ WAN 2.1
ก่อนหน้านี้ฉันได้กล่าวถึงว่า Kling 2.0 ช่วยให้คุณสร้างวิดีโอได้คล้ายกับ WAN 2.1 VACE ซึ่งเป็นโมเดลโอเพ่นซอร์ส และถึงแม้ว่าการมีโมเดล AI ฟรีที่ทำงานในเครื่องคอมพิวเตอร์ของคุณจะเป็นเรื่องดี แต่ผู้ใช้ส่วนใหญ่มักถูกจำกัดด้วยฮาร์ดแวร์ และเว้นแต่คุณจะมี GPU ระดับสูงที่ออกแบบมาสำหรับโมเดล AI เช่น H100 มิฉะนั้น คุณอาจไม่ได้รับผลลัพธ์ที่ดีที่สุด แม้แต่ GPU สำหรับผู้บริโภคระดับเรือธงอย่าง 4090 และ 5090 ก็ยังต้องดิ้นรนเพื่อให้มีคุณภาพเทียบเท่ากับวิดีโอที่สร้างจากโมเดลระดับพรีเมียม เช่น Kling 2.0
เพื่อแสดงให้เห็นถึงประสิทธิภาพที่แตกต่างกันของ WAN 2.1 VACE และ Kling 2.0 ฉันใช้รูปภาพและคำแนะนำเดียวกันแล้วแปลงเป็นภาพและวิดีโอ ผลลัพธ์นั้นชัดเจนมาก

ฉันใช้ภาพนางฟ้ากำลังทำเค้กวันเกิดในทั้งสองโมเดล ด้วย WAN 2.1 วิดีโอจึงดูน่าเบื่อมาก นางฟ้าส่วนใหญ่ยืนนิ่ง และการเคลื่อนไหวที่แท้จริงในวิดีโอมาจากฟองสบู่วิเศษที่ลอยอยู่เหนือเค้ก ไม่ใช่ฉากที่เคลื่อนไหวได้อย่างแท้จริง
ในทางกลับกัน วิดีโอของ Kling 2.0 มีฉากแอคชั่นมากกว่ามาก นางฟ้าตัวน้อยตรงกลางวิ่งวนรอบเค้ก เอฟเฟกต์มายากลลอยออกมาจากไม้กายสิทธิ์ และเค้กเองก็มีขนาดใหญ่ขึ้นมาก ดูดีกว่าผลลัพธ์ของ WAN 2.1 มาก ในความเป็นจริง ความสามารถของ Kling 2.0 ในการจัดการฉากที่มีจังหวะรวดเร็วนั้นเหนือกว่าเวอร์ชันก่อนหน้าอย่าง Kling 1.6
Kling 2.0 เทียบกับ Kling 1.6
ในตัวอย่างต่อไปนี้ ฉันได้ให้ Kling 2.0 สร้างฉากต่อสู้ระหว่างตัวละครหญิงสองตัว วิดีโอที่ได้มีการเคลื่อนไหวแบบศิลปะการต่อสู้ที่ซับซ้อนและกล้องที่เคลื่อนที่เร็วที่หมุนรอบตัวทั้งสองขณะที่ต่อสู้กัน นอกจากนี้ยังมีเอฟเฟกต์อนุภาคจำนวนมากที่ทำให้ฉากดูมีชีวิตชีวามากขึ้น
ในทางกลับกัน Kling 1.6 พยายามที่จะตามให้ทันจังหวะของ Kling 2.0 แม้ว่าจะมีตัวละครและคำแนะนำเหมือนกัน แต่วิดีโอของ Kling 1.6 กลับช้ากว่ามาก แทบไม่มีการเคลื่อนไหวของกล้องเลย เมื่อเปรียบเทียบกับ Kling 1.6 ที่ใช้ฉากแอ็คชันและคำแนะนำ จะเห็นถึงการพัฒนาของ Kling 2.0 ได้อย่างชัดเจน
ความพิเศษของ Kling 2.0
Kling 2.0 ก็มีจุดบกพร่องอยู่เหมือนกัน เมื่อฉันพยายามระบุให้ชัดเจนเกินไป โมเดลก็ไม่สามารถจัดการได้ดีนัก วิดีโอนี้ที่แสดงให้เห็นผู้หญิงบนเจ็ตสกีดูไม่เข้ากันเพราะศีรษะของผู้หญิงหันกลับไปด้านหลัง
หากคุณต้องการได้ผลลัพธ์ที่ดูเป็นธรรมชาติ คุณต้องทำให้คำสั่งของคุณเรียบง่าย เมื่อใช้คำสั่งที่เรียบง่าย ฉันก็จะได้ผลลัพธ์ที่ดูดีขึ้นมาก นอกจากนี้ ฉันยังควรพูดถึงว่า Kling 2.0 จัดการกับน้ำได้ค่อนข้างดี โดยมีคลื่นและละอองน้ำที่สมจริง
ตราบใดที่คุณรักษาคำกระตุ้นของคุณให้เรียบง่าย คุณยังสามารถให้ตัวละครในวิดีโอของคุณทำสิ่งที่น่าสนใจได้ เช่น เปลี่ยนโฟกัสออกจากกล้อง
เฟรมแรกของวิดีโอนี้แสดงให้เห็นผู้หญิงคนหนึ่งมองไปที่กล้อง แต่ในขณะที่วิดีโอดำเนินไป เธอก็ขับรถออกไปโดยหันศีรษะไปที่ถนน ซึ่งดูสมจริงกว่าเวอร์ชัน WAN 2.1 มาก แม้ว่าโมเดลโอเพนซอร์สจะจัดการกับแสงสะท้อนและแสงได้ดี แต่ผู้หญิงที่ขับมอเตอร์ไซค์กลับไม่มีการเคลื่อนไหวมากนัก