Google เพิ่งเปิดตัวโมเดลสร้างวิดีโอตัวล่าสุด คือ Veo 3.1 ซึ่งสร้างต่อยอดจาก Veo 3 ตัวดั้งเดิม
Veo 3.1 ไม่เพียงแต่ให้การปฏิบัติตามคำสั่งที่ปรับปรุงให้ดีขึ้น ทำให้วิสัยทัศน์ของคุณเป็นจริงได้อย่างแม่นยำยิ่งขึ้น แต่ยังให้ผลลัพธ์เสียงต้นฉบับที่สมบูรณ์ยิ่งขึ้น ผสานเสียงและการเคลื่อนไหวเข้าด้วยกันอย่างเป็นธรรมชาติยิ่งกว่าที่เคย
นอกจากนี้ยังได้เปิดตัวฟีเจอร์หลักใหม่สามอย่าง ได้แก่:
- ส่วนผสมสู่ วิดีโอ (Ingredients to Video): สร้างวิดีโอเต็มรูปแบบจากรูปภาพอ้างอิง กำหนดตัวละครและสไตล์ฉาก
- เฟรมสู่ วิดีโอ (Frames to Video): สร้างการเปลี่ยนภาพที่ราบรื่นและเป็นธรรมชาติ โดยการระบุเฟรมแรกและเฟรมสุดท้ายของช็อต
- ขยาย วิดีโอ (Extend Video): เปลี่ยนคลิปสั้นให้เป็นวิดีโอยาวขึ้น โดยการขยายการกระทำออกไปนานหนึ่งนาทีหรือมากกว่านั้น
เครื่องมือลบด้วยคลิกเดียวก็กำลังจะมาถึง ซึ่งจะลบวัตถุที่ไม่ต้องการและสร้างพื้นหลังขึ้นมาใหม่เพื่อความสมบูรณ์แบบ
Veo 3.1 ของ Google เปิดใช้งานแล้วบน เครื่องมือสร้างวิดีโอ Pollo AI ซึ่งมอบความสามารถในการสร้างวิดีโอที่ได้รับการปรับปรุงให้กับครีเอเตอร์
ฉันได้ทำการทดสอบหลายครั้งโดยเน้นที่การอัปเกรดที่สำคัญสี่ประการ ได้แก่ ผลลัพธ์เสียงต้นฉบับที่ปรับปรุงแล้ว ส่วนผสมสู่ วิดีโอ และ เฟรมสู่ วิดีโอ นี่คือสิ่งที่ฉันค้นพบ — สปอยล์: Veo 3.1 คือตัวเปลี่ยนเกม
นำ Veo 3.1 มาทดสอบ
- การสร้างเสียงต้นฉบับ
คำสั่ง: "ภาพระยะใกล้ของกระทะเหล็กหล่อที่กำลังร้อนจัดในครัวร้านอาหารที่พลุกพล่าน เชฟกำลังพลิกสเต็ก และคุณจะได้ยินเสียงพูดคุยของพ่อครัวคนอื่นๆ และเสียงหม้อและกระทะกระทบกันในพื้นหลัง"
ผลลัพธ์: ผลลัพธ์น่าประทับใจ เสียงหลัก—เสียงเนื้อสเต็กที่กำลังไหม้และดังเปรี๊ยะ—มีความคมชัดและอยู่ด้านหน้า แต่ถึงแม้จะถูกระบุไว้อย่างชัดเจนในคำสั่ง เสียง "พูดคุยของพ่อครัวคนอื่นๆ" ก็ขาดหายไป ทำให้พื้นหลังรู้สึกไม่ "พลุกพล่าน" เท่าที่คาดหวัง ขาดองค์ประกอบของมนุษย์ที่สำคัญที่จะทำให้เสียงมีความสมบูรณ์และมีหลายชั้นอย่างแท้จริง
- เฟรมสู่ วิดีโอ
คำสั่ง: ใช้เฟรมแรกและเฟรมสุดท้ายเป็นตัวคั่น สร้างวิดีโอเปลี่ยนภาพที่ราบรื่น 10 วินาที โดยมีคู่รักคู่หนึ่งเดินเข้าไปในคาเฟ่ นั่งลง สั่งกาแฟ และเริ่มพูดคุยกันอย่างมีชีวิตชีวาขณะที่กลางคืนกำลังคืบคลานเข้ามา
| ภาพเฟรมเริ่มต้นและสิ้นสุด | วิดีโอผลลัพธ์ |
![]() ![]() |
ผลลัพธ์: แม้ว่าตัวละครและฉากจะยังคงสอดคล้องกันทางสายตา และเฟรมเริ่มต้น/สิ้นสุดถูกใช้เป็นตัวคั่น วิดีโอก็ไม่สามารถสร้างการเปลี่ยนภาพที่ราบรื่นได้ การกระทำต่างๆ เช่น การสั่งซื้อดูเหมือนจะกะทันหัน (เช่น แก้วกาแฟปรากฏขึ้นทันที) และขาดความต่อเนื่องอย่างมากเข้าสู่เฟรมสุดท้าย
- ส่วนผสมสู่ วิดีโอ
คำสั่ง: พ่อมดมีเคราในชุดคลุมสีม่วงในห้องสมุดหินที่สว่างไสวด้วยแสงเทียนกำลังอ่านหนังสือโบราณ ทันใดนั้นก็เงยหน้าขึ้นด้วยความประหลาดใจ จากนั้นก็ร่ายคาถาทำให้หนังสือลอยอยู่รอบตัวเขา
| รูปภาพอ้างอิง | วิดีโอผลลัพธ์ |
![]() ![]() |
ผลลัพธ์: แม้ว่าฉากโดยรวมและบรรยากาศจะถูกรักษาไว้อย่างดีเยี่ยม—ด้วยห้องสมุดหินที่สว่างไสวด้วยแสงเทียนอย่างมีรายละเอียดและแสงบรรยากาศ—ลักษณะของพ่อมดก็ไม่ตรงกับภาพอ้างอิงอย่างสมบูรณ์
ลักษณะใบหน้าและสไตล์เคราของเขาแตกต่างกันอย่างเห็นได้ชัด บ่งชี้ถึงความแม่นยำที่จำกัดในการถ่ายทอดตัวละคร
แม้จะมีความไม่ตรงกันในตอนแรก โมเดลก็แสดงให้เห็นถึงความสอดคล้องของเวลาและฉากที่ดีเยี่ยม สร้างลำดับภาพที่เหมือนภาพยนตร์และดื่มด่ำ ซึ่งสอดคล้องกับการกระทำที่อธิบายไว้อย่างดี
บทสรุปสุดท้าย
Veo 3.1 แสดงให้เห็นถึงความสามารถที่แข็งแกร่งในการเรนเดอร์ตัวละครและฉากที่สอดคล้องกัน รักษาความสมบูรณ์ของภาพผ่านเฟรมและตัวคั่นที่ระบุไว้สำเร็จ
มันทำงานได้ดีกับแอ็คชั่นและวัตถุหลัก และสามารถสร้างเอฟเฟกต์เสียงหลักที่ชัดเจน อย่างไรก็ตาม โมเดลแสดงจุดอ่อนที่สำคัญในการสร้างเนื้อหาวิดีโอแบบไดนามิกและละเอียดอ่อน มันประสบปัญหาเกี่ยวกับ:
- การเปลี่ยนภาพที่ราบรื่นและความต่อเนื่อง: การกระทำที่ซับซ้อนหลายขั้นตอนมักจะดูเหมือนกะทันหัน (เช่น วัตถุปรากฏขึ้นทันที) และการเปลี่ยนภาพขาดความต่อเนื่อง นำไปสู่ลำดับที่ขาดตอน โดยเฉพาะอย่างยิ่งเมื่อเข้าสู่เฟรมสุดท้าย
- การแสดงอารมณ์ที่ละเอียดอ่อน: การแสดงออกของตัวละครและโทนเสียงอาจไม่สอดคล้องกันหรือขาดความลึกทางอารมณ์ที่ระบุ (เช่น การมอง "ประหลาดใจ" ดูธรรมดา หรือคู่รัก "หัวเราะ" ขาดความเคลื่อนไหว)
- การเคลื่อนไหวของวัตถุที่ซับซ้อน: การโต้ตอบที่เกี่ยวข้องกับวัตถุหลายชิ้น (เช่น หนังสือที่ลอยได้) อาจดูแข็งทื่อ เป็นกลไก หรือมีวัตถุปรากฏขึ้นมาทันที แทนที่จะเคลื่อนไหวอย่างเป็นธรรมชาติ
- เสียงที่ซ้อนกัน: แม้ว่าเสียงหลักจะดี แต่การสร้างองค์ประกอบเสียงรองหรือเสียงพื้นหลังที่แตกต่างกัน แม้จะระบุไว้ในคำสั่งอย่างชัดเจน ก็ยังคงเป็นความท้าทาย ส่งผลกระทบต่อความสมบูรณ์ของภาพเสียง
ทำไมต้องใช้ Veo 3.1 บน Pollo AI?
Pollo AI รวบรวมสิ่งที่ดีที่สุดในการสร้างวิดีโอ AI—ทั้งหมดไว้ในที่เดียว ลองนึกภาพว่าเป็นศูนย์ควบคุมความคิดสร้างสรรค์ของคุณ ที่ซึ่งพลังพบกับความยืดหยุ่น
คุณไม่ได้ถูกจำกัดอยู่เพียงโหมดเดียวเช่น Veo 3.1l บน Pollo AI คุณสามารถสลับระหว่างเอ็นจิ้นชั้นนำ เช่น Sora 2, Veo 3, Kling 2.5 Turbo, Wan 2.5, Seedance และอื่นๆ—ได้ตลอดเวลา
นั่นหมายความว่าหากคุณชอบความสมจริงและความลึกในการเล่าเรื่องของ Veo 3.1 (ซึ่งน่าทึ่งมาก) คุณสามารถใช้งานได้ตรงตามที่เหมาะสม—จากนั้นสลับไปใช้โมเดลอื่นเพื่อความเร็ว สไตล์ หรือรายละเอียด ไม่มีขีดจำกัด ไม่มีการประนีประนอม
นอกจากนี้ ยังมีฟีเจอร์การสร้างวิดีโอ AI ที่สำคัญทั้งหมด:
- ทำให้รูปภาพมีชีวิตชีวาด้วย AI แปลงรูปภาพเป็นวิดีโอของเรา
- เปลี่ยนสคริปต์ให้เป็นภาพที่น่าทึ่งด้วย AI แปลงข้อความเป็นวิดีโอ
- สร้างคลิปที่น่าสนใจด้วย AI สร้างวิดีโออวาตาร์
- สร้างคลิปที่ผ่อนคลาย วิดีโอสัตว์ หรือสไตล์อนิเมะด้วย AI สร้างวิดีโอสั้น
- เลียนแบบการเคลื่อนไหวใดๆ ของวิดีโออ้างอิงด้วย Pollo Mimic
สัมผัสประสบการณ์ Pollo AI วันนี้ และปลดล็อกศักยภาพสูงสุดของการสร้างวิดีโอที่ขับเคลื่อนด้วย AI



