หลังจากที่ได้สำรวจเครื่องมือวิดีโอ AI มามากมาย มีเพียงไม่กี่ตัวที่ทำให้ผมประทับใจได้เท่า Gemini Omni หรือที่รู้จักกันในชื่อ Veo 4 นี่ไม่ใช่แค่การอัปเดตเล็กน้อย แต่เป็นการก้าวกระโดดสู่วิดีโอระดับโปรดักชันที่พร้อมใช้งาน ด้วยความละเอียด 4K เสียงที่ออกแบบมาอย่างตั้งใจ และความสอดคล้องของฉากที่น่าทึ่ง
ตั้งแต่คลิปที่ยาวขึ้นไปจนถึงการควบคุมหลายมุมกล้อง Gemini Omni นำเสนอฟีเจอร์ระดับมืออาชีพที่ครีเอเตอร์ต้องการ อ่านรีวิวการใช้งานจริงฉบับเต็มของผมเกี่ยวกับการอัปเกรดที่ปฏิวัติวงการเหล่านี้ และเรียนรู้วิธีที่คุณจะได้สัมผัสกับ Gemini Omni ด้วยตัวเองผ่าน Pollo AI
ความประทับใจแรกของผมที่มีต่อ Gemini Omni (Veo 4)
ผมได้ลองใช้เครื่องมือวิดีโอ AI มามากมายในปีที่ผ่านมา และบอกตามตรงว่ามีไม่กี่ตัวที่ทำให้ผมต้องหยุดพิจารณา Gemini Omni (Veo 4) คือหนึ่งในไม่กี่ตัวนั้น
จากทุกสิ่งที่ผมได้เห็นมา Gemini Omni ให้ความรู้สึกเหมือนเป็นก้าวสำคัญสู่วิดีโอ AI หลายรูปแบบในตัว มากกว่าที่จะเป็นการอัปเกรดเล็กน้อย สิ่งที่โดดเด่นสำหรับผมไม่ใช่แค่ภาพที่ดีขึ้น แต่เป็นวิธีที่มันรวมการสร้าง การแก้ไขผ่านการแชท การรีมิกซ์ และความเข้าใจในบริบทเข้ามาไว้ในเวิร์กโฟลว์เดียว
นั่นคือสิ่งที่ทำให้มันมีค่าสำหรับครีเอเตอร์ Gemini Omni ไม่ได้เน้นที่ผลลัพธ์เพียงครั้งเดียว แต่เน้นที่การแก้ไขที่ทำให้วิดีโอใช้งานได้จริง เช่น การให้ข้อมูลอ้างอิง การขอให้เปลี่ยนแปลง การเก็บรักษาสิ่งที่ดีไว้ และการปรับปรุงผลลัพธ์ผ่านการสนทนา สำหรับนักการตลาด ผู้สร้างภาพยนตร์ และคอนเทนต์ครีเอเตอร์ สิ่งนี้อาจทำให้วิดีโอ AI รู้สึกใกล้เคียงกับการผลิตจริงมากขึ้น
ดูเหมือนว่า Google กำลังพยายามผลักดันวิดีโอ AI ให้ก้าวข้ามคลิปทดลองสั้นๆ ไปสู่สิ่งที่ใช้งานได้จริงสำหรับโปรเจกต์ต่างๆ มากขึ้น
แน่นอนว่าความคาดหวังนั้นสูง และไม่ใช่ทุกคำมั่นสัญญาที่จะมีความสำคัญเท่ากันในทางปฏิบัติ เครื่องมือวิดีโอ AI มักจะดูน่าตื่นเต้นบนกระดาษ แต่กลับรู้สึกน่าประทับใจน้อยลงเมื่อคุณเริ่มสร้างมันขึ้นมาจริงๆ ถึงกระนั้น Gemini Omni ก็มีการอัปเกรดที่ทะเยอทะยานมากพอที่จะได้รับความสนใจ ในรีวิวนี้ ผมจะมาดูให้ละเอียดยิ่งขึ้นว่าอะไรที่ทำให้มันดูมีอนาคต และส่วนไหนที่มันยังต้องพิสูจน์ตัวเอง
เพื่อประหยัดเวลาของคุณ ผมขอนำเสนอภาพรวมเพื่อแสดงความแตกต่างระหว่าง Veo 3 และ Gemini Omni (Veo 4)
| ฟีเจอร์ | Veo 3 | Gemini Omni (Veo 4) |
| ความยาววิดีโอ | คลิปสั้นๆ โดยทั่วไปประมาณ 8 วินาที | คลิปที่ยาวขึ้น คาดว่าจะอยู่ที่ประมาณ 15-30 วินาที พร้อมจังหวะที่ลื่นไหลและการเปลี่ยนฉากที่เป็นธรรมชาติยิ่งขึ้น |
| ความสอดคล้องของฉาก | ความสอดคล้องระหว่างเฟรมมีจำกัด | ความสอดคล้องเชิงเวลาที่ดียิ่งขึ้นตลอดทั้งฉาก การคงอยู่ของวัตถุที่ดีขึ้น และปฏิสัมพันธ์ระหว่างตัวละครหลายตัวที่เสถียรยิ่งขึ้น |
| การควบคุมกล้อง | การเคลื่อนไหวของกล้องพื้นฐานตาม Prompt | การควบคุมเลนส์ การเคลื่อนไหว การจัดเฟรม และจังหวะที่แม่นยำยิ่งขึ้น |
| ความเข้าใจใน Prompt | เหมาะสำหรับ Prompt ง่ายๆ | การตีความคำสั่งเชิงภาพยนตร์ที่ซับซ้อนในระดับสูง พร้อมการปฏิบัติตามคำสั่งที่น่าเชื่อถือยิ่งขึ้น |
| ฉากหลายมุมกล้อง | ไม่รองรับ | รองรับมุมกล้องหลายมุมต่อฉากจาก Prompt เดียว |
| ดิจิทัลฮิวแมนส่วนบุคคล | ไม่มีให้บริการ | ดิจิทัลฮิวแมนส่วนบุคคลพร้อมการซิงค์เสียง การแสดงออกทางใบหน้าที่แม่นยำ และการเคลื่อนไหวของริมฝีปากที่ซิงค์กัน |
| เวิร์กโฟลว์การแก้ไข | สร้างคลิปใหม่ทั้งหมดเพื่อการเปลี่ยนแปลง | การแก้ไขแบบโต้ตอบระหว่างการสร้าง ทำให้สามารถปรับเปลี่ยนได้ในระหว่างกระบวนการ |
| กรณีการใช้งานหลัก | สร้างวิดีโอทดลองสั้นๆ | เวิร์กโฟลว์การสร้างวิดีโอที่พร้อมใช้งานในระดับโปรดักชัน |
| ความละเอียด | ผลลัพธ์สูงสุด 1080p | ผลลัพธ์สูงสุด 4K |
| เสียง | วิดีโอไม่มีเสียงหรือเสียงพื้นฐาน (สำหรับการอ้างอิงจังหวะ) | เสียงคุณภาพสูงที่ออกแบบมาอย่างตั้งใจ พร้อมคำพูดที่แสดงอารมณ์ได้ดีขึ้น จังหวะที่ดีขึ้น บรรยากาศที่สมบูรณ์ยิ่งขึ้น และการออกแบบเสียงที่สอดคล้องกัน |
| ความแม่นยำหลายภาษา | พื้นฐาน | ข้อความบนหน้าจอ ป้าย การเรนเดอร์ UI ที่แม่นยำยิ่งขึ้น และลิปซิงค์ที่คมชัดขึ้นในภาษาต่างๆ |
อะไรที่ทำให้ Gemini Omni โดดเด่น
- การแก้ไขผ่านการแชทที่รับรู้บริบท: Gemini Omni ให้ความรู้สึกเหมือนเป็นช่วงเวลาแห่ง Nano Banana สำหรับวิดีโอ AI ช่วยให้ผู้ใช้สามารถแก้ไขคลิปผ่านการสนทนา พร้อมทั้งเข้าใจว่าสิ่งใดควรเปลี่ยนแปลง สิ่งใดควรคงไว้ และฉากควรดำเนินต่อไปอย่างไร
- เวิร์กโฟลว์วิดีโอหลายรูปแบบในตัว: Gemini Omni นำการสร้างวิดีโอ การแก้ไข การรีมิกซ์ และการสร้างโดยอ้างอิงมารวมไว้ในเวิร์กโฟลว์เดียวของ Gemini แทนที่จะจัดการข้อความ รูปภาพ คลิป เทมเพลต และการแก้ไขเป็นโหมดแยกกัน มันกลับใช้สิ่งเหล่านี้เป็นบริบทที่เชื่อมต่อกันเพื่อสร้างวิดีโอสุดท้าย
- การควบคุมข้อความและสูตรที่คมชัดขึ้น: Gemini Omni สามารถรักษารายละเอียดที่เป็นลายลักษณ์อักษร สูตร การเคลื่อนไหว และความหมายให้สอดคล้องกันมากขึ้นภายในวิดีโอ ทำให้มีประโยชน์สำหรับวิดีโอสอน วิดีโออธิบายเนื้อหา เนื้อหาเพื่อการศึกษา และฉากอื่นๆ ที่เน้นความรู้
- การสร้างและการแก้ไขกลายเป็นหนึ่งเดียว: Gemini Omni ชี้ให้เห็นว่าในอนาคตวิดีโอ AI จะไม่ถูกแบ่งอย่างชัดเจนระหว่างการแปลงข้อความ/รูปภาพ/ข้อมูลอ้างอิงเป็นวิดีโอ และการตัดต่อวิดีโออีกต่อไป เมื่อโมเดลสามารถเข้าใจการอ้างอิงและแก้ไขผลลัพธ์ผ่าน Prompt ได้แล้ว การสร้างและการแก้ไขก็จะเริ่มกลายเป็นเวิร์กโฟลว์เดียวกัน
ประสบการณ์ของผมกับ Gemini Omni
การสร้างวิดีโอหลายรูปแบบในตัว
Gemini Omni ถูกสร้างขึ้นเพื่อให้มีวิธีเริ่มต้นวิดีโอที่ยืดหยุ่นยิ่งขึ้น ผู้ใช้สามารถนำเข้า Prompt, รูปภาพ, คลิป, เสียง หรือเทมเพลต และโมเดลสามารถจัดการองค์ประกอบเหล่านี้เป็นเหมือนบทสรุปเชิงสร้างสรรค์ที่เชื่อมต่อกันเป็นหนึ่งเดียว
นี่คือเหตุผลที่การแบ่งแยกระหว่างการแปลงข้อความ-เป็น-วิดีโอ และการแปลงรูปภาพ-เป็น-วิดีโอแบบเดิมๆ ดูมีความสำคัญน้อยลงที่นี่ Gemini Omni ทำงานเหมือนโมเดลวิดีโอที่ขับเคลื่อนด้วยการอ้างอิงมากกว่า โดยที่อินพุตต่างๆ ช่วยกำหนดทิศทางสุดท้ายที่เหมือนกัน
| Prompt | วิดีโออินพุต | วิดีโอเอาต์พุต |
| โฆษณาสกินแคร์แบบ UGC ที่เป็นธรรมชาติ นำเสนอโดยหญิงสาวผมยาวสีน้ำตาลแดง มีกระที่เห็นได้ชัด และแต่งหน้าแบบมินิมอล เธอถือกระปุกครีมทาหน้าสีเขียวไว้ใกล้กล้อง ทาครีมบนใบหน้า และแสดงให้เห็นการเปลี่ยนแปลงของผิวก่อนและหลังอย่างชัดเจน จากผิวเปลือยที่มีริ้วรอยไปสู่ผิวที่เรียบเนียน นุ่มนวล และเปล่งปลั่งขึ้น |
ยอดเยี่ยม! วิดีโอสกินแคร์นี้รักษาตัวละครให้ดูสมจริงและผลิตภัณฑ์มีความสอดคล้องทางภาพตลอดทั้งคลิป ทำให้ผลลัพธ์โดยรวมรู้สึกประณีตและน่าดึงดูดใจมากยิ่งขึ้น
การแก้ไขวิดีโอผ่านการแชท
การแก้ไขเชิงสนทนาเป็นจุดที่ Gemini Omni เริ่มให้ความรู้สึกว่าใช้งานได้จริง ผู้ใช้ไม่จำเป็นต้องสร้างคลิปใหม่หรือทำงานผ่านไทม์ไลน์ พวกเขาสามารถบอกโมเดลได้เลยว่าต้องการเปลี่ยนแปลงอะไร
มันเปลี่ยนการตัดต่อวิดีโอให้เป็นการแลกเปลี่ยนผ่าน Prompt ในแง่นี้ Gemini Omni นำประสบการณ์การแก้ไขสไตล์ Nano Banana มาสู่ภาพเคลื่อนไหว
| Prompt | วิดีโออินพุต | วิดีโอเอาต์พุต |
| ลบโลโก้ของ Sora2 ออกจากคลิปวิดีโอนี้ | ![]() | ![]() |
ความสอดคล้องของข้อความและสูตรที่ดียิ่งขึ้น
Gemini Omni โดดเด่นในฉากที่ข้อมูลที่เป็นลายลักษณ์อักษรต้องอ่านได้ง่ายและมีความหมายอยู่เสมอ นั่นคือบททดสอบที่ยากสำหรับวิดีโอ AI เพราะข้อความจะต้องคงที่ในขณะที่ฉากยังคงเคลื่อนไหวต่อไป
สำหรับวิดีโอสอน วิดีโออธิบายเนื้อหา บทเรียน และวิดีโอที่เน้นความรู้อื่นๆ สิ่งนี้มีความสำคัญมาก โมเดลไม่เพียงแต่ต้องจัดการรูปลักษณ์ของข้อความเท่านั้น แต่ยังรวมถึงจังหวะ โครงสร้าง และความหมายภายในฉากด้วย
| Prompt | วิดีโอเอาต์พุต |
| ศาสตราจารย์คนหนึ่งกำลังเขียนบทพิสูจน์ทางคณิตศาสตร์สำหรับเอกลักษณ์ตรีโกณมิติบนกระดานดำแบบดั้งเดิม พร้อมอธิบายขั้นตอนที่เขากำลังทำอยู่ในสมการ |
ผมทึ่งกับวิดีโอของ Gemini Omni นี้อย่างแท้จริง นอกจากการรักษาความแม่นยำของข้อความบนหน้าจอแล้ว มันยังรักษาความถูกต้องของสูตรคณิตศาสตร์ที่ซับซ้อนตลอดทั้งฉาก ทำให้ผลลัพธ์ทั้งหมดดูน่าเชื่อถือและน่าประทับใจในทางเทคนิคอย่างมาก
การแก้ไขระดับวัตถุและฉาก
Gemini Omni มีประโยชน์เมื่อวิดีโอต้องการการเปลี่ยนแปลงเพียงบางจุดเท่านั้น แทนที่จะสร้างคลิปใหม่ตั้งแต่ต้น ผู้ใช้สามารถปรับวัตถุ รายละเอียด หรือส่วนใดส่วนหนึ่งของฉากได้โดยเฉพาะ
สิ่งนี้มีความสำคัญในการผลิตจริง เพราะการแก้ไขเล็กๆ น้อยๆ มักจะเป็นตัวตัดสินว่าวิดีโอนั้นใช้งานได้หรือไม่ การคงช็อตดั้งเดิมไว้ในขณะที่เปลี่ยนแปลงเฉพาะสิ่งที่จำเป็นต้องเปลี่ยน ทำให้กระบวนการแก้ไขใช้งานได้จริงมากขึ้น
| Prompt | วิดีโออินพุต | วิดีโอเอาต์พุต |
Gemini Omni ทำให้ผมประหลาดใจจริงๆ มันแทนที่เฉพาะอาหารได้อย่างเป็นธรรมชาติมาก ในขณะที่ยังคงความสมจริงของจานอาหารไว้ และปล่อยให้การเคลื่อนไหวของบุคคลและฉากทั้งหมดยังคงเดิม
การรีมิกซ์วิดีโอ
การรีมิกซ์ทำให้ Gemini Omni มีประโยชน์หลังจากร่างแรกเสร็จสิ้น
แทนที่จะเริ่มต้นจากศูนย์ ผู้ใช้สามารถนำคลิปที่มีอยู่มาเปลี่ยนเป็นเวอร์ชันใหม่ได้โดยที่ยังคงรักษาโครงสร้าง การเคลื่อนไหว หรือทิศทางเชิงสร้างสรรค์ไว้ ซึ่งใกล้เคียงกับวิธีการทำงานของครีเอเตอร์ตัวจริง
| วิดีโออินพุต | Prompt | วิดีโอเอาต์พุต |
| รวมคลิป "เด็กผู้หญิงเดินริมทะเล" เข้ากับคลิปผลิตภัณฑ์เพื่อสร้างโฆษณาสไตล์ TVC เชิงภาพยนตร์ ผสมผสานช็อตความงามแบบไลฟ์สไตล์เข้ากับภาพผลิตภัณฑ์ที่สวยงามเพื่อนำเสนอโฆษณาสกินแคร์ที่หรูหราและสง่างาม |
การสร้างสรรค์โดยอาศัยความรู้รอบโลก
คุณค่าของ Gemini Omni ยังมาจากการที่มันสามารถเข้าใจบริบทเบื้องหลังฉากได้ ไม่เพียงแต่พยายามทำให้วิดีโอออกมาดูสวยงามเท่านั้น แต่ยังต้องรู้ด้วยว่าฉากนั้นเกี่ยวกับอะไร
ความเข้าใจประเภทนั้นมีประโยชน์อย่างยิ่งสำหรับหัวข้อทางประวัติศาสตร์ เนื้อหาเพื่อการศึกษา คำอธิบายผลิตภัณฑ์ และวิดีโอที่ขับเคลื่อนด้วยเรื่องราว ซึ่งรายละเอียดต่างๆ จำเป็นต้องมีความสมเหตุสมผลและดูดีไปพร้อมกัน
| Prompt | วิดีโอเอาต์พุต |
ลองใช้ Gemini Omni บน Pollo AI
Pollo AI รวบรวมเครื่องมือสร้างวิดีโอ AI ชั้นนำไว้ในที่เดียว มอบศูนย์กลางความคิดสร้างสรรค์ที่ซึ่งความยืดหยุ่นและประสิทธิภาพมาบรรจบกัน
ด้วยการผสานรวม Gemini Omni ทำให้ Pollo AI มีความสามารถมากยิ่งขึ้น สำรวจความสามารถอันทรงพลังของ Gemini Omni ที่นั่นและเปรียบเทียบผลลัพธ์ด้วยตัวคุณเอง
นอกเหนือจากโมเดลต่างๆ แล้ว Pollo AI ยังมีเครื่องมือ AI ที่หลากหลายให้คุณอีกด้วย เครื่องมือเหล่านี้สามารถลดงานที่ซ้ำซ้อน จุดประกายความคิดใหม่ๆ เมื่อคุณรู้สึกติดขัด และทำให้การสร้างสรรค์ขั้นสูงเข้าถึงได้ง่ายขึ้นแม้ว่าคุณจะไม่ใช่ผู้เชี่ยวชาญก็ตาม
- AI Motion Control: สร้างแอนิเมชันให้ภาพตัวละครนิ่งๆ ด้วยการเคลื่อนไหวที่สมจริงจากวิดีโอจริง
- AI Video Filters: เปลี่ยนฟุตเทจของคุณด้วยสไตล์ภาพที่สร้างสรรค์
- AI Video Extender: ขยายความยาววิดีโอของคุณอย่างราบรื่นด้วยการเคลื่อนไหวและสไตล์ที่สอดคล้องกัน

Pollo Agent เป็นอีกเหตุผลหนึ่งที่ผมแนะนำให้คุณใช้แพลตฟอร์มนี้ ในฐานะผู้ช่วยสร้างสรรค์ AI มันสามารถเข้าใจเป้าหมายของคุณและแนะนำเวิร์กโฟลว์ของคุณได้ ดังนั้นกระบวนการสร้างของคุณจะราบรื่นขึ้นโดยไม่ต้องจัดการกับ Prompt และการตั้งค่าที่ยุ่งยาก
คุณสามารถประหยัดเวลาได้มากขึ้นและลดการลองผิดลองถูก ไม่ว่าคุณจะสร้าง วิดีโอ UGC หรือ มิวสิกวิดีโอ

บทสรุป
หลังจากทดสอบ Gemini Omni (Veo 4) แล้ว ผมพูดได้เลยว่ามันรู้สึกเหมือนเป็นการยกระดับที่ชัดเจนจาก Veo 3
สิ่งที่โดดเด่นที่สุดสำหรับผมคือความเข้าใจในบริบทที่แข็งแกร่งขึ้น การแก้ไขผ่านการแชท การรีมิกซ์วิดีโอ และความสามารถในการรักษาความสอดคล้องของรายละเอียดที่ซับซ้อน โดยเฉพาะในฉากที่เกี่ยวข้องกับข้อความ สูตร หรือคำสั่งเฉพาะของผู้ใช้ มันไม่เพียงแต่ทำให้คลิปดูดีขึ้นเท่านั้น แต่ยังทำให้วิดีโอรู้สึกว่ากำกับและปรับปรุงได้ง่ายขึ้นด้วย
หากคุณต้องการโมเดลที่สามารถเข้าใจเจตนาของคุณ ตอบสนองต่อการเปลี่ยนแปลง และปรับปรุงผลลัพธ์ผ่านการสนทนาได้อย่างต่อเนื่อง Gemini Omni คือทิศทางที่น่าจับตามองยิ่งกว่า

