ปัจจุบัน การสร้างวิดีโอด้วย AI ไม่ได้เป็นเพียงแค่การทำให้คลิปดูสมจริงอีกต่อไปแล้ว คำถามที่สำคัญกว่าคือ โมเดลนั้นสามารถเข้าใจได้หรือไม่ว่าวิดีโอนั้นต้องการสื่ออะไร
นั่นคือเหตุผลที่ Gemini Omni มีความสำคัญ มันนำเสนอการสร้างวิดีโอที่น่าทึ่ง การตัดต่อผ่านการแชท และการรีมิกซ์เข้าไว้ในเวิร์กโฟลว์มัลติโมดอลแบบเนทีฟภายใน Gemini ราวกับเป็น ปรากฏการณ์ "Nano Banana" สำหรับวิดีโอ AI
ตัวอย่างที่ชัดเจนที่สุดคือศาสตราจารย์ที่เขียนสูตรบนกระดานดำ แบบจำลองนี้ต้องรักษาความสอดคล้องของข้อความ สัญลักษณ์ ลายมือ จังหวะเวลา การเคลื่อนไหว และความหมายไปพร้อมๆ กัน
Gemini Omni ชี้ให้เห็นถึงการสร้างวิดีโอที่เน้นความเข้าใจในบริบท ไม่ใช่แค่ความสมจริงทางภาพ และอาจเป็นสัญญาณบ่งบอกถึงทิศทางของ Google สำหรับ Veo 4
บทสรุปโดยย่อ (TL;DR)
Google Gemini Omni นำเสนอการสร้างวิดีโอที่น่าทึ่ง การตัดต่อแบบแชท การรีมิกซ์ และการทำความเข้าใจบริบทมาไว้ในเวิร์กโฟลว์มัลติโมดอลเดียว จุดเด่นของมันไม่ได้อยู่ที่คุณภาพของภาพเพียงอย่างเดียว แต่ยังอยู่ที่วิธีการที่มันเข้าใจว่าวิดีโอควรจะเป็นอย่างไร เหมือนกับ Nano Banana สำหรับวิดีโอ AI
จากสูตรการเขียนบนกระดานดำที่เข้าใจง่าย ไปจนถึงการตัดต่อฉากที่ประณีต และการแสดงท่าทางที่มีสไตล์ Gemini Omni ชี้ให้เห็นถึงวิธีการที่มีประสิทธิภาพมากขึ้นในการสร้าง ปรับแต่ง และพัฒนาวิดีโออย่างต่อเนื่องผ่านการสนทนา
Gemini Omni คืออะไร?
Gemini Omni คือโมเดลวิดีโอมัลติโมดอลดั้งเดิมของ Google ภายในระบบนิเวศ Gemini และอาจเป็นสัญญาณบ่งบอกถึงทิศทางที่ Google จะใช้ในการพัฒนา Veo 4 โดยจะรวมการสร้างวิดีโอ การตัดต่อ การรีมิกซ์ และการทำความเข้าใจมัลติโมดอลเข้าไว้ในเวิร์กโฟลว์เดียว
แทนที่จะทำงานเหมือนโปรแกรมสร้างวิดีโอแบบดั้งเดิม Gemini Omni จะมองข้อความ รูปภาพ คลิป เทมเพลต และการตัดต่อเป็นบริบทสร้างสรรค์ที่แตกต่างกัน คุณไม่ได้แค่ขอวิดีโอ แต่คุณกำลังบอกโมเดลว่าวิดีโอควรเป็นอย่างไร จากนั้นจึงดำเนินการต่อจากตรงนั้น
นั่นคือเหตุผลที่แนวคิด “Omni” มีความสำคัญ Gemini Omni เน้นที่ความตั้งใจมากกว่าโหมดการใช้งาน
เหตุใด Gemini Omni จึงให้ความรู้สึกแตกต่าง
Gemini Omni ให้ความรู้สึกแตกต่างออกไป เพราะไม่ได้ถูกสร้างขึ้นโดยยึดหลักการป้อนคำสั่งแบบครั้งเดียวจบ
เครื่องมือ AI สำหรับตัดต่อวิดีโอส่วนใหญ่ยังคงใช้ลูปที่ตายตัว: เขียนคำสั่ง รอ ตรวจสอบผลลัพธ์ และเริ่มต้นใหม่หากมีข้อผิดพลาด แต่ Gemini Omni สร้างลูปที่เป็นธรรมชาติมากกว่า: สร้าง ตรวจสอบ ขอให้แก้ไข เก็บส่วนที่มีประโยชน์ และปรับแต่งวิดีโอ
นั่นทำให้วิดีโอรู้สึกไม่เหมือนผลลัพธ์ที่ตายตัว แต่เหมือนเป็นสิ่งที่คุณสามารถกำกับได้เรื่อยๆ
คุณสมบัติหลักของ Gemini Omni
การสร้างวิดีโอมัลติโมดอลแบบดั้งเดิม
Gemini Omni ไม่จำกัดอยู่แค่รูปแบบการป้อนข้อมูลแบบตายตัว ข้อความแจ้งเตือน รูปภาพ คลิปวิดีโอ ไฟล์เสียง หรือแม่แบบ ล้วนสามารถช่วยชี้นำผลลัพธ์ได้
ประเด็นสำคัญกว่านั้นคือ การแปลงข้อความเป็นวิดีโอและการแปลงรูปภาพเป็นวิดีโอเริ่มดูเหมือนคำศัพท์เก่าๆ ไปแล้ว หากโมเดลเข้าใจการอ้างอิง ข้อมูลนำเข้าทุกอย่างก็จะกลายเป็นส่วนหนึ่งของคำสั่งวิดีโอเดียวกัน
| ทันที | คลิปวิดีโอ | เอาต์พุต |
| โฆษณาผลิตภัณฑ์บำรุงผิวที่สร้างโดยผู้ใช้ (UGC) นำเสนอหญิงสาวผมยาวสีน้ำตาลแดง มีกระ ฝ้า และแต่งหน้าแบบเรียบง่าย เธอถือกระปุกครีมบำรุงผิวสีเขียวไว้ใกล้กล้อง ทาครีมลงบนใบหน้า และแสดงให้เห็นถึงการเปลี่ยนแปลงของผิวอย่างชัดเจน จากผิวที่หยาบกร้าน กลายเป็นผิวที่เรียบเนียน นุ่ม และเปล่งประกาย |
การตัดต่อวิดีโอผ่านแชท
คุณสมบัติที่ใช้งานได้จริงที่สุดคือการตัดต่อแบบสนทนา แทนที่จะใช้ไทม์ไลน์หรือสร้างคลิปใหม่ ผู้ใช้เพียงแค่บรรยายถึงการเปลี่ยนแปลงเท่านั้น
นี่คือช่วงเวลาแห่งการ "ใช้คำพูดของคุณในการตัดต่อวิดีโอ" มันทำให้ Gemini Omni รู้สึกคล้ายกับ Nano Banana มากขึ้น แต่เป็นสำหรับภาพเคลื่อนไหว
| ทันที | วิดีโออินพุต | วิดีโอเอาต์พุต |
| ลบโลโก้ของ Sora2 ในคลิปวิดีโอนี้ออก |
![]() |
![]() |
ความสอดคล้องของข้อความและสูตรที่แข็งแกร่งยิ่งขึ้น
การสาธิตสูตรกระดานดำมีความสำคัญ เพราะการทำให้ข้อความอ่านง่ายยังคงเป็นหนึ่งในปัญหาที่ยากที่สุดของการสร้างวิดีโอด้วย AI
การที่อาจารย์เขียนสูตรตรีโกณมิติไม่ใช่แค่ฉากในห้องเรียนเท่านั้น มันเป็นการทดสอบทั้งลายมือ สัญลักษณ์ จังหวะเวลา และความหมายไปพร้อมๆ กัน ด้วยเหตุนี้ Gemini Omni จึงมีประโยชน์อย่างยิ่งสำหรับการศึกษา การสอน การอธิบาย และวิดีโอที่มีเนื้อหาความรู้เข้มข้น
| ทันที | วิดีโอเอาต์พุต |
| ศาสตราจารย์ท่านหนึ่งเขียนบทพิสูจน์ทางคณิตศาสตร์เกี่ยวกับเอกลักษณ์ตรีโกณมิติลงบนกระดานดำแบบดั้งเดิม พร้อมอธิบายขั้นตอนที่เขากำลังดำเนินการอยู่ในสมการนั้น |
การแก้ไขระดับวัตถุและฉาก
Gemini Omni รองรับการแก้ไขที่ละเอียดและควบคุมได้มากขึ้นภายในฉากวิดีโอ
เรื่องนี้สำคัญเพราะผู้สร้างมักไม่จำเป็นต้องสร้างวิดีโอใหม่ทั้งหมด พวกเขาต้องการแค่เปลี่ยนวัตถุชิ้นเดียว แก้ไขรายละเอียดเล็กน้อย หรือปรับฉากบางฉากโดยไม่ทำให้ส่วนอื่นๆ ของภาพเสียหาย
| ทันที | วิดีโออินพุต | วิดีโอเอาต์พุต |
| เปลี่ยนสปาเก็ตตี้ในจานของทั้งสองคนเป็นซุปฟักทองครีม ส่วนอย่างอื่นให้คงเดิม |
การรีมิกซ์วิดีโอ
การปรับแต่งเพิ่มเติมทำให้ Gemini Omni มีประโยชน์หลังจากร่างฉบับแรกเสร็จสิ้นแล้ว
แทนที่จะเริ่มต้นจากศูนย์ ผู้ใช้สามารถนำคลิปที่มีอยู่แล้วมาดัดแปลงเป็นเวอร์ชันใหม่ โดยคงโครงสร้าง การเคลื่อนไหว หรือทิศทางความคิดสร้างสรรค์เอาไว้ ซึ่งใกล้เคียงกับวิธีการทำงานของครีเอเตอร์ตัวจริงมากกว่า
| ทันที | วิดีโออินพุต | วิดีโอเอาต์พุต |
| นำคลิป "หญิงสาวเดินริมทะเล" มาผสานกับคลิปผลิตภัณฑ์เพื่อสร้างโฆษณาทางทีวีสไตล์ภาพยนตร์ โดยผสมผสานภาพความงามในชีวิตประจำวันเข้ากับภาพผลิตภัณฑ์ที่ประณีต เพื่อนำเสนอโฆษณาผลิตภัณฑ์ดูแลผิวระดับพรีเมียมและหรูหรา |
การสร้างสรรค์ที่ตระหนักถึงความรู้ของโลก
Gemini Omni มีความเข้าใจในด้านวิดีโอในแบบฉบับของชาวราศีเมถุน ดังนั้นคุณค่าของมันจึงมาจากการรู้ความหมายของฉาก ไม่ใช่แค่เพียงสิ่งที่ฉากนั้นปรากฏให้เห็น
สิ่งนี้มีประโยชน์สำหรับฉากประวัติศาสตร์ คำอธิบายเชิงการศึกษา การสาธิตผลิตภัณฑ์ และวิดีโอใดๆ ก็ตามที่เนื้อหาต้องมีความหมาย ไม่ใช่แค่ดูสวยงามเท่านั้น
| ทันที | วิดีโอเอาต์พุต |
| สร้างวิดีโอเกี่ยวกับเรื่องราวชีวิตของสตีฟ จ็อบส์ |
Gemini Omni กับ Sora 2 กับ Veo 3
| คุณสมบัติ | Gemini ออมนิ | Sora 2 | Veo 3 |
| ทิศทางหลัก | การสร้างวิดีโอโดยเน้นการสนทนา | การสร้างวิดีโอภาพยนตร์ | การสร้างวิดีโอ Google ที่ได้รับการขัดเกลาอย่างดี |
| จุดแข็งที่สุด | การแก้ไขและรีมิกซ์ผ่านการแชท | ความสมจริง การเคลื่อนไหว และเสียง | ระบบเสียงดั้งเดิมและการควบคุมความคิดสร้างสรรค์ |
| ขั้นตอนการทำงาน | สร้าง แก้ไข และปรับเปลี่ยนรูปร่าง | สร้างคลิปที่เสร็จสมบูรณ์ | สร้างด้วยการควบคุมการผลิต |
| ข้อมูลนำเข้า | คำแนะนำ, ข้อมูลอ้างอิง, คลิปวิดีโอ, แม่แบบ | ข้อความและรูปภาพประกอบ | ข้อความและรูปภาพประกอบ |
| การจัดการข้อความ | เน้นหนักไปที่การเขียนและสูตรต่างๆ | ยังคงเป็นพื้นที่ที่ยากขึ้น | ไม่ใช่จุดสนใจหลักของสาธารณชน |
| ความเหมาะสมของผู้สร้าง | การแก้ไขและรีมิกซ์แบบวนซ้ำ | วิดีโอโซเชียลแบบภาพยนตร์ | โฆษณา คลิป และเวิร์กโฟลว์ Google |
สิ่งที่โดดเด่นสำหรับผมคือ Gemini Omni ไม่ได้เน้นที่คลิปแรกมากนัก แต่เน้นที่สิ่งที่เกิดขึ้นต่อไปมากกว่า
Sora 2 และ Veo 3 สามารถสร้างวิดีโอที่น่าประทับใจได้ แต่ Gemini Omni ให้ความรู้สึกใกล้เคียงกับวิธีการทำงานของครีเอเตอร์จริงๆ มากกว่า นั่นคือ คุณสร้างอะไรบางอย่าง สังเกตสิ่งที่ผิดพลาด ขอให้แก้ไข เก็บส่วนที่ดีไว้ และค่อยๆ ปรับปรุงวิดีโอให้ใกล้เคียงกับสิ่งที่คุณตั้งใจไว้
นั่นคือส่วนที่ฉันรู้สึกตื่นเต้นที่สุด มันทำให้วิดีโอ AI ดูเหมือนไม่ใช่เรื่องบังเอิญ แต่เป็นเหมือนการแลกเปลี่ยนความคิดสร้างสรรค์มากกว่า
Gemini Omni อาจมีความหมายอย่างไรต่อครีเอเตอร์
สำหรับผู้สร้างสรรค์งาน Gemini Omni ไม่ได้มีดีแค่ความเร็วเท่านั้น แต่ยังช่วยลดความยุ่งยากในการแก้ไขงานอีกด้วย
- สำหรับนักการตลาด : การทดสอบฉากผลิตภัณฑ์ แนวคิดโฆษณา และรูปแบบแคมเปญต่างๆ ทำได้ง่ายขึ้นโดยไม่ต้องสร้างคลิปใหม่ทั้งหมด
- สำหรับผู้สร้างคอนเทนต์บนโซเชียลมีเดีย : สามารถนำคลิปที่มีอยู่แล้วมาดัดแปลงเป็นสไตล์ รูปแบบ หรือไอเดียใหม่ๆ ได้ง่ายๆ ด้วยคำแนะนำเพียงขั้นตอนเดียว
- สำหรับนักการศึกษา : วิดีโอ สูตร แผนภาพ และคลิปบทเรียนในรูปแบบกระดานดำจะใช้งานได้จริงมากขึ้น เพราะข้อความยังคงอ่านง่าย
- สำหรับทีมพัฒนาผลิตภัณฑ์ : วิดีโอสาธิตและแบบจำลองแนวคิดสามารถปรับเปลี่ยนได้รวดเร็วยิ่งขึ้นเมื่อผลิตภัณฑ์ พื้นหลัง หรือกรณีการใช้งานเปลี่ยนแปลงไป
- สำหรับผู้สร้างแอนิเมชั่น : การเคลื่อนไหวที่มีสไตล์ การกระทำแบบอนิเมะ และภาพที่เน้นตัวละคร จะกำกับได้ง่ายขึ้นผ่านคำแนะนำและการตัดต่อเพิ่มเติม
- สำหรับเอเจนซี่ : การแก้ไขงานของลูกค้าให้ความรู้สึกเหมือนเป็นการสนทนาเชิงสร้างสรรค์ที่ได้รับการชี้นำมากกว่าการเริ่มต้นใหม่ทั้งหมด
ข้อจำกัดที่เป็นไปได้และคำถามที่ยังเปิดอยู่
Gemini Omni ยังคงมีคำถามเกี่ยวกับตัวผลิตภัณฑ์อยู่บ้าง
ขั้นตอนการทำงานโดยละเอียดอาจดูแปลกใหม่สำหรับผู้ใช้ที่คุ้นเคยกับการใช้เครื่องมือแยกต่างหากสำหรับการสร้าง การแก้ไข และการรีมิกซ์ การออกแบบเทมเพลต ประวัติการแก้ไข การควบคุมเวอร์ชัน และการจัดระเบียบโปรเจ็กต์ก็มีความสำคัญเช่นกัน หากผู้สร้างใช้มันสำหรับการผลิตงานอย่างจริงจัง
นอกจากนี้ยังมีคำถามเชิงปฏิบัติเกี่ยวกับการที่ผู้ใช้จะเลือกส่วนผสมของอินพุตที่เหมาะสมได้อย่างไร คำแนะนำง่ายๆ อาจเพียงพอสำหรับวิดีโอบางประเภท ในขณะที่ผลลัพธ์ที่ต้องการการควบคุมมากขึ้นอาจต้องการข้อมูลอ้างอิงที่ชัดเจนยิ่งขึ้น คำแนะนำด้านสไตล์ที่ชัดเจน หรือคำแนะนำเพิ่มเติม
นี่ไม่ใช่ปัญหาใหญ่ที่จะทำให้ข้อตกลงล้มเหลว แต่เป็นคำถามที่เกิดขึ้นตามธรรมชาติเกี่ยวกับโมเดลที่เปลี่ยนแปลงวิธีการจัดการการสร้างวิดีโอ
สร้างเนื้อหาที่สมบูรณ์แบบด้วย Pollo Agent
Gemini Omni ชี้ให้เห็นถึงอนาคตของการสนทนาที่มากขึ้นสำหรับวิดีโอ AI แต่ผู้ทำการตลาดมักต้องการมากกว่าแค่โมเดลที่แข็งแกร่ง พวกเขาต้องการวิดีโอที่สมบูรณ์แบบที่มีฉาก จังหวะ โครงสร้าง และข้อความที่ชัดเจน นั่นคือจุดที่ Pollo Agent เข้ามามีบทบาท
ด้วย Pollo Agent นักการตลาด ทีมแบรนด์ และผู้สร้างคอนเทนต์บนโซเชียลมีเดีย สามารถเปลี่ยนไอเดีย ข้อความ รูปภาพ URL หรือข้อมูลผลิตภัณฑ์ ให้เป็นวิดีโอพร้อมเผยแพร่ได้ในขั้นตอนเดียว
กรณีการใช้งานตามสถานการณ์จำลองทำให้สิ่งนี้ใช้งานได้จริง: เครื่องมือสร้างวิดีโอ UGC ด้วย AI สร้างโฆษณาผลิตภัณฑ์ในรูปแบบคำรับรอง เครื่องมืออธิบายวิดีโอด้วย AI ช่วยชี้แจงคุณสมบัติหรือแนวคิดที่ซับซ้อน และ เครื่องมือสร้างวิดีโอเรื่องราว เปลี่ยนบทหรือเรื่องเล่าของแบรนด์ให้เป็นวิดีโอเรื่องราวที่มีโครงสร้าง
แทนที่จะทำงานจากคลิปวิดีโอที่กระจัดกระจาย Pollo Agent ช่วยเปลี่ยนไอเดียให้กลายเป็นคอนเทนต์สำเร็จรูปที่สร้างขึ้นเพื่อบรรลุเป้าหมายทางการตลาดอย่างแท้จริง
คำตัดสินสุดท้าย
Gemini Omni มีความสำคัญเพราะมันชี้ให้เห็นถึงวิธีการสร้างวิดีโอที่เป็นธรรมชาติมากขึ้น
ไม่ต้องเลือกระหว่างการแปลงข้อความเป็นวิดีโอ รูปภาพเป็นวิดีโอ การรีมิกซ์ หรือการตัดต่อ ไม่ต้องเริ่มต้นใหม่ทุกครั้งที่ต้องการเปลี่ยนแปลง เพียงแค่ให้บริบทแก่โมเดล อธิบายว่าควรเกิดอะไรขึ้นต่อไป และปล่อยให้วิดีโอพัฒนาไปเอง
นั่นคือการเปลี่ยนแปลงครั้งใหญ่ที่อยู่เบื้องหลัง Gemini Omni: วิดีโอ AI กำลังเปลี่ยนจากการสร้างเพียงครั้งเดียวไปสู่การสร้างที่ขับเคลื่อนด้วยการสนทนา Pollo AI นำเสนอเวิร์กโฟลว์ agent วิดีโอสำหรับผู้สร้างที่ต้องการนำไอเดียไปสู่การผลิตเนื้อหาอย่างสมบูรณ์ โดยแนะนำพวกเขาตั้งแต่แนวคิดเริ่มต้นไปจนถึงวิดีโอที่มีโครงสร้างพร้อมสำหรับการเผยแพร่

