Gemini Omni คืออะไร? คู่มือฉบับสมบูรณ์เกี่ยวกับโมเดลวิดีโอมัลติโมดอลดั้งเดิมของ Google

ปัจจุบัน การสร้างวิดีโอด้วย AI ไม่ได้เป็นเพียงแค่การทำให้คลิปดูสมจริงอีกต่อไปแล้ว คำถามที่สำคัญกว่าคือ โมเดลนั้นสามารถเข้าใจได้หรือไม่ว่าวิดีโอนั้นต้องการสื่ออะไร

นั่นคือเหตุผลที่ Gemini Omni มีความสำคัญ มันนำเสนอการสร้างวิดีโอที่น่าทึ่ง การตัดต่อผ่านการแชท และการรีมิกซ์เข้าไว้ในเวิร์กโฟลว์มัลติโมดอลแบบเนทีฟภายใน Gemini ราวกับเป็น ปรากฏการณ์ "Nano Banana" สำหรับวิดีโอ AI

ตัวอย่างที่ชัดเจนที่สุดคือศาสตราจารย์ที่เขียนสูตรบนกระดานดำ แบบจำลองนี้ต้องรักษาความสอดคล้องของข้อความ สัญลักษณ์ ลายมือ จังหวะเวลา การเคลื่อนไหว และความหมายไปพร้อมๆ กัน

Gemini Omni ชี้ให้เห็นถึงการสร้างวิดีโอที่เน้นความเข้าใจในบริบท ไม่ใช่แค่ความสมจริงทางภาพ และอาจเป็นสัญญาณบ่งบอกถึงทิศทางของ Google สำหรับ Veo 4

บทสรุปโดยย่อ (TL;DR)

Google Gemini Omni นำเสนอการสร้างวิดีโอที่น่าทึ่ง การตัดต่อแบบแชท การรีมิกซ์ และการทำความเข้าใจบริบทมาไว้ในเวิร์กโฟลว์มัลติโมดอลเดียว จุดเด่นของมันไม่ได้อยู่ที่คุณภาพของภาพเพียงอย่างเดียว แต่ยังอยู่ที่วิธีการที่มันเข้าใจว่าวิดีโอควรจะเป็นอย่างไร เหมือนกับ Nano Banana สำหรับวิดีโอ AI

จากสูตรการเขียนบนกระดานดำที่เข้าใจง่าย ไปจนถึงการตัดต่อฉากที่ประณีต และการแสดงท่าทางที่มีสไตล์ Gemini Omni ชี้ให้เห็นถึงวิธีการที่มีประสิทธิภาพมากขึ้นในการสร้าง ปรับแต่ง และพัฒนาวิดีโออย่างต่อเนื่องผ่านการสนทนา

Gemini Omni คืออะไร?

Gemini Omni คือโมเดลวิดีโอมัลติโมดอลดั้งเดิมของ Google ภายในระบบนิเวศ Gemini และอาจเป็นสัญญาณบ่งบอกถึงทิศทางที่ Google จะใช้ในการพัฒนา Veo 4 โดยจะรวมการสร้างวิดีโอ การตัดต่อ การรีมิกซ์ และการทำความเข้าใจมัลติโมดอลเข้าไว้ในเวิร์กโฟลว์เดียว

แทนที่จะทำงานเหมือนโปรแกรมสร้างวิดีโอแบบดั้งเดิม Gemini Omni จะมองข้อความ รูปภาพ คลิป เทมเพลต และการตัดต่อเป็นบริบทสร้างสรรค์ที่แตกต่างกัน คุณไม่ได้แค่ขอวิดีโอ แต่คุณกำลังบอกโมเดลว่าวิดีโอควรเป็นอย่างไร จากนั้นจึงดำเนินการต่อจากตรงนั้น

นั่นคือเหตุผลที่แนวคิด “Omni” มีความสำคัญ Gemini Omni เน้นที่ความตั้งใจมากกว่าโหมดการใช้งาน

เหตุใด Gemini Omni จึงให้ความรู้สึกแตกต่าง

Gemini Omni ให้ความรู้สึกแตกต่างออกไป เพราะไม่ได้ถูกสร้างขึ้นโดยยึดหลักการป้อนคำสั่งแบบครั้งเดียวจบ

เครื่องมือ AI สำหรับตัดต่อวิดีโอส่วนใหญ่ยังคงใช้ลูปที่ตายตัว: เขียนคำสั่ง รอ ตรวจสอบผลลัพธ์ และเริ่มต้นใหม่หากมีข้อผิดพลาด แต่ Gemini Omni สร้างลูปที่เป็นธรรมชาติมากกว่า: สร้าง ตรวจสอบ ขอให้แก้ไข เก็บส่วนที่มีประโยชน์ และปรับแต่งวิดีโอ

นั่นทำให้วิดีโอรู้สึกไม่เหมือนผลลัพธ์ที่ตายตัว แต่เหมือนเป็นสิ่งที่คุณสามารถกำกับได้เรื่อยๆ

คุณสมบัติหลักของ Gemini Omni

การสร้างวิดีโอมัลติโมดอลแบบดั้งเดิม

Gemini Omni ไม่จำกัดอยู่แค่รูปแบบการป้อนข้อมูลแบบตายตัว ข้อความแจ้งเตือน รูปภาพ คลิปวิดีโอ ไฟล์เสียง หรือแม่แบบ ล้วนสามารถช่วยชี้นำผลลัพธ์ได้

ประเด็นสำคัญกว่านั้นคือ การแปลงข้อความเป็นวิดีโอและการแปลงรูปภาพเป็นวิดีโอเริ่มดูเหมือนคำศัพท์เก่าๆ ไปแล้ว หากโมเดลเข้าใจการอ้างอิง ข้อมูลนำเข้าทุกอย่างก็จะกลายเป็นส่วนหนึ่งของคำสั่งวิดีโอเดียวกัน

ทันที	คลิปวิดีโอ	เอาต์พุต
โฆษณาผลิตภัณฑ์บำรุงผิวที่สร้างโดยผู้ใช้ (UGC) นำเสนอหญิงสาวผมยาวสีน้ำตาลแดง มีกระ ฝ้า และแต่งหน้าแบบเรียบง่าย เธอถือกระปุกครีมบำรุงผิวสีเขียวไว้ใกล้กล้อง ทาครีมลงบนใบหน้า และแสดงให้เห็นถึงการเปลี่ยนแปลงของผิวอย่างชัดเจน จากผิวที่หยาบกร้าน กลายเป็นผิวที่เรียบเนียน นุ่ม และเปล่งประกาย

การตัดต่อวิดีโอผ่านแชท

คุณสมบัติที่ใช้งานได้จริงที่สุดคือการตัดต่อแบบสนทนา แทนที่จะใช้ไทม์ไลน์หรือสร้างคลิปใหม่ ผู้ใช้เพียงแค่บรรยายถึงการเปลี่ยนแปลงเท่านั้น

นี่คือช่วงเวลาแห่งการ "ใช้คำพูดของคุณในการตัดต่อวิดีโอ" มันทำให้ Gemini Omni รู้สึกคล้ายกับ Nano Banana มากขึ้น แต่เป็นสำหรับภาพเคลื่อนไหว

ทันที	วิดีโออินพุต	วิดีโอเอาต์พุต
ลบโลโก้ของ Sora2 ในคลิปวิดีโอนี้ออก

ความสอดคล้องของข้อความและสูตรที่แข็งแกร่งยิ่งขึ้น

การสาธิตสูตรกระดานดำมีความสำคัญ เพราะการทำให้ข้อความอ่านง่ายยังคงเป็นหนึ่งในปัญหาที่ยากที่สุดของการสร้างวิดีโอด้วย AI

การที่อาจารย์เขียนสูตรตรีโกณมิติไม่ใช่แค่ฉากในห้องเรียนเท่านั้น มันเป็นการทดสอบทั้งลายมือ สัญลักษณ์ จังหวะเวลา และความหมายไปพร้อมๆ กัน ด้วยเหตุนี้ Gemini Omni จึงมีประโยชน์อย่างยิ่งสำหรับการศึกษา การสอน การอธิบาย และวิดีโอที่มีเนื้อหาความรู้เข้มข้น

ทันที

วิดีโอเอาต์พุต

ศาสตราจารย์ท่านหนึ่งเขียนบทพิสูจน์ทางคณิตศาสตร์เกี่ยวกับเอกลักษณ์ตรีโกณมิติลงบนกระดานดำแบบดั้งเดิม พร้อมอธิบายขั้นตอนที่เขากำลังดำเนินการอยู่ในสมการนั้น

การแก้ไขระดับวัตถุและฉาก

Gemini Omni รองรับการแก้ไขที่ละเอียดและควบคุมได้มากขึ้นภายในฉากวิดีโอ

เรื่องนี้สำคัญเพราะผู้สร้างมักไม่จำเป็นต้องสร้างวิดีโอใหม่ทั้งหมด พวกเขาต้องการแค่เปลี่ยนวัตถุชิ้นเดียว แก้ไขรายละเอียดเล็กน้อย หรือปรับฉากบางฉากโดยไม่ทำให้ส่วนอื่นๆ ของภาพเสียหาย

ทันที	วิดีโออินพุต	วิดีโอเอาต์พุต
เปลี่ยนสปาเก็ตตี้ในจานของทั้งสองคนเป็นซุปฟักทองครีม ส่วนอย่างอื่นให้คงเดิม

การรีมิกซ์วิดีโอ

การปรับแต่งเพิ่มเติมทำให้ Gemini Omni มีประโยชน์หลังจากร่างฉบับแรกเสร็จสิ้นแล้ว

แทนที่จะเริ่มต้นจากศูนย์ ผู้ใช้สามารถนำคลิปที่มีอยู่แล้วมาดัดแปลงเป็นเวอร์ชันใหม่ โดยคงโครงสร้าง การเคลื่อนไหว หรือทิศทางความคิดสร้างสรรค์เอาไว้ ซึ่งใกล้เคียงกับวิธีการทำงานของครีเอเตอร์ตัวจริงมากกว่า

ทันที

วิดีโออินพุต

วิดีโอเอาต์พุต

นำคลิป "หญิงสาวเดินริมทะเล" มาผสานกับคลิปผลิตภัณฑ์เพื่อสร้างโฆษณาทางทีวีสไตล์ภาพยนตร์ โดยผสมผสานภาพความงามในชีวิตประจำวันเข้ากับภาพผลิตภัณฑ์ที่ประณีต เพื่อนำเสนอโฆษณาผลิตภัณฑ์ดูแลผิวระดับพรีเมียมและหรูหรา

การสร้างสรรค์ที่ตระหนักถึงความรู้ของโลก

Gemini Omni มีความเข้าใจในด้านวิดีโอในแบบฉบับของชาวราศีเมถุน ดังนั้นคุณค่าของมันจึงมาจากการรู้ความหมายของฉาก ไม่ใช่แค่เพียงสิ่งที่ฉากนั้นปรากฏให้เห็น

สิ่งนี้มีประโยชน์สำหรับฉากประวัติศาสตร์ คำอธิบายเชิงการศึกษา การสาธิตผลิตภัณฑ์ และวิดีโอใดๆ ก็ตามที่เนื้อหาต้องมีความหมาย ไม่ใช่แค่ดูสวยงามเท่านั้น

ทันที	วิดีโอเอาต์พุต
สร้างวิดีโอเกี่ยวกับเรื่องราวชีวิตของสตีฟ จ็อบส์

Gemini Omni กับ Sora 2 กับ Veo 3

คุณสมบัติ	Gemini ออมนิ	Sora 2	Veo 3
ทิศทางหลัก	การสร้างวิดีโอโดยเน้นการสนทนา	การสร้างวิดีโอภาพยนตร์	การสร้างวิดีโอ Google ที่ได้รับการขัดเกลาอย่างดี
จุดแข็งที่สุด	การแก้ไขและรีมิกซ์ผ่านการแชท	ความสมจริง การเคลื่อนไหว และเสียง	ระบบเสียงดั้งเดิมและการควบคุมความคิดสร้างสรรค์
ขั้นตอนการทำงาน	สร้าง แก้ไข และปรับเปลี่ยนรูปร่าง	สร้างคลิปที่เสร็จสมบูรณ์	สร้างด้วยการควบคุมการผลิต
ข้อมูลนำเข้า	คำแนะนำ, ข้อมูลอ้างอิง, คลิปวิดีโอ, แม่แบบ	ข้อความและรูปภาพประกอบ	ข้อความและรูปภาพประกอบ
การจัดการข้อความ	เน้นหนักไปที่การเขียนและสูตรต่างๆ	ยังคงเป็นพื้นที่ที่ยากขึ้น	ไม่ใช่จุดสนใจหลักของสาธารณชน
ความเหมาะสมของผู้สร้าง	การแก้ไขและรีมิกซ์แบบวนซ้ำ	วิดีโอโซเชียลแบบภาพยนตร์	โฆษณา คลิป และเวิร์กโฟลว์ Google

สิ่งที่โดดเด่นสำหรับผมคือ Gemini Omni ไม่ได้เน้นที่คลิปแรกมากนัก แต่เน้นที่สิ่งที่เกิดขึ้นต่อไปมากกว่า

Sora 2 และ Veo 3 สามารถสร้างวิดีโอที่น่าประทับใจได้ แต่ Gemini Omni ให้ความรู้สึกใกล้เคียงกับวิธีการทำงานของครีเอเตอร์จริงๆ มากกว่า นั่นคือ คุณสร้างอะไรบางอย่าง สังเกตสิ่งที่ผิดพลาด ขอให้แก้ไข เก็บส่วนที่ดีไว้ และค่อยๆ ปรับปรุงวิดีโอให้ใกล้เคียงกับสิ่งที่คุณตั้งใจไว้

นั่นคือส่วนที่ฉันรู้สึกตื่นเต้นที่สุด มันทำให้วิดีโอ AI ดูเหมือนไม่ใช่เรื่องบังเอิญ แต่เป็นเหมือนการแลกเปลี่ยนความคิดสร้างสรรค์มากกว่า

Gemini Omni อาจมีความหมายอย่างไรต่อครีเอเตอร์

สำหรับผู้สร้างสรรค์งาน Gemini Omni ไม่ได้มีดีแค่ความเร็วเท่านั้น แต่ยังช่วยลดความยุ่งยากในการแก้ไขงานอีกด้วย

สำหรับนักการตลาด : การทดสอบฉากผลิตภัณฑ์ แนวคิดโฆษณา และรูปแบบแคมเปญต่างๆ ทำได้ง่ายขึ้นโดยไม่ต้องสร้างคลิปใหม่ทั้งหมด
สำหรับผู้สร้างคอนเทนต์บนโซเชียลมีเดีย : สามารถนำคลิปที่มีอยู่แล้วมาดัดแปลงเป็นสไตล์ รูปแบบ หรือไอเดียใหม่ๆ ได้ง่ายๆ ด้วยคำแนะนำเพียงขั้นตอนเดียว
สำหรับนักการศึกษา : วิดีโอ สูตร แผนภาพ และคลิปบทเรียนในรูปแบบกระดานดำจะใช้งานได้จริงมากขึ้น เพราะข้อความยังคงอ่านง่าย
สำหรับทีมพัฒนาผลิตภัณฑ์ : วิดีโอสาธิตและแบบจำลองแนวคิดสามารถปรับเปลี่ยนได้รวดเร็วยิ่งขึ้นเมื่อผลิตภัณฑ์ พื้นหลัง หรือกรณีการใช้งานเปลี่ยนแปลงไป
สำหรับผู้สร้างแอนิเมชั่น : การเคลื่อนไหวที่มีสไตล์ การกระทำแบบอนิเมะ และภาพที่เน้นตัวละคร จะกำกับได้ง่ายขึ้นผ่านคำแนะนำและการตัดต่อเพิ่มเติม
สำหรับเอเจนซี่ : การแก้ไขงานของลูกค้าให้ความรู้สึกเหมือนเป็นการสนทนาเชิงสร้างสรรค์ที่ได้รับการชี้นำมากกว่าการเริ่มต้นใหม่ทั้งหมด

ข้อจำกัดที่เป็นไปได้และคำถามที่ยังเปิดอยู่

Gemini Omni ยังคงมีคำถามเกี่ยวกับตัวผลิตภัณฑ์อยู่บ้าง

ขั้นตอนการทำงานโดยละเอียดอาจดูแปลกใหม่สำหรับผู้ใช้ที่คุ้นเคยกับการใช้เครื่องมือแยกต่างหากสำหรับการสร้าง การแก้ไข และการรีมิกซ์ การออกแบบเทมเพลต ประวัติการแก้ไข การควบคุมเวอร์ชัน และการจัดระเบียบโปรเจ็กต์ก็มีความสำคัญเช่นกัน หากผู้สร้างใช้มันสำหรับการผลิตงานอย่างจริงจัง

นอกจากนี้ยังมีคำถามเชิงปฏิบัติเกี่ยวกับการที่ผู้ใช้จะเลือกส่วนผสมของอินพุตที่เหมาะสมได้อย่างไร คำแนะนำง่ายๆ อาจเพียงพอสำหรับวิดีโอบางประเภท ในขณะที่ผลลัพธ์ที่ต้องการการควบคุมมากขึ้นอาจต้องการข้อมูลอ้างอิงที่ชัดเจนยิ่งขึ้น คำแนะนำด้านสไตล์ที่ชัดเจน หรือคำแนะนำเพิ่มเติม

นี่ไม่ใช่ปัญหาใหญ่ที่จะทำให้ข้อตกลงล้มเหลว แต่เป็นคำถามที่เกิดขึ้นตามธรรมชาติเกี่ยวกับโมเดลที่เปลี่ยนแปลงวิธีการจัดการการสร้างวิดีโอ

สร้างเนื้อหาที่สมบูรณ์แบบด้วย Pollo Agent

Gemini Omni ชี้ให้เห็นถึงอนาคตของการสนทนาที่มากขึ้นสำหรับวิดีโอ AI แต่ผู้ทำการตลาดมักต้องการมากกว่าแค่โมเดลที่แข็งแกร่ง พวกเขาต้องการวิดีโอที่สมบูรณ์แบบที่มีฉาก จังหวะ โครงสร้าง และข้อความที่ชัดเจน นั่นคือจุดที่ Pollo Agent เข้ามามีบทบาท

ด้วย Pollo Agent นักการตลาด ทีมแบรนด์ และผู้สร้างคอนเทนต์บนโซเชียลมีเดีย สามารถเปลี่ยนไอเดีย ข้อความ รูปภาพ URL หรือข้อมูลผลิตภัณฑ์ ให้เป็นวิดีโอพร้อมเผยแพร่ได้ในขั้นตอนเดียว

กรณีการใช้งานตามสถานการณ์จำลองทำให้สิ่งนี้ใช้งานได้จริง: เครื่องมือสร้างวิดีโอ UGC ด้วย AI สร้างโฆษณาผลิตภัณฑ์ในรูปแบบคำรับรอง เครื่องมืออธิบายวิดีโอด้วย AI ช่วยชี้แจงคุณสมบัติหรือแนวคิดที่ซับซ้อน และ เครื่องมือสร้างวิดีโอเรื่องราว เปลี่ยนบทหรือเรื่องเล่าของแบรนด์ให้เป็นวิดีโอเรื่องราวที่มีโครงสร้าง

แทนที่จะทำงานจากคลิปวิดีโอที่กระจัดกระจาย Pollo Agent ช่วยเปลี่ยนไอเดียให้กลายเป็นคอนเทนต์สำเร็จรูปที่สร้างขึ้นเพื่อบรรลุเป้าหมายทางการตลาดอย่างแท้จริง

คำตัดสินสุดท้าย

Gemini Omni มีความสำคัญเพราะมันชี้ให้เห็นถึงวิธีการสร้างวิดีโอที่เป็นธรรมชาติมากขึ้น

ไม่ต้องเลือกระหว่างการแปลงข้อความเป็นวิดีโอ รูปภาพเป็นวิดีโอ การรีมิกซ์ หรือการตัดต่อ ไม่ต้องเริ่มต้นใหม่ทุกครั้งที่ต้องการเปลี่ยนแปลง เพียงแค่ให้บริบทแก่โมเดล อธิบายว่าควรเกิดอะไรขึ้นต่อไป และปล่อยให้วิดีโอพัฒนาไปเอง

นั่นคือการเปลี่ยนแปลงครั้งใหญ่ที่อยู่เบื้องหลัง Gemini Omni: วิดีโอ AI กำลังเปลี่ยนจากการสร้างเพียงครั้งเดียวไปสู่การสร้างที่ขับเคลื่อนด้วยการสนทนา Pollo AI นำเสนอเวิร์กโฟลว์ agent วิดีโอสำหรับผู้สร้างที่ต้องการนำไอเดียไปสู่การผลิตเนื้อหาอย่างสมบูรณ์ โดยแนะนำพวกเขาตั้งแต่แนวคิดเริ่มต้นไปจนถึงวิดีโอที่มีโครงสร้างพร้อมสำหรับการเผยแพร่