Google baru saja meluncurkan model generasi video terbarunya, Veo 3.1, yang dibangun di atas Veo 3 orisinal.
Veo 3.1 tidak hanya memberikan kepatuhan prompt yang lebih baik, memastikan visi Anda terwujud dengan akurasi yang lebih tinggi, tetapi juga menawarkan output audio native yang lebih kaya, menyatukan suara dan gerakan secara lebih alami dari sebelumnya.
Google juga telah memperkenalkan tiga fitur utama baru, termasuk:
- Ingredients to Video: Hasilkan video lengkap dari gambar referensi, mengunci gaya karakter dan adegan.
- Frames to Video: Buat transisi yang mulus dan alami dengan menyediakan frame pertama dan terakhir dari sebuah bidikan.
- Extend Video: Ubah klip pendek menjadi video yang lebih panjang dengan memperpanjang aksi selama satu menit atau lebih.
Alat penghapus satu klik juga akan segera hadir, yang akan menghapus objek yang tidak diinginkan dan merekonstruksi latar belakang untuk hasil akhir yang bersih.
Veo 3.1 dari Google kini tersedia di Pollo AI video generator, menawarkan kreator akses ke kemampuan generasi video yang ditingkatkan.
Saya menjalankan serangkaian pengujian yang berfokus pada empat peningkatan utama: output audio native yang ditingkatkan, Ingredients to Video, dan Frames to Video. Inilah yang saya temukan—spoiler: Veo 3.1 adalah pengubah permainan.
Menguji Veo 3.1
- Generasi Audio Native
Prompt: "Close-up wajan besi cor yang mendesis di dapur restoran yang ramai. Seorang koki membalik steak, dan Anda dapat mendengar obrolan juru masak lain serta dentang panci dan wajan di latar belakang."
Hasil: Outputnya mengesankan. Suara utama—desisan tajam dan mendesis dari steak—terdengar jelas dan berada di depan. Namun, meskipun secara eksplisit diminta dalam prompt, "obrolan juru masak lain" yang khas tidak ada. Hal ini membuat latar belakang terasa kurang "ramai" dari yang diperkirakan, kehilangan elemen manusia kunci yang akan membuat audio benar-benar kaya dan berlapis.
- Frames to Video
Prompt: Menggunakan frame pertama dan terakhir sebagai pembatas, buat video transisi mulus berdurasi 10 detik di mana sepasang kekasih memasuki kafe, duduk, memesan kopi, dan mulai mengobrol dengan bersemangat saat malam tiba.
| Gambar Frame Awal dan Akhir | Video Hasil |
![]() ![]() |
Hasil: Meskipun karakter dan adegan tetap konsisten secara visual, dan frame awal/akhir digunakan sebagai pembatas, video tersebut gagal menciptakan transisi yang mulus. Aksi seperti memesan terasa tiba-tiba (misalnya, cangkir kopi muncul tiba-tiba), dan terdapat kekurangan kontinuitas yang signifikan ke frame terakhir.
- Ingredients to Video
Prompt: Seorang penyihir berjenggot berjubah ungu di perpustakaan batu bermandikan cahaya lilin sedang membaca kitab kuno, tiba-tiba mendongak terkejut, lalu merapal mantra yang membuat buku-buku melayang di sekelilingnya.
| Gambar Referensi | Video Hasil |
![]() ![]() |
Hasil: Meskipun latar dan suasana keseluruhan terpelihara dengan baik — dengan perpustakaan batu bermandikan cahaya lilin yang kaya detail dan pencahayaan atmosferik — penampilan penyihir tidak sepenuhnya sesuai dengan gambar referensi.
Fitur wajah dan gaya jenggotnya berbeda mencolok, menunjukkan keterbatasan kesetiaan dalam transfer karakter.
Meskipun ada ketidakcocokan awal, model ini menunjukkan koherensi temporal dan kepatuhan adegan yang sangat baik, menghasilkan urutan sinematik dan imersif yang selaras dengan aksi yang dijelaskan.
Putusan Akhir
Veo 3.1 menunjukkan kemampuan yang kuat dalam merender karakter dan adegan yang konsisten, berhasil mempertahankan integritas visual di seluruh frame dan pembatas yang ditentukan.
Ia berkinerja baik dengan aksi dan objek utama, serta dapat menghasilkan efek audio primer yang jelas. Namun, model ini menunjukkan kelemahan signifikan dalam menghasilkan konten video yang dinamis dan bernuansa. Ia kesulitan dengan:
- Transisi Mulus & Kontinuitas: Aksi multi-langkah yang kompleks sering kali tampak tiba-tiba (misalnya, objek muncul tiba-tiba), dan transisi kurang kontinuitas, yang mengarah ke urutan yang terputus-putus, terutama ke frame akhir.
- Nuansa Emosional: Ekspresi karakter dan nada bisa tidak konsisten atau kurang kedalaman emosional yang ditentukan (misalnya, tatapan "terkejut" tampak ringan, atau pasangan "tertawa" kurang ekspresif).
- Animasi Objek Kompleks: Interaksi yang melibatkan banyak objek (seperti buku melayang) bisa tampak kaku, mekanis, atau objek "muncul" begitu saja daripada bergerak secara organik.
- Audio Berlapis: Meskipun suara utama baik, menghasilkan elemen audio sekunder atau latar belakang yang berbeda, bahkan ketika diminta secara eksplisit, tetap menjadi tantangan, memengaruhi kekayaan lanskap suara.
Mengapa Menggunakan Veo 3.1 di Pollo AI?
Pollo AI menyatukan yang terbaik dalam generasi video AI — semuanya di bawah satu atap. Anggap saja sebagai pusat kendali kreatif Anda, di mana kekuatan bertemu fleksibilitas.
Anda tidak terpaku pada satu mode seperti Veo 3.1l. Di Pollo AI, Anda dapat beralih antar mesin kelas atas seperti Sora 2, Veo 3, Kling 2.5 Turbo, Wan 2.5, Seedance, dan lainnya — kapan saja.
Itu berarti jika Anda menyukai realisme dan kedalaman cerita Veo 3.1 (yang, omong-omong, luar biasa), Anda dapat menggunakannya tepat saat itu sesuai — lalu beralih ke model lain untuk kecepatan, gaya, atau detail. Tanpa batas. Tanpa kompromi.
Selain itu, ia memiliki semua fitur generasi video AI utama:
- Menghidupkan foto dengan image to video AI kami.
- Mengubah skrip menjadi visual yang memukau dengan text to video AI.
- Membuat klip menarik dengan AI avatar video generator.
- Membuat klip bergaya anime, hewan, atau menenangkan dengan AI short video generator.
- Meniru gerakan apa pun dari video referensi dengan Pollo Mimic.
Rasakan Pollo AI hari ini, dan buka potensi penuh dari pembuatan video berbasis AI.



