Google zaprezentował właśnie swój najnowszy model generowania wideo, Veo 3.1, zbudowany na bazie oryginalnego Veo 3.
Veo 3.1 nie tylko zapewnia lepsze przestrzeganie poleceń, dzięki czemu Twoja wizja ożywa z większą dokładnością, ale także oferuje bogatsze natywne wyjście audio, łącząc dźwięk i ruch w bardziej naturalny sposób niż dotychczas.
Wprowadzono również trzy nowe kluczowe funkcje, w tym:
- Składniki do Wideo: Generuj pełne wideo z obrazów referencyjnych, zachowując styl postaci i sceny.
- Klatki do Wideo: Twórz płynne, naturalne przejścia, podając pierwszą i ostatnią klatkę ujęcia.
- Rozszerz Wideo: Zamieniaj krótkie klipy w dłuższe filmy, rozszerzając akcję o minutę lub dłużej.
Narzędzie do usuwania jednym kliknięciem również jest w drodze, pozwalające usunąć niechciane obiekty i zrekonstruować tło, aby uzyskać czyste wykończenie.
Google Veo 3.1 jest już dostępny na generatorze wideo Pollo AI, oferując twórcom dostęp do ulepszonych możliwości generowania wideo.
Przeprowadziłem serię testów skupiając się na czterech kluczowych ulepszeniach: ulepszonym natywnym wyjściu audio, Składnikach do Wideo i Klatkach do Wideo. Oto co odkryłem — spoiler: Veo 3.1 zmienia zasady gry.
Testowanie Veo 3.1
- Generowanie Natywnego Audio
Prompt: "Zbliżenie skwierczącej patelni żeliwnej w tętniącym życiem zapleczu restauracji. Szef kuchni przewraca stek, a w tle słychać rozmowy innych kucharzy oraz odgłosy garnków i patelni."
Wynik: Rezultat był imponujący. Główny dźwięk — ostry, skwierczący dźwięk steku — był wyraźny i na pierwszym planie. Jednakże, pomimo wyraźnego żądania w poleceniu, brakowało charakterystycznego "gwaru innych kucharzy". Sprawiło to, że tło było mniej "tętniące życiem" niż oczekiwano, brakowało kluczowego ludzkiego elementu, który uczyniłby audio naprawdę bogatym i warstwowym.
- Klatki do Wideo
Prompt: Używając pierwszej i ostatniej klatki jako punktów granicznych, stwórz 10-sekundowe płynne wideo przejściowe, w którym para wchodzi do kawiarni, siada, zamawia kawę i zaczyna ożywioną rozmowę, podczas gdy zapada noc.
| Klatka początkowa i końcowa | Wideo wynikowe |
![]() ![]() |
Wynik: Chociaż postacie i scena pozostały wizualnie spójne, a klatki początkowa i końcowa zostały użyte jako punkty graniczne, wideo nie udało się stworzyć płynnego przejścia. Czynności takie jak zamawianie były gwałtowne (np. kubki z kawą pojawiały się nagle), a brakowało znaczącej ciągłości do klatki końcowej.
- Składniki do Wideo
Prompt: Brodaty czarodziej w fioletowych szatach w oświetlonej świecami kamiennej bibliotece czyta starożytny tom, nagle patrzy zaskoczony, a następnie rzuca zaklęcie, które sprawia, że książki unoszą się wokół niego
| Obrazy referencyjne | Wideo wynikowe |
![]() ![]() |
Wynik: Chociaż ogólne otoczenie i nastrój zostały doskonale zachowane — z bogato szczegółową, oświetloną świecami kamienną biblioteką i atmosferycznym oświetleniem — wygląd czarodzieja nie w pełni odpowiadał obrazowi referencyjnemu.
Jego rysy twarzy i styl brody znacznie się różniły, co sugeruje ograniczoną wierność w transferze postaci.
Pomimo początkowego niedopasowania, model wykazuje doskonałą spójność czasową i przestrzeganie sceny, dostarczając kinową i wciągającą sekwencję, która dobrze zgadza się z opisanym działaniem.
Ostateczny Werdykt
Veo 3.1 wykazuje silne zdolności w renderowaniu spójnych postaci i scen, skutecznie utrzymując integralność wizualną w klatkach i określonych punktach granicznych.
Dobrze radzi sobie z głównymi akcjami i obiektami, a także może generować wyraźne główne efekty dźwiękowe. Jednakże, model wykazuje znaczące słabości w generowaniu dynamicznych i niuansowych treści wideo. Ma problemy z:
- Płynnymi Przejściami i Ciągłością: Złożone, wieloetapowe akcje często wydają się nagłe (np. obiekty pojawiają się nagle), a przejścia brakuje ciągłości, co prowadzi do niespójnych sekwencji, szczególnie w kierunku klatek końcowych.
- Niuansami Emocjonalnymi: Wyrazy twarzy postaci i ton mogą być niespójne lub brakować im określonej głębi emocjonalnej (np. "zaskoczony" wygląd wydaje się łagodny, lub "śmiejąca się" para brakuje animacji).
- Animacją Złożonych Obiektów: Interakcje obejmujące wiele obiektów (jak unoszące się książki) mogą wydawać się sztywne, mechaniczne, lub obiekty mogą "pojawiać się znikąd" zamiast poruszać się organicznie.
- Warstwowym Dźwiękiem: Chociaż dźwięki główne są dobre, generowanie wyraźnych dźwięków wtórnych lub tła, nawet gdy są wyraźnie zasugerowane w poleceniu, pozostaje wyzwaniem, wpływając na bogactwo krajobrazu dźwiękowego.
Dlaczego Używać Veo 3.1 na Pollo AI?
Pollo AI gromadzi to, co najlepsze w generowaniu wideo AI — wszystko pod jednym dachem. Pomyśl o tym jak o swoim centrum kontroli kreatywnej, gdzie moc spotyka się z elastycznością.
Nie jesteś ograniczony tylko do jednego trybu, jak Veo 3.1. Na Pollo AI możesz przełączać się między najlepszymi silnikami, takimi jak Sora 2, Veo 3, Kling 2.5 Turbo, Wan 2.5, Seedance i inne — w dowolnym momencie.
Oznacza to, że jeśli kochasz realizm i głębię opowieści Veo 3.1 (która, nawiasem mówiąc, jest niesamowita), możesz jej używać dokładnie wtedy, gdy pasuje — a następnie przełączyć się na inny model dla szybkości, stylu lub szczegółowości. Bez ograniczeń. Bez kompromisów.
Dodatkowo, posiada wszystkie kluczowe funkcje generowania wideo AI:
- Ożyw zdjęcia dzięki naszemu AI do generowania obrazów w wideo.
- Zamień skrypty w oszałamiające wizualizacje dzięki AI do generowania tekstu w wideo.
- Twórz wciągające klipy za pomocą generatora wideo z awatarem AI.
- Twórz kojące, zwierzęce lub w stylu anime klipy za pomocą generatora krótkich wideo AI.
- Naśladuj każdy ruch z wideo referencyjnego za pomocą Pollo Mimic.
Wypróbuj Pollo AI już dziś i odblokuj pełny potencjał tworzenia wideo napędzanego przez AI.



