Google práve vylepšil AI generátor videí. Výsledky pôsobia až desivo realisticky
Google vylepšuje umelú inteligenciu na generovanie videí VEO a prináša verziu Veo 3.1. Pozri sa, čo dokáže.
Google pri Veo 3.1 prestal riešiť efektné ukážky a zameral sa na niečo podstatnejšie, ako z AI videa urobiť nástroj, ktorý dáva tvorcovi kontrolu. Najnovšia verzia funkcie Ingredients to Video nepôsobí ako experiment. Pôsobí ako systém, ktorý konečne chápe, že video má dĺžku, kontinuitu, zvuk a koniec, ktorý musí niekam viesť.
Základný princíp zostal jednoduchý. Dodáš referenčné obrázky, postavy, objekty, prostredie, a krátky text. Veo 3.1 z nich vytvorí video. Rozdiel je v tom, že tentoraz udržalo identitu, priestor aj rytmus. Postavy sa nemenili medzi scénami, pozadia neutekali a objekty zostali tam, kam si ich umiestnil.
„Naším cieľom bolo odstrániť náhodnosť a dať tvorcom istotu, že výstup bude použiteľný,“ uviedol Ricky Wong z Google DeepMind.
Posun pri časových limitoch
Veľký posun nastal pri časových limitoch. Každý vygenerovaný klip má jasne danú dĺžku: 4, 6 alebo 8 sekúnd. To na prvý pohľad nepôsobí veľkolepo, no práve tu vstupuje do hry nová funkcia Scene Extension. Veo dokáže vziať poslednú časť jedného klipu a plynule na ňu nadviazať ďalším. Nejde o hrubý strih, ale o pokračovanie pohybu, kamery aj deja.
V praxi to znamená, že si z krátkych úsekov poskladal minútovú alebo dlhšiu sekvenciu, ktorá držala vizuálnu kontinuitu. Kamera neskončila náhodne. Pohyb sa neprerušil. Príbeh pokračoval bez trhnutí, ktoré by prezradili, že video vzniklo z viacerých generácií.
Rovnako dôležitá zmena prišla pri zvuku. Veo 3.1 už nefunguje len ako video-model. Správal sa ako multimodálny systém, ktorý generoval obraz aj zvuk súčasne. Dialógy postáv sedeli na pohyb pier, ruchy prostredia reagovali na dianie v obraze a zvukové efekty sa časovo trafili do akcie. Všetko vzniklo z jedného zadania.
Neprehliadni
Video bez zvuku dnes nefunguje, najmä v krátkych formátoch. Google si to uvedomil a integroval zvuk priamo do generovania. Nemusel si ho dodatočne dopĺňať ani synchronizovať. Model ho vytvoril spolu s obrazom.
„Nechceli sme, aby tvorcovia skladali video ako puzzle z rôznych nástrojov,“ uviedol tím DeepMind v sprievodných materiáloch.
Pre profesionálov priniesol Veo 3.1 ešte jednu kľúčovú funkciu, First and Last Frame, označovanú aj ako Bridge Mode. Okrem referenčných obrázkov si mohol dodať presný prvý a posledný snímok. Model dopočítal všetko medzi nimi. To dalo tvorcovi kontrolu nad tým, kde pohyb začal a kde skončil.
Pre strihačov to znamenalo obrovskú výhodu. Video neskončilo v náhodnej póze alebo polovičnom pohybe. Skončilo presne tam, kde si potreboval pre ďalší záber alebo pre strih v časovej osi.
Po prvýkrát aj v mobilnom formáte
Veľkú rolu zohral aj mobilný formát. Veo 3.1 po prvýkrát podporil natívne vertikálne video v pomere 9:16. Nešlo o orezaný horizontálny výstup. Video vzniklo priamo pre mobilnú obrazovku, bez straty kvality a kompozície. To otvorilo dvere Shorts, Reels aj ďalším krátkym formátom bez kompromisov.
Kvalita obrazu sa posunula do profesionálneho pásma. Veo 3.1 zvládol upscaling do 1080p a 4K, pričom dopočítal detaily a zachoval textúry. Výstup zvládol ďalší strih aj použitie vo väčších produkciách.
Google zároveň nezabudol na dôveryhodnosť. Každé video nieslo neviditeľný vodoznak SynthID, ktorý umožnil spätne overiť jeho pôvod. V Gemini aplikácii si mohol nahrať video a priamo sa opýtať, či ho vytvorila AI.
„Transparentnosť považujeme za nevyhnutnú súčasť generatívnych technológií,“ uviedol Google.
Veo 3.1 tak neukázal len výkon modelu. Ukázal, že generatívne video začalo fungovať ako kontrolovateľný pracovný nástroj. Nie dokonalý, nie definitívny, ale dostatočne presný na to, aby sa s ním dalo reálne pracovať.