Microsoft naučil fotografie rozprávať. Ukázal novú AI, ktorá premení fotky na krátke realistické videá
Microsoft predstavil umelú inteligenciu VASA-1, ktorá dokáže vygenerovať zo statickej snímky realistické video.
Pravdepodobne aj vy máte v smartfóne desiatky fotografií vašich priateľov, rodiny, prípadne sami seba. Viete si predstaviť, že by tieto fotografie, na ktorých sú osoby, začali rozprávať? Vedzte, že zatiaľ, čo táto predstava bola dlho z kategórie sci-fi, tak Microsoft ju najnovšie prináša k životu.
Nová AI premení statické fotografie v krátke videá
Gigant z Redmondu predstavil umelú inteligenciu, ktorá nesie názov VASA-1. Tá dokáže premeniť statické snímky ľudí v krátke videoklipy. Tieto videá sú pritom tak realistické, že len málokto by dokázal rozpoznať, že ide o podvrh.
„Náš premiérový model VASA-1 je schopný nielen produkovať pohyby pier, ktoré sú dokonale synchronizované so zvukom, ale aj zachytávať široké spektrum tvárových nuancií a prirodzených pohybov hlavy, ktoré prispievajú k vnímaniu autentickosti a živosti.“, hovorí Microsoft. „Medzi hlavné inovácie patrí holistická dynamika tváre a model generovania pohybu hlavy,..“, doplňuje.
Spoločnosť v publikovanej správe uvádza, že túto umelú inteligenciu natrénovala na približne 6-tisícoch skutočných hovoriacich tvárí z dátového súboru VoxCeleb2. Ako môžete vidieť na videu nižšie, tak AI je schopnou vygenerovať realistické pohyby vrátane mimiky tváre. Výsledné videá majú rozlíšenie 512 x 512 bodov pri rýchlosti až 40 FPS. Samozrejme, takto vytvorené video z jedinej fotografie, je možné synchronizovať so zvukovou stopou, ako sme vyššie už spomínali. Prejdime ale k tomu, ako táto technológia funguje v praxi.
VASA-1: Lifelike Audio-Driven Talking Faces
Generated in Real Timehttps://t.co/823VNeZUGq#VASA1 #ai #AIcommunity pic.twitter.com/pO3h5IEmc7— Orcton (@OrctonAI) April 19, 2024
Technológiu spoločnosť zatiaľ nesprístupní
Microsoft verí, že takto vygenerované videá sú schopné obohatiť digitálnu komunikáciu. Zároveň ale, gigant priznáva, že táto technológia by mohla byť aj ľahko zneužitou. Predstavte si, že ktokoľvek by mohol z fotografie vytvoriť krátke video a vložiť človeku do úst slová, ktoré nikdy nepovedal. Inými slovami, takto vytvorené klipy, by mohli byť zneužité na šírenie falošných správ a hoaxov. Spoločnosť si tento problém uvedomuje, našťastie. To je aj dôvod, prečo túto technológiu zatiaľ nesprístupní verejnosti a ani vývojárom tretích strán.
Komentáre