Výskumníci vytvorili desivo realistický 3D model hovoriaceho človeka: Stačí k tomu zvuková nahrávka a jediná fotografia
Nový softvér by mohol priniesť revolúciu v multimediálnej komunikácii.
Výskumníci z technologickej univerzity Nanyang Technological University vytvorili počítačový program, ktorý dokáže vytvoriť realistické video rozprávajúcej osoby len zo zvukovej nahrávky a jedinej fotografie daného človeka.
Nový program autori štúdie nazývajú DIRFA (pozn. redakcie: Diverse yet Realistic Facial Animations). Ide o softvér založený na umelej inteligencii, do ktorého stačí nahrať fotografiu a audioklip hlasu osoby a vznikne presvedčivé 3D video. Toto video sa vyznačuje realistickou a konzistentnou mimikou, ktorá je dobre zladená s hovoreným slovom.
Softvér DIRFA sa zakladá na už existujúcich programoch, ktoré ale nepriniesli až tak presvedčivé výsledky. Najväčším problémom predchádzajúcich pokusov bolo neverné zobrazenie rozličných emócií. Autori štúdie trénovali softvér DIRFA na viac ako jednom milióne audiovizuálnych klipov, ktoré zachytávali viac ako 6-tisíc ľudí. Dáta čerpali z datasetu The VoxCeleb2, ktorý je špecifický navrhnutý na rozpoznávanie rôznych znakov z reči a priraďovaní ich k mimike a pohybu celej hlavy.
DIRFA by mohol viesť k novej generácii realistických virtuálnych asistentov a chatbotov. Zároveň by však tento softvér mohol pomôcť ľuďom s postihnutím tak, že im umožní lepšie vyjadriť svoje pocity a emócie cez realistického a expresívneho avatara.
“Naša štúdia môže mať obrovský dopad, pretože prináša revolúciu do sféry multimediálnej komunikácie. DIRFA umožňuje vytvárať mimoriadne realistické videá rozprávajúcich ľudí, pričom používa techniky strojového učenia a umelej inteligencie. Videá vytvorené našim programom sa vyznačujú presnými pohybmi pier, živou mimikou a prirodzenými pohybmi hlavy. Používame pritom len audionahrávku hlasu človeka a jeho statickú fotografiu,” tvysvetlil Lu Shijian, vedúci štúdie.
Umelá inteligencia na základe kľúčových momentov v reči realisticky generuje mimiku hovoriaceho
Vedci vysvetľujú, že pri bežnej reči človek vykazuje množstvo rôznych variácií. Rovnaké slová môžeme na základe kontextu vyslovovať inak. Mení sa pritom tón hlasu, dĺžka vyslovenia jednotlivých slabík či ďalšie drobné rozdiely. Okrem samotných slov reč obsahuje aj množstvo ďalších informácií o pohlaví, veku, osobnosti, či nálady hovoriaceho. Výskum sa snaží všetky tieto parametre implementovať do softvéru, ktorý vygeneruje mimoriadne prirodzenú tvár človeka.
Neprehliadnite
Vytvorenie vernej mimiky len z audionahrávky pre vedcov predstavovalo komplexný proces, s ktorým sa museli vysporiadať. Jedno slovo zo zvukovej nahrávky mohlo mať niekoľko výrazov tváre, ktoré by dávali zmysel a postupom času sa možnosti len narastajú.
Autori štúdie však pracovali s tým, že reč sa najsilnejšie spája s pohybom našich pier a už o niečo slabšie s mimikou a spôsobom akým pohybujeme počas rozprávania hlavou. Synchronizácia zvuku s pohybom pier preto bola hlavná a tesne nasledovala mimika a prirodzený pohyb hlavy. Výsledný model je pôsobivý, no v budúcnosti by chceli autori vytvoriť lepšie rozhranie. To by umožnilo kontrolovať určité výsledky umelej inteligencie. Momentálne napríklad DIRFA nedovoľuje vymeniť zamračenú tvár za úsmev, no to by sa v budúcnosti malo zmeniť.
Komentáre