UMJETNA INTELIGENCIJA

Googleov Lumiere tekstualni opis pretvara u realistični video, pogledajte kako izgleda

29.01.2024 u 12:41

Bionic
Reading

Video isječci od pet sekundi stvoreni unutar aplikacije prikazuju kako AI alati mogu stvoriti video iz teksutalnog opisa - uz realistične rezultate i kretnje

Googleova nova generacija AI modela Lumiere koristi difuzijski model nazvan Space-Time-U-Net ili STUNet, koji utvrđuje gdje su stvari u videu (prostor) i kako se istovremeno kreću i mijenjaju (vrijeme). Ars Technica navodi da ova metoda Lumiereu omogućuje stvaranje videa u jednom procesu umjesto spajanja niza manjih kadrova.

Lumiere počinje stvaranjem osnovnog okvira iz upita. Zatim koristi STUNet okvir za početak procjene gdje će se objekti unutar tog okvira kretati kako bi se stvorilo više okvira koji se slijevaju jedan u drugi, stvarajući dojam besprijekornog kretanja. Lumiere također generira 80 sličica u sekundi u usporedbi s 25 sličica iz Stable Video Diffusiona.

Izvor: Društvene mreže / Autor: Lumier

Demonstracija koju je objavio Google, zajedno sa još neobjavljenim znanstvenim radom, pokazuje da su alati za generiranje i uređivanje videozapisa pomoću umjetne inteligencije u samo nekoliko godine stigli da razine bliske realizmu. Ona istovremeno postavlja Googleovu tehnologiju u prostor koji već zauzimaju konkurenti kao što su Runway, Stable Video Diffusion ili Metin Emu. Runway, jedna od prvih platformi za pretvaranje teksta u video namjenjena masovnom tržištu, objavila je Runway Gen-2 u ožujku prošle godine i uz njega počela nuditi realistične videozapise.

Premda neki od prikazanih isječaka imaju dašak umjetnosti, pogotovo ako se pomno promatra tekstura kože ili atmosfere scene.

Drugi modeli povezuju videozapise iz generiranih ključnih okvira u kojima se pokret već dogodio (zamislite one crteže iz slikovnice na preklop), dok STUNet omogućuje Lumiereu da se usredotoči na pokret na temelju toga gdje bi generirani sadržaj trebao biti u određenom trenutku u videu.

Google nije bio veliki igrač u kategoriji pretvaranja teksta u video, ali je polako izdao naprednije AI modele i okrenuo se multimodalnom fokusu. Njegov model velikog jezika Gemini na kraju će Bardu donijeti generiranje slika. Lumiere još nije dostupan za testiranje, ali pokazuje Googleovu sposobnost da razvije AI video platformu koja je usporediva s, i vjerojatno malo bolja od, trenutno dostupnih AI video generatora kao što su Runway i Pika. Podsjetnimo, ovo je video koji je Google AI-jem generirao prije dvije godine.

Demonstracija Lumierea prije dvije godine
Demonstracija Lumierea prije dvije godine Izvor: Licencirane fotografije / Autor: Google

Osim generiranja teksta u video, Lumiere će također omogućiti pretvaranje slike u video, stilizirano generiranje, koje korisnicima omogućuje izradu videozapisa u određenom stilu, kinografije koji animiraju samo dio videa i opciju za maskiranje područja videozapisa za promjenu boje ili uzorka.

Googleov znanstveni rad o Lumiereu, međutim, naglašava je da 'postoji rizik od zlouporabe te stvaranje lažnog ili štetnog sadržaja'. 'Vjerujemo da je ključno razviti i primijeniti alate za otkrivanje pristranosti i slučajeva zlonamjerne upotrebe kako bi se osiguralo sigurno i pošteno korištenje' kažu iz Googlea. Autori rada, doduše, nisu objasnili kako se to može postići.