Google a lansat Lumiere, un „model de difuzie spatiotemporală pentru generarea de videoclipuri realiste” bazat pe inteligență artificială.
După cum a demonstrat practica, acesta este probabil cel mai puternic generator video bazat pe inteligență artificială disponibil astăzi, creând imagini dinamice bazate pe descrieri textuale.
Cea mai importantă diferență dintre Google Lumiere și concurenții existenți este arhitectura sa unică - întregul videoclip este generat într-o singură trecere. Alte modele funcționează diferit: generează mai multe cadre cheie și apoi efectuează interpolarea temporală, ceea ce complică consistența videoclipului generat. Lumiere funcționează în mai multe moduri, cum ar fi conversia textului în video, conversia imaginilor statice în cele dinamice, crearea de videoclipuri într-un stil specificat pe baza unui șablon, permiterea editării videoclipurilor existente pe baza unor solicitări scrise, animarea anumitor zone ale unei imagini statice sau editarea fragmentelor video - de exemplu, schimbarea unui articol vestimentar la o persoană.
„Antrenăm modelul nostru T2V [text-în-video] pe un set de date de 30 de milioane de videoclipuri cu legende. Videoclipurile au o lungime de 80 de cadre și rulează la o frecvență de 16 cadre pe secundă. Modelul de bază este antrenat la o rezoluție de 128 x 128 pixeli”, a explicat Google. Rezultatul este reprezentat de videoclipuri de 5 secunde cu o rezoluție de 1024 x 1024 pixeli.
Google Lumiere nu este cu siguranță primul generator video bazat pe inteligență artificială. Google însuși a demonstrat anterior un model numit Imagen Video, care genera videoclipuri cu o rezoluție de 1280 x 768 pixeli și o rată de cadre de 24 de cadre pe secundă, dar creațiile sale au fost mult mai modeste. Proiecte precum Meta✴ Make-A-Video, Runway Gen2 și Stable Video Diffusion au produs rezultate mai puțin realiste. Google recunoaște amenințarea pe care o pot reprezenta astfel de proiecte: „Scopul nostru principal în această lucrare este de a oferi utilizatorilor începători posibilitatea de a genera conținut vizual în mod flexibil și creativ. Cu toate acestea, există riscul utilizării abuzive a tehnologiei noastre și credem că este crucial să dezvoltăm și să implementăm instrumente pentru a detecta prejudecățile și utilizarea rău intenționată, pentru a asigura funcționarea sigură și corectă a modelului.”.

