Google шынайы бейнелерді жасауға арналған қуатты Lumiere нейрондық желісін таныстырды

Люмьер

Google компаниясы жасанды интеллектпен жұмыс істейтін «шынайы бейнені жасауға арналған кеңістіктік-уақыттық диффузиялық модель» Lumiere-ді таныстырды.

Тәжірибе көрсеткендей, бұл бүгінгі таңда қолжетімді ең қуатты жасанды интеллект бейне генераторы болып табылады, ол мәтіндік сипаттамаларға негізделген динамикалық кескіндер жасайды.

Google Lumiere мен қолданыстағы бәсекелестер арасындағы ең маңызды айырмашылық - оның ерекше архитектурасы - бүкіл бейне бір өтуде жасалады. Басқа модельдер басқаша жұмыс істейді: олар бірнеше негізгі кадрларды жасайды, содан кейін уақытша интерполяцияны орындайды, бұл жасалған бейненің үйлесімділігін қиындатады. Lumiere бірнеше режимде жұмыс істейді, мысалы, мәтінді бейнеге түрлендіру, статикалық кескіндерді динамикалық кескіндерге түрлендіру, шаблонға негізделген белгіленген стильде бейнелер жасау, жазбаша нұсқауларға негізделген бар бейнелерді өңдеуге мүмкіндік беру, статикалық кескіннің белгілі бір аймақтарын анимациялау немесе бейне фрагменттерін өңдеу - мысалы, адамның киімін ауыстыру.

«Біз T2V [мәтінді бейнеге айналдыру] моделімізді мәтіндік жазулары бар 30 миллион бейнеден тұратын деректер жиынтығында оқытамыз. Бейнелер ұзындығы 80 кадр және секундына 16 кадр жылдамдығымен көрсетіледі. Негізгі модель 128 x 128 пиксель ажыратымдылығымен оқытылады», - деп түсіндірді Google. Шығарылым 1024 x 1024 пиксель ажыратымдылығы бар 5 секундтық бейнелер болып табылады.

Google компаниясының Lumiere нейрондық желісі

Google Lumiere, әрине, алғашқы жасанды интеллект бейне генераторы емес. Google-дың өзі бұған дейін 1280 x 768 пиксель ажыратымдылығымен және секундына 24 кадр жиілігімен бейнелер жасайтын Imagen Video деп аталатын модельді көрсеткен болатын, бірақ оның туындылары әлдеқайда қарапайым болды. Meta✴ Make-A-Video, Runway Gen2 және Stable Video Diffusion сияқты жобалар онша шынайы емес нәтижелер берді. Google мұндай жобалардың төндіруі мүмкін қауіп-қатерді мойындайды: «Бұл жұмыстағы біздің басты мақсатымыз - жаңадан бастаған пайдаланушыларға визуалды мазмұнды икемді және шығармашылықпен жасауға мүмкіндік беру. Дегенмен, біздің технологиямызды дұрыс пайдаланбау қаупі бар және біз модельдің қауіпсіз және әділ жұмыс істеуін қамтамасыз ету үшін бейтараптық пен зиянды пайдалануды анықтау құралдарын әзірлеу және енгізу өте маңызды деп санаймыз».

Дереккөзді оқыңыз