Google-მა წარმოადგინა ძლიერი ნეირონული ქსელი, Lumiere, რომელიც რეალისტური ვიდეოების გენერირებას ახდენს

ლუმიერი

Google-მა წარმოადგინა Lumiere, ხელოვნური ინტელექტით მართულ „სივრცით-დროითი დიფუზიის მოდელი რეალისტური ვიდეოების გენერირებისთვის“.

როგორც პრაქტიკამ აჩვენა, ეს, ალბათ, დღესდღეობით ყველაზე ძლიერი ხელოვნური ინტელექტის ვიდეო გენერატორია, რომელიც ტექსტური აღწერილობების საფუძველზე დინამიურ სურათებს ქმნის.

Google Lumiere-სა და არსებულ კონკურენტებს შორის ყველაზე მნიშვნელოვანი განსხვავება მისი უნიკალური არქიტექტურაა - მთელი ვიდეო ერთი გავლისას გენერირდება. სხვა მოდელები განსხვავებულად მუშაობენ: ისინი წარმოქმნიან მრავალ საკვანძო კადრს და შემდეგ ასრულებენ დროებით ინტერპოლაციას, რაც ართულებს გენერირებული ვიდეოს თანმიმდევრულობას. Lumiere მუშაობს რამდენიმე რეჟიმში, როგორიცაა ტექსტის ვიდეოდ გარდაქმნა, სტატიკური სურათების დინამიურად გარდაქმნა, შაბლონის მიხედვით განსაზღვრული სტილით ვიდეოების შექმნა, არსებული ვიდეოების რედაქტირების დაშვება წერილობითი მითითებების საფუძველზე, სტატიკური სურათის კონკრეტული უბნების ანიმაცია ან ვიდეო ფრაგმენტების რედაქტირება - მაგალითად, ადამიანზე ტანსაცმლის ნივთის შეცვლა.

„ჩვენს T2V [ტექსტიდან ვიდეოში გარდაქმნის] მოდელს ვავარჯიშებთ 30 მილიონი ვიდეოს მონაცემთა ნაკრებზე ტექსტური წარწერებით. ვიდეოების ხანგრძლივობაა 80 კადრი და მუშაობს წამში 16 კადრი სიჩქარით. საბაზისო მოდელი გაწვრთნილია 128 x 128 პიქსელის გარჩევადობით“, - განმარტა Google-მა. გამომავალი არის 5 წამიანი ვიდეოები 1024 x 1024 პიქსელის გარჩევადობით.

Google-ის Lumiere-ის ნეირონული ქსელი

Google Lumiere ნამდვილად არ არის პირველი ხელოვნური ინტელექტის მქონე ვიდეო გენერატორი. თავად Google-მა ადრე აჩვენა მოდელი სახელწოდებით Imagen Video, რომელიც გენერირებდა ვიდეოებს 1280 x 768 პიქსელის გარჩევადობით და წამში 24 კადრი სიხშირით, თუმცა მისი ნამუშევრები გაცილებით მოკრძალებული იყო. ისეთმა პროექტებმა, როგორიცაა Meta✴ Make-A-Video, Runway Gen2 და Stable Video Diffusion, ნაკლებად რეალისტური შედეგები გამოიღო. Google აღიარებს იმ საფრთხეს, რომელსაც ასეთი პროექტები შეიძლება წარმოადგენდეს: „ამ ნაშრომში ჩვენი მთავარი მიზანია, ახალბედა მომხმარებლებს მივცეთ საშუალება, მოქნილად და კრეატიულად შექმნან ვიზუალური კონტენტი. თუმცა, არსებობს ჩვენი ტექნოლოგიის ბოროტად გამოყენების რისკი და ჩვენ გვჯერა, რომ მოდელის უსაფრთხო და სამართლიანი მუშაობის უზრუნველსაყოფად უმნიშვნელოვანესია შევიმუშაოთ და დანერგოთ ინსტრუმენტები მიკერძოებისა და მავნე გამოყენების გამოსავლენად.“.

წაიკითხეთ წყარო