სტაბილური დიფუზია

სტაბილური Diffusion 3-ის გამოშვება ჩაიშალა: ნეირონული ქსელი ადამიანების ნაცვლად მონსტრებს იზიდავს

ახალი სურათების გენერირების მოდელი ვერ ამუშავებს ადამიანის სურათებს.

ოთხშაბათს, Stability AI-მ წარმოადგინა თავისი გამოსახულების სინთეზის მოდელის ახალი ვერსია, Stable Diffusion 3 Medium. ეს მოდელი ტექსტურ მოთხოვნებს სურათებად გარდაქმნის, თუმცა მისმა გამოშვებამ კრიტიკა გამოიწვია ადამიანის გამოსახულების დაბალი ხარისხის გამო, განსაკუთრებით Midjourney-სა და DALL-E 3-თან შედარებით. აღმოჩნდა, რომ SD3 Medium ხშირად წარმოქმნიდა ანატომიურად არასწორ სურათებს, რაც დაცინვას იწვევდა.

სტაბილური დიფუზია 3

Reddit-ზე გამოჩნდა თემა სახელწოდებით „ეს ნომერი ხუმრობაა? [SD3-2B]“, სადაც მომხმარებლები SD3 Medium-ის მიერ ადამიანების, განსაკუთრებით კი ხელებისა და ფეხების სურათების რენდერირებისას არსებული ხარვეზების მაგალითებს აზიარებენ.

კიდევ ერთი თემა განიხილავს ბალახზე მწოლიარე გოგონების სურათების გენერირების პრობლემებს.

ტრადიციულად, სურათების გენერატორებისთვის ხელების გენერირება რთული ამოცანა იყო სასწავლო მონაცემთა ნაკრებებში მაგალითების ნაკლებობის გამო. თანამედროვე მოდელებმა ისწავლეს ამ ამოცანის შესრულება, მაგრამ Stable Diffusion 3 Medium ერთი ნაბიჯით უკან იხევს.

მომხმარებლები თვლიან, რომ SD3 Medium-ის გაუმართაობის მიზეზი ვარჯიშის მონაცემებიდან ზრდასრულთათვის განკუთვნილი კონტენტის ფილტრაციაა. „მოდელის მკაცრი ცენზურა ასევე შლის ანატომიურ მონაცემებს, რაც მოხდა“, - აღნიშნა ერთ-ერთმა მომხმარებელმა.

მსგავსი პრობლემები წარმოიშვა 2022 წელს Stable Diffusion 2.0-ის გამოშვებისას. იმ დროს, ზრდასრულთათვის განკუთვნილი კონტენტის ფილტრაცია აფერხებდა მოდელის უნარს, გენერირებულიყო ადამიანის ანატომიის ზუსტი დონე. Stability AI-მ ეს პრობლემა გამოასწორა SD 2.1-სა და SD XL-ში, ნაწილობრივ აღადგინა დაკარგული შესაძლებლობები.

ზოგიერთი მომხმარებელი მიიჩნევს, რომ ტრენინგის მონაცემების გასასუფთავებლად გამოყენებული NSFW ფილტრი ძალიან მკაცრი იყო. შესაძლოა, ამან გამოიწვია ის, რომ მონაცემთა ნაკრებიდან ამოიღეს ისეთი სურათები, რომლებიც არ შეიცავდა სექსუალურ შინაარსს, მაგრამ მნიშვნელოვანია მოდელის ტრენინგისთვის, რათა ზუსტად ასახოს ადამიანები სხვადასხვა სიტუაციაში. Reddit-ის ერთ-ერთმა მომხმარებელმა დაწერა: „[SD3] კარგად მუშაობს, თუ კადრში ადამიანები არ არიან. როგორც ჩანს, მათმა გაუმჯობესებულმა NSFW ფილტრმა გადაწყვიტა, რომ ყველაფერი, რაც ჰუმანოიდია, NSFW იყო“.

წაიკითხეთ წყარო

15.06.2024
ენთუზიასტმა გამოიგონა კამერა, რომელიც აღწერილობებისა და შეგროვებული მონაცემების საფუძველზე იღებს ფოტოებს

ინჟინერმა და ენთუზიასტმა ბიორნ კარმანმა შექმნა მოწყობილობა სახელწოდებით Paragraphica, რომელიც ტექსტური აღწერილობისა და მდებარეობის, ამინდის, თარიღისა და დროის შესახებ მონაცემების ერთობლიობის საფუძველზე ქმნის ფოტოებს.

ტექსტური შეტყობინება, რომელიც დაფუძნებულია ადგილმდებარეობაზე, თარიღზე, დროსა და ამინდის ინფორმაციაზე

მოწყობილობას აქვს ციფრული კამერის კორპუსი, რომლის უკანა მხარეს 15 დიუმიანი სენსორული ეკრანია. თუმცა, ამ კამერას არ აქვს ლინზა და სენსორი. სამაგიეროდ, ის აღჭურვილია სპეციალური ანტენით, რომელიც ვარსკვლავისებრი ცხვირისებრი ხალის დრუნჩზე არსებული წანაზარდების ფორმისაა.

როგორ გამოიყურება ადგილმდებარეობა?

ყველა ფოტო იქმნება მომხმარებლის რეალური გარემოს ტექსტური აღწერის საფუძველზე. გაჯეტი ასევე აგროვებს მონაცემებს ღია წყაროებიდან გადაღების დროის, ამინდის, გეოლოკაციის და თარიღის შესახებაც კი.

გენერირებული სურათი

კამერას Raspberry Pi 4 ერთპლატიანი კომპიუტერი კვებავს, ხოლო საბოლოო გამოსახულებას სტაბილური დიფუზიის გენერაციული ნეირონული ქსელი გენერირდება. კამერის ზედა პანელზე სამი მბრუნავი ღილაკია განთავსებული იმ რეგიონის რადიუსის რეგულირებისთვის, სადაც კამერა ეძებს მდებარეობის მონაცემებს და საბოლოო გამოსახულების შესაქმნელად პასუხისმგებელ ნეირონულ ქსელურ პარამეტრებს.

წაიკითხეთ წყარო

01.06.2023

სტაბილური დიფუზია

სტაბილური Diffusion 3-ის გამოშვება ჩაიშალა: ნეირონული ქსელი ადამიანების ნაცვლად მონსტრებს იზიდავს

ენთუზიასტმა გამოიგონა კამერა, რომელიც აღწერილობებისა და შეგროვებული მონაცემების საფუძველზე იღებს ფოტოებს