სტაბილური Diffusion 3-ის გამოშვება ჩაიშალა: ნეირონული ქსელი ადამიანების ნაცვლად მონსტრებს იზიდავს

სტაბილური დიფუზია 3

ახალი სურათების გენერირების მოდელი ვერ ამუშავებს ადამიანის სურათებს.

ოთხშაბათს, Stability AI-მ წარმოადგინა თავისი გამოსახულების სინთეზის მოდელის ახალი ვერსია, Stable Diffusion 3 Medium. ეს მოდელი ტექსტურ მოთხოვნებს სურათებად გარდაქმნის, თუმცა მისმა გამოშვებამ კრიტიკა გამოიწვია ადამიანის გამოსახულების დაბალი ხარისხის გამო, განსაკუთრებით Midjourney-სა და DALL-E 3-თან შედარებით. აღმოჩნდა, რომ SD3 Medium ხშირად წარმოქმნიდა ანატომიურად არასწორ სურათებს, რაც დაცინვას იწვევდა.

სტაბილური დიფუზია 3
სტაბილური დიფუზია 3

Reddit-ზე გამოჩნდა თემა სახელწოდებით „ეს ნომერი ხუმრობაა? [SD3-2B]“, სადაც მომხმარებლები SD3 Medium-ის მიერ ადამიანების, განსაკუთრებით კი ხელებისა და ფეხების სურათების რენდერირებისას არსებული ხარვეზების მაგალითებს აზიარებენ.

კიდევ ერთი თემა განიხილავს ბალახზე მწოლიარე გოგონების სურათების გენერირების პრობლემებს.

ტრადიციულად, სურათების გენერატორებისთვის ხელების გენერირება რთული ამოცანა იყო სასწავლო მონაცემთა ნაკრებებში მაგალითების ნაკლებობის გამო. თანამედროვე მოდელებმა ისწავლეს ამ ამოცანის შესრულება, მაგრამ Stable Diffusion 3 Medium ერთი ნაბიჯით უკან იხევს.

მომხმარებლები თვლიან, რომ SD3 Medium-ის გაუმართაობის მიზეზი ვარჯიშის მონაცემებიდან ზრდასრულთათვის განკუთვნილი კონტენტის ფილტრაციაა. „მოდელის მკაცრი ცენზურა ასევე შლის ანატომიურ მონაცემებს, რაც მოხდა“, - აღნიშნა ერთ-ერთმა მომხმარებელმა.

მსგავსი პრობლემები წარმოიშვა 2022 წელს Stable Diffusion 2.0-ის გამოშვებისას. იმ დროს, ზრდასრულთათვის განკუთვნილი კონტენტის ფილტრაცია აფერხებდა მოდელის უნარს, გენერირებულიყო ადამიანის ანატომიის ზუსტი დონე. Stability AI-მ ეს პრობლემა გამოასწორა SD 2.1-სა და SD XL-ში, ნაწილობრივ აღადგინა დაკარგული შესაძლებლობები.

ზოგიერთი მომხმარებელი მიიჩნევს, რომ ტრენინგის მონაცემების გასასუფთავებლად გამოყენებული NSFW ფილტრი ძალიან მკაცრი იყო. შესაძლოა, ამან გამოიწვია ის, რომ მონაცემთა ნაკრებიდან ამოიღეს ისეთი სურათები, რომლებიც არ შეიცავდა სექსუალურ შინაარსს, მაგრამ მნიშვნელოვანია მოდელის ტრენინგისთვის, რათა ზუსტად ასახოს ადამიანები სხვადასხვა სიტუაციაში. Reddit-ის ერთ-ერთმა მომხმარებელმა დაწერა: „[SD3] კარგად მუშაობს, თუ კადრში ადამიანები არ არიან. როგორც ჩანს, მათმა გაუმჯობესებულმა NSFW ფილტრმა გადაწყვიტა, რომ ყველაფერი, რაც ჰუმანოიდია, NSFW იყო“.

წაიკითხეთ წყარო