Կայուն դիֆուզիա

Կայուն Diffusion 3-ի թողարկումը ձախողվեց. նեյրոնային ցանցը մարդկանց փոխարեն հրեշներ է նկարում

Պատկերների ստեղծման նոր մոդելը չի կարողանում մշակել մարդկային պատկերները։.

Չորեքշաբթի օրը Stability AI-ը ներկայացրեց իր պատկերի սինթեզի մոդելի նոր տարբերակը՝ Stable Diffusion 3 Medium-ը: Այս մոդելը տեքստային հարցումները վերածում է պատկերների, սակայն դրա թողարկումը քննադատության է արժանացել մարդկային պատկերների վատ որակի համար, հատկապես Midjourney-ի և DALL-E 3-ի համեմատ: Պարզվել է, որ SD3 Medium-ը հաճախակի է ստեղծում անատոմիապես սխալ պատկերներ, ինչը հանգեցրել է ծաղրի:.

Կայուն դիֆուզիա 3

Reddit-ում բացվել է «Այս թողարկումը կատակ է՞ [SD3-2B]» վերնագրով թեմա, որտեղ օգտատերերը կիսվում են SD3 Medium-ի խափանումների օրինակներով՝ մարդկանց, մասնավորապես՝ ձեռքերի և ոտքերի պատկերները ցուցադրելիս։.

Մեկ այլ թեմա քննարկում է խոտի վրա պառկած աղջիկների պատկերներ ստեղծելու հետ կապված խնդիրները։.

Ձեռքերի ստեղծումը ավանդաբար մարտահրավեր է եղել պատկերների գեներատորների համար՝ մարզման տվյալների հավաքածուներում օրինակների բացակայության պատճառով: Ժամանակակից մոդելները սովորել են կատարել այս խնդիրը, բայց Stable Diffusion 3 Medium-ը մեկ քայլ հետ է գնում:.

Օգտատերերը կարծում են, որ SD3 Medium-ի խափանումների պատճառը մարզումների տվյալներից մեծահասակների համար նախատեսված բովանդակության ֆիլտրումն է։ «Մոդելի խիստ գրաքննությունը նաև հեռացնում է անատոմիական տվյալները, ահա թե ինչ է պատահել», - նշել է օգտատերերից մեկը։.

Նմանատիպ խնդիրներ առաջացան նաև Stable Diffusion 2.0-ի 2022 թվականին թողարկման ժամանակ։ Այդ ժամանակ մեծահասակների համար նախատեսված բովանդակության ֆիլտրացումը խաթարում էր մոդելի՝ մարդու անատոմիայի ճշգրիտ ստեղծման ունակությունը։ Stability AI-ը շտկեց սա SD 2.1-ում և SD XL-ում՝ մասամբ վերականգնելով կորցրած հնարավորությունները։.

Որոշ օգտատերեր կարծում են, որ մարզման տվյալները մաքրելու համար օգտագործված NSFW ֆիլտրը չափազանց խիստ էր։ Սա կարող է հանգեցրել այն բանին, որ տվյալների հավաքածուից հեռացվել են սեռական բովանդակություն չպարունակող պատկերներ, որոնք կարևոր են մոդելին տարբեր իրավիճակներում մարդկանց ճշգրիտ պատկերելու համար մարզելու համար։ Reddit-ի օգտատերերից մեկը գրել է. «[SD3]-ը լավ է աշխատում, քանի դեռ կադրում մարդիկ չկան։ Թվում է, թե նրանց բարելավված NSFW ֆիլտրը որոշել է, որ մարդանման ամեն ինչ NSFW է»։.

Կարդացե՛ք աղբյուրը

15.06.2024
Մի էնտուզիաստ հորինել է մի տեսախցիկ, որը լուսանկարներ է անում նկարագրությունների և հավաքված տվյալների հիման վրա։

Ինժեներ և էնտուզիաստ Բյորն Կարմանը ստեղծել է Paragraphica անունով մի սարք, որը լուսանկարներ է ստեղծում տեքստային նկարագրության և գտնվելու վայրի, եղանակի, ամսաթվի և ժամանակի մասին տվյալների հավաքածուի հիման վրա։.

Տեքստային հուշում՝ հիմնված գտնվելու վայրի, ամսաթվի, ժամի և եղանակի տեղեկատվության վրա։

Սարքն ունի թվային տեսախցիկի կորպուս՝ 15 դյույմանոց սենսորային էկրանով հետևի մասում։ Սակայն այս տեսախցիկը չունի օբյեկտիվ և սենսոր։ Դրա փոխարեն այն հագեցած է աստղաձև քթով խլուրդի դունչի վրա գոյացությունների նմանվող հատուկ անտենայով։.

Ինչպիսի՞ն է գտնվելու վայրը։

Բոլոր լուսանկարները ստեղծվում են օգտատիրոջ իրական շրջապատի տեքստային նկարագրության հիման վրա: Գաջեթը նաև հավաքում է տվյալներ բաց աղբյուրներից՝ նկարահանման ժամանակի, եղանակի, աշխարհագրական դիրքի և նույնիսկ ամսաթվի մասին:.

Ստեղծված պատկեր

Raspberry Pi 4 միատախտակային համակարգիչը սնուցում է տեսախցիկը, իսկ վերջնական պատկերը ստեղծվում է Stable Diffusion գեներատիվ նեյրոնային ցանցի կողմից: Տեսախցիկի վերին վահանակում տեղակայված են երեք պտտվող կոճակներ՝ այն տարածքի շառավիղը կարգավորելու համար, որտեղ տեսախցիկը որոնում է տեղանքի տվյալներ և վերջնական պատկերի համար պատասխանատու նեյրոնային ցանցի պարամետրերը:.

Կարդացե՛ք աղբյուրը

01.06.2023

Կայուն դիֆուզիա

Կայուն Diffusion 3-ի թողարկումը ձախողվեց. նեյրոնային ցանցը մարդկանց փոխարեն հրեշներ է նկարում

Մի էնտուզիաստ հորինել է մի տեսախցիկ, որը լուսանկարներ է անում նկարագրությունների և հավաքված տվյալների հիման վրա։