Difuzie stabilă

Lansarea Stable Diffusion 3 a eșuat: rețeaua neuronală desenează monștri în loc de oameni

Noul model de generare a imaginilor nu reușește să gestioneze imaginile umane.

Miercuri, Stability AI a dezvăluit o nouă versiune a modelului său de sinteză a imaginilor, Stable Diffusion 3 Medium. Acest model convertește interogările de text în imagini, dar lansarea sa a stârnit critici pentru calitatea slabă a imaginilor umane, în special în comparație cu Midjourney și DALL-E 3. S-a constatat că SD3 Medium produce frecvent imagini anatomic incorecte, ceea ce duce la ridiculizare.

Difuzie stabilă 3

A apărut un fir de discuție pe Reddit intitulat „Este această problemă o glumă? [SD3-2B]”, în care utilizatorii prezintă exemple de eșecuri ale SD3 Medium la redarea imaginilor cu oameni, în special mâini și picioare.

Un alt subiect discută problemele legate de generarea de imagini cu fete întinse pe iarbă.

Generarea de mâini a fost în mod tradițional o sarcină dificilă pentru generatoarele de imagini din cauza lipsei de exemple în seturile de date de antrenament. Modelele moderne au învățat să gestioneze această sarcină, dar Stable Diffusion 3 Medium face un pas înapoi.

Utilizatorii cred că motivul eșecurilor SD3 Medium este filtrarea conținutului pentru adulți din datele de antrenament. „Cenzura severă a modelului elimină și datele anatomice, asta s-a întâmplat”, a remarcat un utilizator.

Probleme similare au apărut odată cu lansarea Stable Diffusion 2.0 în 2022. La acea vreme, filtrarea conținutului pentru adulți afecta capacitatea modelului de a genera o anatomie umană precisă. Stability AI a corectat acest lucru în SD 2.1 și SD XL, restabilind parțial capacitățile pierdute.

Unii utilizatori consideră că filtrul NSFW folosit pentru curățarea datelor de antrenament a fost prea strict. Acest lucru ar fi putut duce la eliminarea din setul de date a unor imagini care nu conțin conținut sexual, dar care sunt importante pentru antrenarea modelului pentru a reprezenta cu acuratețe oamenii în diverse situații. Un utilizator Reddit a scris: „[SD3] funcționează bine atâta timp cât nu există persoane în cadru. Se pare că filtrul lor NSFW îmbunătățit a decis că orice este umanoid este NSFW.”.

Citește sursa

15.06.2024
Un pasionat a inventat un aparat foto care face fotografii pe baza descrierilor și a datelor colectate

Inginerul și pasionatul Björn Karmann a creat un dispozitiv numit Paragraphica, care generează fotografii pe baza unei descrieri textuale și a unui set de date despre locație, vreme, dată și oră.

O solicitare text bazată pe locație, dată, oră și informații meteo

Dispozitivul are un corp de cameră digitală cu un ecran tactil de 15 inci pe spate. Cu toate acestea, acestei camere îi lipsesc obiectivul și senzorul. În schimb, este echipată cu o antenă specială în formă de excrescențe de pe botul unei cârtițe cu nas înstelat.

Cum arată locația?

Toate fotografiile sunt create pe baza unei descrieri textuale a împrejurimilor reale ale utilizatorului. Gadgetul colectează, de asemenea, date din surse deschise despre ora fotografierii, vreme, geolocalizare și chiar dată.

Imagine generată

Un computer cu o singură placă Raspberry Pi 4 alimentează camera, iar imaginea finală este generată de rețeaua neuronală generativă Stable Diffusion. Trei butoane rotative sunt amplasate pe panoul superior al camerei pentru ajustarea razei regiunii în care camera caută date de locație și a parametrilor rețelei neuronale responsabile pentru imaginea finală.

Citește sursa

01.06.2023

Difuzie stabilă

Lansarea Stable Diffusion 3 a eșuat: rețeaua neuronală desenează monștri în loc de oameni

Un pasionat a inventat un aparat foto care face fotografii pe baza descrierilor și a datelor colectate