Stable Diffusion

  • Релиз Stable Diffusion 3 провалился: нейросеть рисует монстров вместо людей

    Релиз Stable Diffusion 3 провалился: нейросеть рисует монстров вместо людей

    Новая модель генерации изображений не справляется с изображением человека.

    В среду компания Stability AI представила новую версию модели синтеза изображений — Stable Diffusion 3 Medium. Эта модель преобразует текстовые запросы в изображения, однако её появление вызвало волну критики из-за плохого качества изображений людей, особенно по сравнению с Midjourney и DALL-E 3. Как оказалось, SD3 Medium часто создает анатомически некорректные изображения, что стало причиной насмешек.

    Stable Diffusion 3
    Stable Diffusion 3

    На Reddit появилась ветка под названием «Этот выпуск — шутка? [SD3-2B]», где пользователи делятся примерами неудач SD3 Medium при создании изображений людей, особенно рук и ног.

    Другая ветка обсуждает проблемы с генерацией изображений девушек, лежащих на траве.

    Создание рук традиционно было сложной задачей для генераторов изображений из-за недостатка примеров в обучающих наборах данных. Современные модели уже научились справляться с этой задачей, но Stable Diffusion 3 Medium сделала шаг назад.

    Пользователи считают, что причина провалов SD3 Medium — фильтрация контента для взрослых из обучающих данных. «Сильная цензура модели также удаляет анатомические данные, вот что произошло», — отметил один из пользователей.

    Такие же проблемы возникли и при выпуске Stable Diffusion 2.0 в 2022 году. Тогда фильтрация контента для взрослых ухудшила способность модели генерировать точную анатомию человека. Stability AI исправила это в версиях SD 2.1 и SD XL, частично восстановив утраченные способности.

    Некоторые пользователи считают, что NSFW-фильтр, использованный для очистки обучающих данных, был слишком строгим. В результате из набора данных могли быть удалены изображения, не содержащие сексуального контента, но важные для обучения модели правильному изображению людей в различных ситуациях. Один из пользователей Reddit написал: «[SD3] работает нормально, пока в кадре нет людей. Кажется, их улучшенный фильтр NSFW решил, что все человекоподобное — это NSFW».

    Читать в источнике

  • Энтузиаст придумал фотоаппарат, создающий снимки по описанию и собранным данным

    Энтузиаст придумал фотоаппарат, создающий снимки по описанию и собранным данным

    Инженер, энтузиаст Бьорн Карманн создал устройство под названием Paragraphica, генерирующее фотографии по текстовому описанию и набору данных о местоположении, погоде, дате и времени.

    Текстовый промпт, составленный по данным о локации, дате, времени и погоде
    Текстовый промпт, составленный по данным о локации, дате, времени и погоде

    Устройство получило корпус цифровой камеры с сенсорным 15″ экраном с тыльной стороны. Но у этого фотоаппарата нет объектива и матрицы. Вместо этого устройство оснащено специальной антенной в виде наростов на морде звездоноса — млекопитающего семейства кротовых.

    Как выглядит локация
    Как выглядит локация

    Все снимки создаются на основе текстового описания фактически окружающей пользователя обстановки. Также гаджет собирает из открытых источников данные о времени съёмки, погоде, геолокации и даже дате.

    Сгенерированное изображение
    Сгенерированное изображение

    За работу отвечает одноплатный компьютер Raspberry Pi 4, а конечное изображение выдаёт генеративная нейросеть Stable Diffusion. На верхней панели корпуса расположены три поворотные ручки для настройки радиуса области, в которой происходит поиск данных о месте съёмки, и параметров нейросети, отвечающих за конечное изображение.

    Читать в источнике