Original size 1140x1600

Обучение генеративной нейросети Stable Diffusion под стиль античных мозаик

PROTECT STATUS: not protected

Идея проекта

post

На первом курсе я написала визуальное исследование, посвящённое сравнению мозаик античных и советских. Я находила перекликающиеся и там, и там сюжеты, где даже поворот головы мозаичных героев могли быть идентичны. Но, довольно редко мне попадались именно портреты, из-за чего мне захотелось обучить генеративную нейросеть Stable Diffusion для генерации портретов в мозаичном стиле.

Целью данного проекта является выяснение того, насколько точно ген.ИИ может повторить работы древних мастеров и передать текстуру скрупулёзно собранных мозаичных панно.

Изображения и инструменты

Для обучения нейросети была собрана папка с квадратными изображениями 512×512 px, взятыми из материалов для визуального исследования.

Ссылка на папку с изображениями.

Использованные в проекте инструменты: — Stable Diffusion для обучения ген.нейросети под свой стиль — Google Colab для выполнения кода и генераций — Hugging Face для получения токена, с помощью которого обучалась нейросеть — Adobe Photoshop для создания сравнительных коллажей

Описание процесса обучения

Для начала работы требуется загрузить необходимые библиотеки: Diffusers, DreamBooth и прочие.

Затем в Google Colab были загружены собранные изображения через локальные файлы ноутбука. Далее нужно проверить, что изображения в самом деле загрузились.

0

Фрагменты кода

После этого важно создать подписи для каждого изображения, что подскажет, а корректно ли нейросеть распознаёт загруженные картинки. Это является частью подготовки датасета к тренировке нейросети.

Подписи готовы, и стало видно, что нейросеть дала очень точные подписи к мозаикам, а следовательно она действительно их распознаёт и код работает корректно.

0

Фрагменты кода

Затем нужно войти в систему Hugging Face и получить токен для генераций.

Теперь можно приступить к тренировке. Разрешение выставлено как 512, выбран максимальный шаг тренинга 500, а чекпоинт — как 250.

Original size 855x546

Фрагмент кода

Сохраняем модель и приступаем к генерации наших мозаичных изображений.

Фрагменты кода

Итоговая серия изображений

prompts: 1 — photo with a woman in mosaic style, 2 — photo with an outstanding woman in mosaic style

0

prompts: 1, 2 — photo with a man in mosaic style, 3 — photo with a nice man in mosaic style

Из-за слабой мощности моего ноутбука, мне удалось сгенерировать всего лишь пять изображений, но даже они уже достаточно показательны.

Получилось создать три мужских портрета и два женских в стилистике античных мозаик. По-моему удалось достичь очень высокой схожести в генерациях.

Первые промпты для портретов, которые я написала, не включали в себя какие-либо эпитеты, но для двух последних генераций ради разнообразия были добавлены эпитеты nice и outstanding.

Original size 1500x1024

Сравнение лица и причёски на генерации и реальных мозаиках

Нейросеть смогла повторить то, как на мозаичных женских портретах изображались волосы и локоны, а также драпирование ткани одежды.

Original size 1500x1024

Сравнение палитры и круглых рамок на генерации и реальных мозаиках

На генерации выше видно, что искусственный интеллект способен повторять палитру мозаичных панно и добавлять круглые рамки, которыми обычно обрамлялись портреты на античных мозаиках.

А сгенерированный портрет ниже комбинирует в себе черты и особенности нескольких лиц сразу, создавая уникальное новое лицо.

При этом нейросеть выдала результаты с достаточно похожей композицией, где основным фокусом генерации является портрет по плечи. На двух из них чётко видна фирменная круглая рамка у лиц, в остальных случаях она теряется. Цветовая гамма находится на спектре красно-оранжевого и сепии, с одним исключением в виде портрета старца в жёлтых оттенках.

Original size 1500x1024

Сравнение палитры и лиц на генерации и реальных мозаиках

Чему же в целом обучилась нейросеть?

  1. Детали как на античных портретах
  2. Цветовая гамма
  3. Круговые рамки
  4. Поворот головы как на античных портретах

В итоге можно сказать, что генеративные нейросети это интересный инструмент, утоляющий творческое любопытство и показывающий новые идеи для заинтересованных в той или иной области. Если говорить о мозаике, то благодаря ген.ИИ я смогла увидеть мозаичные портреты людей, которых никогда не существовало, что одновременно пугает и восхищает.

Не новыми будут слова о том, что нейросеть не способна заменить человека творческой профессии, однако она вполне может служить генератором черновых идей и вдохновителем для новых материальных работ в старых техниках.

Ссылка на блокнот с кодом.