
Идея проекта

На первом курсе я написала визуальное исследование, посвящённое сравнению мозаик античных и советских. Я находила перекликающиеся и там, и там сюжеты, где даже поворот головы мозаичных героев могли быть идентичны. Но, довольно редко мне попадались именно портреты, из-за чего мне захотелось обучить генеративную нейросеть Stable Diffusion для генерации портретов в мозаичном стиле.
Целью данного проекта является выяснение того, насколько точно ген.ИИ может повторить работы древних мастеров и передать текстуру скрупулёзно собранных мозаичных панно.
Изображения и инструменты


Для обучения нейросети была собрана папка с квадратными изображениями 512×512 px, взятыми из материалов для визуального исследования.
Ссылка на папку с изображениями.


Использованные в проекте инструменты: — Stable Diffusion для обучения ген.нейросети под свой стиль — Google Colab для выполнения кода и генераций — Hugging Face для получения токена, с помощью которого обучалась нейросеть — Adobe Photoshop для создания сравнительных коллажей
Описание процесса обучения
Для начала работы требуется загрузить необходимые библиотеки: Diffusers, DreamBooth и прочие.
Затем в Google Colab были загружены собранные изображения через локальные файлы ноутбука. Далее нужно проверить, что изображения в самом деле загрузились.
Фрагменты кода
После этого важно создать подписи для каждого изображения, что подскажет, а корректно ли нейросеть распознаёт загруженные картинки. Это является частью подготовки датасета к тренировке нейросети.
Подписи готовы, и стало видно, что нейросеть дала очень точные подписи к мозаикам, а следовательно она действительно их распознаёт и код работает корректно.
Фрагменты кода
Затем нужно войти в систему Hugging Face и получить токен для генераций.
Теперь можно приступить к тренировке. Разрешение выставлено как 512, выбран максимальный шаг тренинга 500, а чекпоинт — как 250.
Фрагмент кода
Сохраняем модель и приступаем к генерации наших мозаичных изображений.


Фрагменты кода
Итоговая серия изображений


prompts: 1 — photo with a woman in mosaic style, 2 — photo with an outstanding woman in mosaic style
prompts: 1, 2 — photo with a man in mosaic style, 3 — photo with a nice man in mosaic style
Из-за слабой мощности моего ноутбука, мне удалось сгенерировать всего лишь пять изображений, но даже они уже достаточно показательны.
Получилось создать три мужских портрета и два женских в стилистике античных мозаик. По-моему удалось достичь очень высокой схожести в генерациях.
Первые промпты для портретов, которые я написала, не включали в себя какие-либо эпитеты, но для двух последних генераций ради разнообразия были добавлены эпитеты nice и outstanding.
Сравнение лица и причёски на генерации и реальных мозаиках
Нейросеть смогла повторить то, как на мозаичных женских портретах изображались волосы и локоны, а также драпирование ткани одежды.
Сравнение палитры и круглых рамок на генерации и реальных мозаиках
На генерации выше видно, что искусственный интеллект способен повторять палитру мозаичных панно и добавлять круглые рамки, которыми обычно обрамлялись портреты на античных мозаиках.
А сгенерированный портрет ниже комбинирует в себе черты и особенности нескольких лиц сразу, создавая уникальное новое лицо.
При этом нейросеть выдала результаты с достаточно похожей композицией, где основным фокусом генерации является портрет по плечи. На двух из них чётко видна фирменная круглая рамка у лиц, в остальных случаях она теряется. Цветовая гамма находится на спектре красно-оранжевого и сепии, с одним исключением в виде портрета старца в жёлтых оттенках.
Сравнение палитры и лиц на генерации и реальных мозаиках
Чему же в целом обучилась нейросеть?
В итоге можно сказать, что генеративные нейросети это интересный инструмент, утоляющий творческое любопытство и показывающий новые идеи для заинтересованных в той или иной области. Если говорить о мозаике, то благодаря ген.ИИ я смогла увидеть мозаичные портреты людей, которых никогда не существовало, что одновременно пугает и восхищает.
Не новыми будут слова о том, что нейросеть не способна заменить человека творческой профессии, однако она вполне может служить генератором черновых идей и вдохновителем для новых материальных работ в старых техниках.
Ссылка на блокнот с кодом.