Original size 1140x1600

Обучение генеративной нейросети на попугаях

PROTECT STATUS: not protected

Идея

Для обучения нейросети я решила выбрать фотографии волнистых попугайчиков и посмотреть, насколько хорошо модель сможет сгенерировать фотографии без артефактов, которые так характерны для ИИ-изображений.

Датасет состоял из 30 изображений попугаев, вся работа проходила в среде разработки Google Colab.

Примеры исходных изображений

Пример исходных изображений

big
Original size 1920x1080

Пример исходных изображений

Пример исходных изображений

Процесс обучения

После того, как весь датасет был собран и подготовлен, можно было приступать к работе с кодом. Сначала были импортированы нужные библиотеки, после загружены изображения через встроенную функцию в Google Colab.

big
Original size 1342x693

Импорт библиотек

Original size 1635x680

Вывод превью изображений

Один из этапов обучения — генерация подписей к картинкам. Так можно понять, что нейросеть правильно распознает изображения в датасете.

Original size 1352x635

Генерация подписей к изображениям

Original size 1338x701

Генерация подписей к изображениям и обозначение префикса

Также было необходимо сгенерировать токен на Hugging Face и с помощью него зайти в систему внутри Google Colab, чтобы потом сохранить обученную модель.

Original size 1098x483

Вход в аккаунт Hugging Face

Теперь можно было приступать к самому обучению. Размер для изображения был задан в 512×512 пикселей, обучение проходило с шагом в 500 и чекпоинтом 250. С такими параметрами тренировка заняла 47 минут.

Original size 1072x545

Обучение модели

После того как обучение было завершено, модель можно было сохранить на Hugging Face.

0

Сохранение модели на Hugging Face

Итоговая серия изображений

Сгенерированное изображение / Реальное фото

Сгенерированные изображения вышли довольно удачными, попугаи выглядят как попугаи, как можно заметить, сложно понять, где оригинальное фото, а где ИИ-изображение.

0

Сгенерированные изображения

Помимо самих попугаев, модель неплохо обучилась генерировать и окружение. На одной из картинок можно заметить человеческую руку, которая легко распознается, несмотря на наличие лишнего пальца. При этом какие-то объекты на заднем плане тоже выглядят как что-то реальное.

Сгенерированное изображение / Реальное фото

Конечно не обошлось и без артефактов. На некоторых изображениях птицы стоят друг на друге, либо попугай является частью другого, где-то птица вроде летит, но крылья ее собраны, либо есть одно лишнее.

0

Сгенерированные изображения

Сгенерированное изображение / Реальное фото

В остальном же, попугаи генерируются анатомически правильно в хорошем качестве.

Сгенерированные изображения

Сгенерированные изображения

Описание применения генеративной модели

В проекте были использованы следующие инструменты:

• LoRA: Low-Rank Adaptation of Large Language Models; • Stability AI Stable Diffusion XL (SDXL); • Hugging Face Hub.

Обучение генеративной нейросети на попугаях