Original size 2481x3508

Обучение генеративной нейросети на фотографиях кошек

Идея

Фотографировать кошек — одно из моих любимых занятий, особенно если удаётся поймать их выразительный взгляд в портретном кадре. Мне нравится передавать текстуру их шерсти, фокусироваться на глазах — они у кошек невероятно выразительные и кажутся почти гипнотическими.

Именно поэтому для обучения нейросети я решила использовать фотографии кошек. Мне было интересно проверить, насколько точно модель сможет воспроизвести их черты и передать характерный взгляд, избегая типичных артефактов, которые часто встречаются в ИИ-генерируемых изображениях.

Примеры исходных изображений

Процесс обучения

Работа проходила в среде разработки Kaggle, Датасет состоял из 27 изображений кошек.

Original size 3558x1623

Импорт библиотек

Подключаем необходимые библиотеки, загружаем скрипт для обучения модели, а также создаём папку и копируем в неё изображения кошек для дальнейшей обработки.

Original size 3557x2088

Вывод превью изображений

Original size 3557x1699

Генерация подписей к изображениям

Один из этапов обучения — генерация подписей к картинкам. Код позволяет автоматически подписывать изображения, передавая их в модель.

Вход — картинка, выход — сгенерированная моделью подпись.

Original size 3557x1798

Генерация подписей к изображениям

Original size 3558x919

Вход в аккаунт Hugging Face

Проходим авторизацию в Hugging Face для загрузки обученной модели, а также устанавливаем библиотеки для оптимизированных вычислений.

Original size 3558x1975

Обучение модели

Теперь можно было приступать к самому обучению. Размер для изображения был задан в 512×512 пикселей, обучение проходило с шагом в 500 и чекпоинтом 250. С такими параметрами тренировка заняла 30 минут.

Original size 3558x724

Сохранение и загрузка

Автоматически определяем имя пользователя Hugging Face и создаём уникальный путь для загрузки обученной модели LoRA в облачное хранилище Hugging Face.

Original size 3557x2195

Сохранение и загрузка

Загружаем обученную модель LoRA в Hugging Face Hub, чтобы её можно было использовать и загружать в будущем.

Original size 3557x1853

Генерация изображений

Загружаем обученную LoRA-модель и генерируем 10 изображений кошек на основе запроса.

Итоговая серия изображений

Сгенерированные изображения

В итоговой серии изображений кошек, созданных с помощью нейросети, удалось достичь высококачественных результатов, которые соответствуют концепции проекта.

Все изображения выполнены в портретной композиции, что было ключевым требованием, и каждая кошка выглядит выразительно и детализировано. Визуальные характеристики, такие как уникальные и интересные глаза, стали отличительной особенностью.

Нейросеть, несмотря на наличие исходных данных о кошках, сумела передать характерные черты этих животных, такие как текстуры шерсти, форма ушей и лица, а также создаваемое впечатление эмоций и настроений.

Сгенерированные изображения

Однако нейросеть показала определённые особенности при генерации цветов. Преобладание серых и рыжих оттенков в изображениях связано с тем, что модель в какой-то момент запомнила этот цвет как основное, что ограничивает разнообразие палитры. В некоторых случаях изображения отходят от ожидаемой цветовой гаммы, что можно рассматривать как результат работы нейросети. Это также касается выделения специфических цветовых пятен и оттенков.

Сгенерированные изображения

Также, можно заметить, в некоторых случаях нейросеть воспроизводит излишнюю симметрию, которая выглядит несколько искусственно и неточно. Это также следствие особенностей генеративной модели, которая стремится к гармонии, но порой приводит к созданию слишком ровных или одинаковых лиц.

Сгенерированные изображения

В плане технической обработки данных, нейросеть справилась с задачей генерации кошек, основываясь на подготовленных данных, включая описания, и генерируя изображения, которые соответствуют этим описаниям. Использование LoRA-адаптации позволило значительно улучшить качество сгенерированных изображений, сохраняя важные детали и особенности персонажа.

Каждое из изображений отличается друг от друга в некоторых нюансах: различаются позы, выражения лиц, текстуры и оттенки шерсти, что добавляет вариативности в итоговую серию.

Несмотря на некоторые технические ограничения, общая концепция передана успешно — кошки выглядят натурально и гармонично, что делает серию целостной и привлекательной.

Блокнот с кодом и датасет

Обучение генеративной нейросети на фотографиях кошек

Elizaveta Alabuzheva

artificial intelligence