Консистентность изображений: предмет
Original size 1240x1750
PROTECT STATUS: not protected
This project is a student project at the School of Design or a research project at the School of Design. This project is not commercial and serves educational purposes

Поставленные задачи:

Создание максимально похожих изображения на оригинальные кадры из видеоряда с консистентным объектом.

Цели:

Заменить объект и оттенки в кадре, сохранив максимум деталей.

Анализ консистентности объекта на генерациях.

Ход работы

Пайплайн создания серии изображений с объектом с помощью нейросетей, построенный перед началом работы:

1. Создание серии изображений (в моем случае — рендеры, но можно использовать и просто фотографии) с объектом с разных сторон и ракурсов

2. Обучение нейросети FLUX объекту

3. Разбор видеоряда на ключевые кадры

4. Генерация изображений промпт + референс кадра из оригинального ролика

5. Цветокоррекция и удаление артефактов на пост-продакшене.

Объект:

0

Оригинальный объект, созданный для видео-ролика

Для своего ролика я решила создать объект самостоятельно в Cinema 4D + Redshift.

Обучение модели FLUX

Как наиболее доступный и простой вариант (без кода) модели для обучения я выбрала Flux.1 + OPT с возможностью создания LoRa* с предметом.

Для обучения модели необходимо от 15 до 35 качественных изображения объекта, которые загружаются в нейросеть. Так же необходимо указать название и кодовое слово для LoRa.

После обучения необходимо выбрать в настройках обученную LoRa и выставить необходимые силы влияния.

*LoRa — метод дообучения существующей модели на основе загруженных изображений. LoRa может использоваться для сохранения определенного стиля, объекта, персонажа.

Original size 1344x768

Кадр, созданный в нейросети Flux

Для дальнейшей работы с нейросетью необходимо использовать кодовое слово, в моем случае это «Janny». Это помогает нейросети понять о каком конкретно объекте идет речь.

Промпт-основа для генерации консистентной бутылки:

Janny, розовая стеклянная бутылка с деревянной пробкой в центре кадра.

На бутылке аккуратная этикетка с надписью:

HSE ART AND DESING SCHOOL JANNY & DRAGON ВКУС СДАННОГО ДИПЛОМА PRODUCT OF STUDENT 70 ML — 100% CGI

Повторение кадра

Original size 1920x1080

Wow How Studio для True Botanicals.

Original size 1344x768

Кадр, созданный в нейросети Flux

Изображение создано без использования кадра-референса, но уже можно сделать выводы:

Исходные изображения для обучения содержат в себе информацию о том, что бутылка стоит на поверхности и поэтому бутылки на всех генерациях будут стоять, а не летать.

Текст не сохраняется, не смотря на подробное описание и обучение.

Пузырьки слишком большие и их слишком мало.

Кадры, созданные в нейросети Flux. 1. 50% сила референса 2. 75% сила референса

Загрузив вместе с промптом кадр из оригинального видеоряда как референс я ожидала получить максимально приближенное к необходимому изображение.

С силой референса 50% пузыри все равно оказались слишком большими, бутылка все равно стоит на поверхности.

А с силой референса 75% нейросеть начала перетягивать цвета с оригинального кадра.

Бутылка получается максимально похожей по форме, но текст искажается и отсутствует художественность оригинальных кадров.

Original size 5120x2880

Чтобы увеличивать силу влияния референса без внедрения посторонних цветов оригинальный кадр был загружен в нейросеть Seedream4 и перекрашен в необходимые оттенки с полным сохранением деталей.

Кадры, созданные в нейросети Flux. 1. 75% сила референса 2. 100% сила референса

Несмотря на то, что теперь нет посторонних цветов, из-за большой силы референса даже с перекрашенного оригинального кадра перетягиваются другие детали: форма и цвет колпачка флакона True Botanicals.

Было принято решение переходить в другие нейросети.

Новый пайплайн

Поскольку ни одна из нейросетей не смогла сделать так же художественно по освещению и объему, в работе над финальными кадрами использовалось сразу несколько нейросетей:

1. Seedream 4 для перекрашивания оригинальных кадров

2. Midjounrey для генерации необходимой формы и освещения

3. Midjourney Edit для получения более точного окружения

4. Пост-обработка в Adobe Photoshop

1. Кадр, созданный в Seedream 2. Wow How Studio для True Botanicals

Полученный перекрашенный кадр будет использоваться в качестве референса

Original size 2912x1632

Кадр, созданный в Midjourney

Как референс стиля (sw) используется перекрашенный кадр, как референс объекта используется рендер бутылки.

Наиболее удачная и консистентная по форме бутылка загружена выбирается из генераций в Midjourney.

Финальный кадр был создан с помощью Midjouney Edit, где можно выделять конкретные области и нейросеть дорисовывает фрагменты в той же стилистике, что и редактируемое изображение.

Кадры, созданные нейросетями

Пост-обработка заключалась в цветокоррекции всех кадров и редактирование этикетки с целью сохранения текста, сломанного на генерациях.

Создание итоговых изображений

Все операции из нового паймлайна я повторила с остальными ключевыми кадрами.

1. Кадр, созданный в нейросетях 2. Wow How Studio для True Botanicals

1. Кадр, созданный в нейросетях 2. Wow How Studio для True Botanicals

1. Кадр, созданный в нейросетях 2. Wow How Studio для True Botanicals

1. Кадр, созданный в нейросетях 2. Wow How Studio для True Botanicals

1. Кадр, созданный в нейросетях 2. Wow How Studio для True Botanicals

1. Кадр, созданный в нейросетях 2. Wow How Studio для True Botanicals

1. Кадр, созданный в нейросетях 2. Wow How Studio для True Botanicals

1. Кадр, созданный в нейросетях 2. Wow How Studio для True Botanicals

1. Кадр, созданный в нейросетях 2. Wow How Studio для True Botanicals

1. Кадр, созданный в нейросетях 2. Wow How Studio для True Botanicals

1. Кадр, созданный в нейросетях 2. Wow How Studio для True Botanicals

Далее эти кадры будут использоваться при создании видео

Анализ консистентности

Стоит отметить, что на всех генерациях форма бутылки немного меняется, а на крупных кадрах наиболее видны эти различия.

1. Рендер 2. Генерация

Например, текстура крышки на крупном кадре меняется от генерации к генерации, у меня так и не вышло достигнуть ее консистентности.

1. Рендер 2. Генерация

Проблемы с этикеткой:

Разная форма на каждой генерации

На каждой генерации отличается текстура этикетки

Разный и сильно искаженный текст.

1. Рендер 2. Генерация с пост-обработкой

Форма очень похожа, но все-таки немного отличается от оригинала.

Генерации

Цвета из кадра в кадр варьируются, что влияет на восприятие единой серии изображений.

1. Генерация в midjourney 2. Генерация + редактор midjourney

Некоторые изображение не получилось полностью создать с нуля.

Поэтому была использовала техника комбинирования изображения с покрашенным оригиналом в Midjourney Edit.

Использованные нейросети

Midjourney v7 Seedream 4 Flux

Chat GPT помощь в написании промптов

Источники

Image sources
1.

True Botanicals — 3D Promo Video (Behance Project) // URL: https://www.behance.net/gallery/210739517/True-Botanicals-3D-promo-video (дата обращения: 04.11.2025)

Консистентность изображений: предмет
Chapter:
1
2
3
4
5
6