
Поставленные задачи:
Создание максимально похожих изображения на оригинальные кадры из видеоряда с консистентным объектом.
Цели:
Заменить объект и оттенки в кадре, сохранив максимум деталей.
Анализ консистентности объекта на генерациях.
Ход работы
Пайплайн создания серии изображений с объектом с помощью нейросетей, построенный перед началом работы:
1. Создание серии изображений (в моем случае — рендеры, но можно использовать и просто фотографии) с объектом с разных сторон и ракурсов
2. Обучение нейросети FLUX объекту
3. Разбор видеоряда на ключевые кадры
4. Генерация изображений промпт + референс кадра из оригинального ролика
5. Цветокоррекция и удаление артефактов на пост-продакшене.
Объект:
Оригинальный объект, созданный для видео-ролика
Для своего ролика я решила создать объект самостоятельно в Cinema 4D + Redshift.
Обучение модели FLUX
Как наиболее доступный и простой вариант (без кода) модели для обучения я выбрала Flux.1 + OPT с возможностью создания LoRa* с предметом.
Для обучения модели необходимо от 15 до 35 качественных изображения объекта, которые загружаются в нейросеть. Так же необходимо указать название и кодовое слово для LoRa.
После обучения необходимо выбрать в настройках обученную LoRa и выставить необходимые силы влияния.
*LoRa — метод дообучения существующей модели на основе загруженных изображений. LoRa может использоваться для сохранения определенного стиля, объекта, персонажа.
Кадр, созданный в нейросети Flux
Для дальнейшей работы с нейросетью необходимо использовать кодовое слово, в моем случае это «Janny». Это помогает нейросети понять о каком конкретно объекте идет речь.
Промпт-основа для генерации консистентной бутылки:
Janny, розовая стеклянная бутылка с деревянной пробкой в центре кадра.
На бутылке аккуратная этикетка с надписью:
HSE ART AND DESING SCHOOL JANNY & DRAGON ВКУС СДАННОГО ДИПЛОМА PRODUCT OF STUDENT 70 ML — 100% CGI
Повторение кадра
Wow How Studio для True Botanicals.
Кадр, созданный в нейросети Flux
Изображение создано без использования кадра-референса, но уже можно сделать выводы:
Исходные изображения для обучения содержат в себе информацию о том, что бутылка стоит на поверхности и поэтому бутылки на всех генерациях будут стоять, а не летать.
Текст не сохраняется, не смотря на подробное описание и обучение.
Пузырьки слишком большие и их слишком мало.


Кадры, созданные в нейросети Flux. 1. 50% сила референса 2. 75% сила референса
Загрузив вместе с промптом кадр из оригинального видеоряда как референс я ожидала получить максимально приближенное к необходимому изображение.
С силой референса 50% пузыри все равно оказались слишком большими, бутылка все равно стоит на поверхности.
А с силой референса 75% нейросеть начала перетягивать цвета с оригинального кадра.
Бутылка получается максимально похожей по форме, но текст искажается и отсутствует художественность оригинальных кадров.
Чтобы увеличивать силу влияния референса без внедрения посторонних цветов оригинальный кадр был загружен в нейросеть Seedream4 и перекрашен в необходимые оттенки с полным сохранением деталей.


Кадры, созданные в нейросети Flux. 1. 75% сила референса 2. 100% сила референса
Несмотря на то, что теперь нет посторонних цветов, из-за большой силы референса даже с перекрашенного оригинального кадра перетягиваются другие детали: форма и цвет колпачка флакона True Botanicals.
Было принято решение переходить в другие нейросети.
Новый пайплайн
Поскольку ни одна из нейросетей не смогла сделать так же художественно по освещению и объему, в работе над финальными кадрами использовалось сразу несколько нейросетей:
1. Seedream 4 для перекрашивания оригинальных кадров
2. Midjounrey для генерации необходимой формы и освещения
3. Midjourney Edit для получения более точного окружения
4. Пост-обработка в Adobe Photoshop


1. Кадр, созданный в Seedream 2. Wow How Studio для True Botanicals
Полученный перекрашенный кадр будет использоваться в качестве референса
Кадр, созданный в Midjourney
Как референс стиля (sw) используется перекрашенный кадр, как референс объекта используется рендер бутылки.
Наиболее удачная и консистентная по форме бутылка загружена выбирается из генераций в Midjourney.
Финальный кадр был создан с помощью Midjouney Edit, где можно выделять конкретные области и нейросеть дорисовывает фрагменты в той же стилистике, что и редактируемое изображение.


Кадры, созданные нейросетями
Пост-обработка заключалась в цветокоррекции всех кадров и редактирование этикетки с целью сохранения текста, сломанного на генерациях.
Создание итоговых изображений
Все операции из нового паймлайна я повторила с остальными ключевыми кадрами.


1. Кадр, созданный в нейросетях 2. Wow How Studio для True Botanicals


1. Кадр, созданный в нейросетях 2. Wow How Studio для True Botanicals


1. Кадр, созданный в нейросетях 2. Wow How Studio для True Botanicals


1. Кадр, созданный в нейросетях 2. Wow How Studio для True Botanicals


1. Кадр, созданный в нейросетях 2. Wow How Studio для True Botanicals


1. Кадр, созданный в нейросетях 2. Wow How Studio для True Botanicals


1. Кадр, созданный в нейросетях 2. Wow How Studio для True Botanicals


1. Кадр, созданный в нейросетях 2. Wow How Studio для True Botanicals


1. Кадр, созданный в нейросетях 2. Wow How Studio для True Botanicals


1. Кадр, созданный в нейросетях 2. Wow How Studio для True Botanicals


1. Кадр, созданный в нейросетях 2. Wow How Studio для True Botanicals
Далее эти кадры будут использоваться при создании видео
Анализ консистентности
Стоит отметить, что на всех генерациях форма бутылки немного меняется, а на крупных кадрах наиболее видны эти различия.


1. Рендер 2. Генерация
Например, текстура крышки на крупном кадре меняется от генерации к генерации, у меня так и не вышло достигнуть ее консистентности.


1. Рендер 2. Генерация
Проблемы с этикеткой:
Разная форма на каждой генерации
На каждой генерации отличается текстура этикетки
Разный и сильно искаженный текст.


1. Рендер 2. Генерация с пост-обработкой
Форма очень похожа, но все-таки немного отличается от оригинала.


Генерации
Цвета из кадра в кадр варьируются, что влияет на восприятие единой серии изображений.


1. Генерация в midjourney 2. Генерация + редактор midjourney
Некоторые изображение не получилось полностью создать с нуля.
Поэтому была использовала техника комбинирования изображения с покрашенным оригиналом в Midjourney Edit.
Использованные нейросети
Midjourney v7 Seedream 4 Flux
Chat GPT помощь в написании промптов
Источники
True Botanicals — 3D Promo Video (Behance Project) // URL: https://www.behance.net/gallery/210739517/True-Botanicals-3D-promo-video (дата обращения: 04.11.2025)