Original size 1240x1750

Воспроизведение рекламных роликов средствами генеративного ИИ

Консистентность изображений: предмет

This project is a student project at the School of Design or a research project at the School of Design. This project is not commercial and serves educational purposes

Поставленные задачи:

Создание максимально похожих изображения на оригинальные кадры из видеоряда с консистентным объектом.

Цели:

Заменить объект и оттенки в кадре, сохранив максимум деталей.

Анализ консистентности объекта на генерациях.

Ход работы

Пайплайн создания серии изображений с объектом с помощью нейросетей, построенный перед началом работы:

1. Создание серии изображений (в моем случае — рендеры, но можно использовать и просто фотографии) с объектом с разных сторон и ракурсов

2. Обучение нейросети FLUX объекту

3. Разбор видеоряда на ключевые кадры

4. Генерация изображений промпт + референс кадра из оригинального ролика

5. Цветокоррекция и удаление артефактов на пост-продакшене.

Объект:

Оригинальный объект, созданный для видео-ролика

Для своего ролика я решила создать объект самостоятельно в Cinema 4D + Redshift.

Обучение модели FLUX

Как наиболее доступный и простой вариант (без кода) модели для обучения я выбрала Flux.1 + OPT с возможностью создания LoRa* с предметом.

Для обучения модели необходимо от 15 до 35 качественных изображения объекта, которые загружаются в нейросеть. Так же необходимо указать название и кодовое слово для LoRa.

После обучения необходимо выбрать в настройках обученную LoRa и выставить необходимые силы влияния.

*LoRa — метод дообучения существующей модели на основе загруженных изображений. LoRa может использоваться для сохранения определенного стиля, объекта, персонажа.

Original size 1344x768

Кадр, созданный в нейросети Flux

Для дальнейшей работы с нейросетью необходимо использовать кодовое слово, в моем случае это «Janny». Это помогает нейросети понять о каком конкретно объекте идет речь.

Промпт-основа для генерации консистентной бутылки:

Janny, розовая стеклянная бутылка с деревянной пробкой в центре кадра.

На бутылке аккуратная этикетка с надписью:

HSE ART AND DESING SCHOOL JANNY & DRAGON ВКУС СДАННОГО ДИПЛОМА PRODUCT OF STUDENT 70 ML — 100% CGI

Повторение кадра

Original size 1920x1080

Wow How Studio для True Botanicals.

Original size 1344x768

Кадр, созданный в нейросети Flux

Изображение создано без использования кадра-референса, но уже можно сделать выводы:

Исходные изображения для обучения содержат в себе информацию о том, что бутылка стоит на поверхности и поэтому бутылки на всех генерациях будут стоять, а не летать.

Текст не сохраняется, не смотря на подробное описание и обучение.

Пузырьки слишком большие и их слишком мало.

Кадры, созданные в нейросети Flux. 1. 50% сила референса 2. 75% сила референса

Загрузив вместе с промптом кадр из оригинального видеоряда как референс я ожидала получить максимально приближенное к необходимому изображение.

С силой референса 50% пузыри все равно оказались слишком большими, бутылка все равно стоит на поверхности.

А с силой референса 75% нейросеть начала перетягивать цвета с оригинального кадра.

Бутылка получается максимально похожей по форме, но текст искажается и отсутствует художественность оригинальных кадров.

Original size 5120x2880

Чтобы увеличивать силу влияния референса без внедрения посторонних цветов оригинальный кадр был загружен в нейросеть Seedream4 и перекрашен в необходимые оттенки с полным сохранением деталей.

Кадры, созданные в нейросети Flux. 1. 75% сила референса 2. 100% сила референса

Несмотря на то, что теперь нет посторонних цветов, из-за большой силы референса даже с перекрашенного оригинального кадра перетягиваются другие детали: форма и цвет колпачка флакона True Botanicals.

Было принято решение переходить в другие нейросети.

Новый пайплайн

Поскольку ни одна из нейросетей не смогла сделать так же художественно по освещению и объему, в работе над финальными кадрами использовалось сразу несколько нейросетей:

1. Seedream 4 для перекрашивания оригинальных кадров

2. Midjounrey для генерации необходимой формы и освещения

3. Midjourney Edit для получения более точного окружения

4. Пост-обработка в Adobe Photoshop

1. Кадр, созданный в Seedream 2. Wow How Studio для True Botanicals

Полученный перекрашенный кадр будет использоваться в качестве референса

Original size 2912x1632

Кадр, созданный в Midjourney

Как референс стиля (sw) используется перекрашенный кадр, как референс объекта используется рендер бутылки.

Наиболее удачная и консистентная по форме бутылка загружена выбирается из генераций в Midjourney.

Финальный кадр был создан с помощью Midjouney Edit, где можно выделять конкретные области и нейросеть дорисовывает фрагменты в той же стилистике, что и редактируемое изображение.