
О проекте
Пирожные перестали быть просто десертом. Сегодня это самостоятельное искусство, культурный феномен и социальный маркер. Их изысканная подача стала символом утонченного вкуса, праздника в повседневности и визуальной эстетики соцсетей.
На этом фоне возникает важный исследовательский вопрос: что определяет успех современного пирожного?
Проект «Анализ пирожных: Мировые тенденции кондитерского искусства» исследует пирожное как культурный код. Через анализ популярности техник, географии происхождения и экспертных оценок я раскрываю формулу современного кондитерского успеха и показываю, как в маленьком десерте отражаются большие культурные тренды нашего времени.
Цель и задачи проекта
Цель проекта — выявить основные вкусовые тенденции в пирожных на основе анализа открытых данных.
Для достижения цели были поставлены следующие задачи:
- изучить структуру выбранного датасета - выделить пирожные из общего массива рецептов - проанализировать популярность вкусов - исследовать связь вкусов с рейтингами и успешностью - визуализировать результаты в изучающем формате
Источник данных:
В качестве источника данных был выбран датасет Dessert Flavor Combinations, размещённый на платформе Kaggle. Данный датасет является открытым и предназначен для анализа вкусовых сочетаний в десертах.
Использование данных с Kaggle позволяет обеспечить прозрачность исследования и возможность воспроизведения результатов.
Датасет представлен в формате CSV и содержит информацию о рецептах и их вкусовых характеристиках.
Основные признаки:
- recipe_name — название рецепта - flavors — перечень вкусов и вкусовых сочетаний - rating — пользовательская оценка рецепта - success — числовой показатель успешности рецепта
Такая структура данных позволяет проводить как количественный, так и качественный анализ.
Инструменты и среда работы
Анализ данных выполнялся в среде Google Colab с использованием языка программирования Python.
Выбор этих инструментов обусловлен их популярностью и удобством для анализа табличных данных.
Пошаговый план работы
На первом практическом этапе данные были загружены в среду Google Colab с использованием библиотеки Pandas. Данные представлены в формате CSV, что удобно для табличного анализа.
Для загрузки данных был использован стандартный метод read_csv (). После загрузки была выполнена первичная проверка, чтобы убедиться, что данные считались корректно.
import pandas as pd
df = pd.read_csv («recipes.csv») df.head ()
После загрузки данных был проведён первичный анализ структуры датасета. Целью этого этапа было понять, какие столбцы присутствуют в таблице и с какими типами данных предстоит работать.
Это необходимо для корректного выбора методов очистки и анализа данных на следующих этапах.
df.columns
На следующем этапе была изучена общая информация о датасете, включая количество строк, типы данных и наличие пропущенных значений.
Это позволяет оценить качество данных и определить необходимость их очистки.
df.info ()
Далее была выполнена проверка датасета на наличие пропущенных значений в каждом столбце.
Пропущенные значения могут искажать результаты анализа, поэтому их выявление является важным этапом работы с данными.
df.isna ().sum ()
На этапе очистки данных были удалены строки с пропущенными значениями в ключевых столбцах, а также устранены возможные дубликаты. Это позволило повысить надёжность дальнейшего анализа.
df = df.dropna () df = df.drop_duplicates ()
После очистки данных было подтверждено, что в датасете используются следующие ключевые признаки:
- название рецепта - вкусовые характеристики - пользовательский рейтинг - показатель успешности
Далее анализ будет сосредоточен на этих признаках.
df.columns
Поскольку исходный датасет содержит различные виды десертов, следующим шагом стала фильтрация данных для выделения именно пирожных. Для этого использовался поиск по ключевым словам в названии рецепта.
keywords = «cake|pastry|macaron|tart|eclair|dessert|cupcake|pie»
df_pastry = df[ df[«recipe_name»].str.contains (keywords, case=False, na=False) ]
df_pastry.head ()
После фильтрации данных была выполнена проверка результата, чтобы убедиться, что выборка содержит только пирожные. Также была оценена размерность полученного поднабора данных.
df_pastry.head () df_pastry.shape
На данном этапе данные были подготовлены к анализу вкусовых характеристик. Текстовые данные в столбце flavors будут использоваться для частотного анализа и группировки вкусов.
Этот этап является переходом от подготовки данных к аналитической части проекта.
Визуализация данных
Перед построением графиков была выполнена настройка визуального стиля. Цель — создать единый, узнаваемый и тематически подходящий дизайн, связанный с кондитерской эстетикой.
Цвета и параметры оформления задаются программно, без постобработки в графических редакторах.
ПОДГОТОВКА ВКУСОВ К АНАЛИЗУ:
Столбец flavors содержит несколько вкусов, записанных в одной строке. Для корректного анализа необходимо разделить их и получить список отдельных вкусов.
Это позволит провести частотный анализ и определить наиболее распространённые вкусы.
from collections import Counter
all_flavors = []
for flavors in df_pastry[«flavors»]: for flavor in flavors.split (»,»): all_flavors.append (flavor.strip ().lower ())
flavor_counts = Counter (all_flavors)
На следующем этапе был проведён частотный анализ вкусов. Он позволяет определить, какие вкусы чаще всего встречаются в рецептах пирожных.
Для наглядности были отобраны 10 наиболее популярных вкусов.
import matplotlib.pyplot as plt
plt.figure (figsize=(8,5)) plt.bar ( top_flavors[«flavor»], top_flavors[«count»], color=»#F6C5D9» ) plt.title («Самые популярные вкусы пирожных») plt.xticks (rotation=45) plt.show ()
Для анализа популярности отдельных вкусов была выбрана столбчатая диаграмма, так как она позволяет наглядно сравнить частоту появления категорий и быстро определить лидеров. Данный тип визуализации особенно удобен при сравнении дискретных значений, таких как вкусы.
Результаты показывают, что наиболее популярными являются классические вкусы, такие как шоколад и ваниль. Это свидетельствует о том, что, несмотря на развитие экспериментальных направлений в кондитерском искусстве, базовые вкусы по-прежнему остаются основой ассортимента.
Современные мировые тенденции в пирожных демонстрируют устойчивость традиционных вкусов, которые служат фундаментом для дальнейших экспериментов.
Для более обобщённого анализа вкусы были сгруппированы в категории.
Это позволяет перейти от анализа отдельных вкусов к анализу вкусовых направлений.
def flavor_group (flavor): if «chocolate» in flavor: return «Chocolate» elif «berry» in flavor or «fruit» in flavor: return «Fruit» elif «nut» in flavor: return «Nut» elif «cream» in flavor: return «Cream» else: return «Other»
df_pastry[«flavor_group»] = df_pastry[«flavors»].apply (flavor_group)
Данный график показывает соотношение основных вкусовых групп в пирожных.
Круговая диаграмма позволяет наглядно сравнить доли категорий.
df_pastry[«flavor_group»].value_counts ().plot ( kind="pie», autopct="%1.1f%%», colors=[«
Круговая диаграмма используется для отображения соотношений частей внутри целого. В данном случае она позволяет показать, какую долю занимают разные вкусовые группы в общем количестве пирожных.
Каждый сектор диаграммы отражает долю конкретной вкусовой группы. Чем больше сектор, тем чаще соответствующая группа встречается в рецептах.
Анализ показывает, что шоколадные и фруктовые вкусы занимают наибольшую долю. Это указывает на универсальность этих вкусов и их устойчивую популярность в мировой кондитерской практике.
Мировые тенденции в пирожных формируются вокруг вкусов, которые воспринимаются как понятные и комфортные для широкой аудитории.
Для оценки общего восприятия пирожных был проанализирован столбец rating. Распределение рейтингов позволяет понять, насколько высоко пользователи оценивают рецепты.
plt.figure (figsize=(8,5)) plt.hist ( df_pastry[«rating»], bins=15, color=»#E676B1» ) plt.title («Распределение рейтингов пирожных») plt.xlabel («Рейтинг») plt.ylabel («Частота») plt.show ()
Гистограмма является оптимальным типом визуализации для анализа распределения числовых данных. Она позволяет оценить, какие значения рейтинга встречаются чаще всего и насколько равномерно распределены оценки.
График отображает распределение пользовательских оценок пирожных по интервалам. По оси X отложены значения рейтинга, по оси Y — количество рецептов.
Большинство значений рейтинга сосредоточено в верхнем диапазоне. Это означает, что пирожные в целом получают высокие оценки и положительно воспринимаются пользователями.
Категория пирожных является устойчиво популярной и хорошо принимаемой аудиторией.
Показатель success используется для оценки общей успешности рецепта. Был проведён анализ среднего значения успешности
df_pastry[«success»].describe ()
Для визуального анализа успешности рецептов был построен столбчатый график среднего значения success.
success_by_flavor = ( df_pastry .groupby («flavor_group»)[«success»] .mean () )
success_by_flavor.plot ( kind="bar», color=»#F6C5D9», figsize=(7,5) ) plt.title («Средняя успешность пирожных по вкусовым группам») plt.ylabel («Success») plt.show ()
Столбчатая диаграмма позволяет наглядно представить среднее значение показателя и легко интерпретировать результат. Она хорошо подходит для сравнения и демонстрации агрегированных показателей.
Полученное значение указывает на то, что пирожные являются успешной и востребованной категорией десертов.
Вкусовые особенности и популярность пирожных делают их устойчивым элементом мировой кондитерской культуры.
Заключение
В рамках проекта был проведён анализ пирожных как отдельной категории десертов на основе открытого датасета Kaggle. В ходе работы были выполнены загрузка, очистка и фильтрация данных, что позволило выделить релевантную подвыборку для анализа.
Результаты показали, что в пирожных доминируют классические вкусы, прежде всего шоколадные и фруктовые, которые формируют основу современной кондитерской культуры. Анализ пользовательских рейтингов и показателя успешности подтвердил высокую популярность и устойчивую востребованность данной категории десертов.
Проект демонстрирует, что методы анализа данных и визуализации могут эффективно применяться для изучения гастрономических и культурных тенденций, а объясняющий формат визуализации позволяет сделать результаты анализа наглядными и интерпретируемыми.
Использованные инструменты
В ходе выполнения проекта были использованы следующие инструменты и технологии:
- Kaggle — платформа с открытыми датасетами Датасет: Dessert Flavor Combinations Ссылка: https://www.kaggle.com/datasets/keytarrockstar/dessert-flavor-combinations?utm_source=chatgpt.com - CSV-файл с исходными данными https://drive.google.com/file/d/1ol_KQEYUUaMvONzt1kvNvzNdUMTpjSOE/view - Google Colab с кодом анализа и визуализации https://colab.research.google.com/drive/104thtc_ASElxq7amswsuiyv8CZI99haF?authuser=0#scrollTo=xGnBZwZg_UKF - ChatGPT использовался для корректировки кодов