Original size 1140x1600

Титаник. Анализ данных

PROTECT STATUS: not protected
The project is taking part in the competition

Вводная часть

Для анализа я выбрала датасет о пассажирах «Титаника», найденный на платформе Kaggle. В нём содержится информация о людях, которые находились на борту корабля во время катастрофы 1912 года. Эти данные включают основные характеристики пассажиров и информацию об их судьбе.

Мне было интересно поработать с этим датасетом, потому что за каждой строкой таблицы стоит реальный человек. Анализ позволяет увидеть, как социальные и экономические факторы влияли на шансы выжить. История «Титаника» широко известна и часто романтизирована, однако данные дают возможность взглянуть на неё более объективно и проверить распространённые представления с помощью чисел и визуализаций.

Виды диаграмм

Круговая диаграмма — для отображения общей доли выживших и погибших пассажиров.

Сложенная столбчатая диаграмма — для сравнения уровня выживаемости внутри каждого класса кают.

Гистограмма — для анализа возрастного распределения пассажиров.

Точечная диаграмма с медианой — для сравнения стоимости билетов между классами кают

Стилистика

Для оформления графиков я выбрала палитру, которая ассоциируется с морской тематикой и историческим контекстом «Титаника».

В качестве основного шрифта был выбран Manrope. Он отличается хорошей читаемостью и современным нейтральным характером.

big
Original size 1720x200
big
Original size 1720x340

Начало работы

Импорт библиотек и загрузка датасета

На первом этапе я подключила основные библиотеки для анализа данных и визуализации. Датасет с информацией о пассажирах «Титаника» загрузила из Excel-файла.

Original size 1136x372

Добавление шрифта и настройка стиля

Перед построением графиков настроила единый визуальный стиль проекта, задала глобальные параметры оформления и подключила шрифт Manrope.

Original size 1136x932

Общая выживаемость пассажиров

Первый график даёт общее представление о масштабе трагедии. Круговая диаграмма показывает соотношение выживших и погибших пассажиров как части единого целого, что делает вводный анализ интуитивно понятным.

Original size 489x461
Original size 1136x929

Выживаемость по классам кают

Затем я хотела проанализировать, как социальный фактор (класс каюты) повлиял на вероятность выживания. Сложенная столбчатая диаграмма с нормализацией по процентам позволила сравнить доли выживших и погибших внутри каждого класса.

Original size 616x506
0

Распределение возраста пассажиров

Гистограмма показывает, какие возрастные группы были представлены чаще, а цвет столбцов дополнительно отражает плотность распределения. Медиана используется как устойчивая характеристика центра распределения.

Original size 616x421
0

Стоимость билетов по классам

Последний график сравнивает стоимость билетов между классами кают. Используется точечная диаграмма с медианой, которая позволяет увидеть реальное распределение значений и подчеркнуть разницу как между классами, так и внутри них.

Original size 619x421
Original size 1136x1483

Вывод

Общая выживаемость была низкой — большинство пассажиров погибло, что подчёркивает масштаб катастрофы. Существенное влияние на шансы выживания имел класс каюты: пассажиры первого класса спасались значительно чаще, чем второго и третьего, что отражает роль социального статуса и условий эвакуации.

Возрастное распределение показало преобладание взрослых пассажиров, а медианный возраст оказался наиболее корректной характеристикой из-за асимметрии данных и выбросов. Анализ стоимости билетов выявил сильное неравенство между классами: в первом классе цены были значительно выше и более вариативны.

В целом результаты подтверждают тесную связь выживаемости с социально-экономическими факторами, а визуализация данных позволила сделать эти выводы наглядными и объективными.

Описание применения генеративной модели

Chat GPT — уточнение синтаксиса, поиск решений отдельных технических задач и ошибок с компиляцией.

Google Fonts — установка шрифта Manrope для оформления диаграмм.