Original size 1140x1600

Анализ данных беговых тренировок (Strava)

PROTECT STATUS: not protected
The project is taking part in the competition

Датасет, выбранный для проекта, содержит информацию об активности пользователей приложения Strava — популярной платформы для отслеживания физических упражнений, особенно бега и велоспорта.

В качестве исходных данных был выбран датасет Strava Running Data, представляющий собой комплексный набор данных о беговых тренировках. Данные были получены путём экспорта из сайта kaggle и представлены в формате Excel, что позволило удобно обрабатывать их с помощью языка программирования Python и стандартных библиотек анализа данных (Pandas, NumPy).

Структура датасета включает: 700+ записей о пробежках (март 2022 — январь 2024), дату и время каждой активности, дистанцию в километрах, продолжительность тренировки и среднюю скорость и дополнительные метрики активностей.

Интерес анализа данных основан на личном интересе к бегу и какие показатели у пользователей этого приложения. Также наличие несколько взаимосвязанных переменных (дистанция, время, скорость) для комплексного анализа показалось не менее приятным критерием.

Для анализа и раскрытия различных аспектов были выбраны 4 типа визуализаций:

1. Линейный график накопленной дистанции — чтобы показать общий прогресс и рост общего километража во времени. ​Линейный график динамики дистанции — чтобы увидеть колебания длины отдельных пробежек, периоды пиков и спадов нагрузки.

2. Круговая диаграмма типов пробежек — чтобы показать, какую долю от всех тренировок занимают короткие, средние и длинные забеги и насколько сбалансирован план.

3. Точечная диаграмма «дистанция–скорость» — чтобы оценить, как меняется средняя скорость в зависимости от длины пробежки и есть ли между ними связь.

4. Гистограмма дистанций — чтобы понять, какие расстояния встречаются чаще всего и какая дистанция является типичной для пробежки.

5. Столбчатая диаграмма по дням недели — чтобы сравнить, в какие дни недели бегается больше или меньше всего и выявить привычный ритм тренировок.

Этапы работы

Первый этап включал импорт библиотек и загрузку датасета.

Проведённые операции: Загрузка 700+ записей о пробежках Проверка типов данных и наличия пропусков Анализ распределения переменных

Original size 1920x1080

Подготовка данных.

Original size 1920x1080

Создание единого визуального стиля со оранжевой палитрой:

Original size 1920x1080

Преобразование и обогащение датасета новыми переменными:

Original size 1920x1080

Визуализация данных

0

Динамика дистанции пробежек. Линейный график

График показывает, как менялась дистанция каждой пробежки во времени: видны периоды роста, спада, резкие скачки и «провалы» в активности. ​Он полезен для выявления трендов и волатильности: по нему можно заметить, когда тренировки становились регулярнее, когда начинались длинные забеги и как менялся режим в разные сезоны.

0

Типы пробежек по дистанции. Круговая диаграмма

Диаграмма показывает, какая доля всех тренировок приходится на короткие, средние и длинные дистанции (35.2%, 34,3%, 30,5%). ​Она полезна тем, что позволяет быстро оценить баланс нагрузок: видно, что тренировки распределены довольно равномерно между типами, а значит программа не перегружена только длинными или только короткими забегами.

0

Связь дистанции и средней скорости. Точечная диаграмма

Диаграмма рассеяния показывает каждую пробежку как точку с координатами «дистанция — средняя скорость», что визуализирует связь между длиной забега и скоростью. ​Она полезна для анализа корреляции: видно, что при увеличении дистанции скорость обычно немного падает, то есть более длинные пробежки выполняются медленнее, что подтверждает вывод о рациональном распределении усилий.

0

Распределение дистанций. Гистограмма

Гистограмма показывает, какие дистанции встречаются чаще всего и как в целом распределены длины забегов по диапазонам. ​Она полезна для понимания «типичной» тренировки: по ней видно, что основной массив пробежек лежит в районе 3–10 км, а длинные забеги на 20+ км встречаются редко и выполняют роль нагрузочных пиков.

0

Средняя дистанция по дням недели. Столбчатая диаграмма

Диаграмма демонстрирует различия в средней дистанции пробежек в зависимости от дня недели, что позволяет выявить поведенческие паттерны тренировок.

0

Накопленный тренировочный объём. Кумулятивная дистанция

Показывает накопленный тренировочный объём во времени и используется для оценки общего прогресса.

Описание применения генеративной модели

В процессе работы использовалась генеративная модель ChatGPT (OpenAI).

ИИ применялся для:

помощи в написании и оптимизации Python-кода, выбора подходящих типов визуализаций, объяснения статистических методов, формулирования текстов для презентации.

https://chatgpt.com/

Источник

Выгрузка данных с сайта kaggle (URL: https://www.kaggle.com/datasets/ajitjadhav1/strava-running-activity-data/data), дата обращения 22.12.2025