Original size 1140x1600

Анализ данных «Музыка Spotify — like»

PROTECT STATUS: not protected
The project is taking part in the competition

Цель исследования

Музыка — важная часть повседневной жизни, а благодаря стриминговым сервисам и большим данным мы можем количественно исследовать ее свойства. Однако большинство слушателей воспринимают песни как набор субъективных впечатлений.

Цель этого проекта — превратить музыку в данные: проанализировать, как числовые аудиофичи (энергичность, танцевальность, темп, громкость и др.) распределяются по жанрам и как они между собой связаны.

Описание признаков

genre — жанр трека (категориальная переменная) danceability — танцевальность (от 0 до 1) energy — «энергия» трека (0–1) loudness — громкость, dB (от –35 до — speechiness, acousticness, instrumentalness, liveness, valence — дополнительные характеристики (0–1) tempo — темп, BPM (от 60 до 180)

Инструменты: pandas, numpy — для формирования и обработки данных matplotlib, seaborn — для построения графиков

Код анализа данных

big
Original size 1800x1324

Импорт библиотек + создание датасета

График 1

Original size 1400x732

Корреляционная матрица (heatmap)

Original size 870x767

Выявлены сильные связи: energy and loudness (энергичные треки чаще громкие); отрицательная взаимосвязь acousticness and loudness / energy — акустичные треки спокойнее

График 2

Original size 1448x428

Barplot — средняя энергия по жанрам

Original size 981x581

Жанры EDM / Dance Pop/ House/ Rap — лидеры по энергичности. Классические и акустические стили — внизу.

График 3

Original size 1406x378

Scatterplot Tempo vs Energy

Original size 846x629

Темп и энергия связаны не строго: высокий BPM не равно высокая энергия — виден разброс. Темп — не главный показатель силы трека.

График 4

Original size 1456x612

Boxplot — танцевальность по жанрам

Original size 981x581

График 5

Original size 1622x736

Pairplot (tempo, energy, valence)

Original size 1190x1189

Энергия и темп часто коррелируют, но valence (настроение) почти не зависят от других фич. Настроение трека — отдельный измеритель.

График 6

Original size 1444x384

Гистограмма громкости (loudness)

Original size 850x552

Большинство треков имеют громкость между -30 и -5 dB. Жанры с высокой loudness — чаще поп/ электронные

Выводы

1. Аудиофичи действительно отражают различия между жанрами: существуют закономерности, по которым жанры можно классифицировать по «энергии», «танцевалности», «громкости».

2. Темп — не самый надежный показатель энергии или танцевальности.

3. Эмоциональная окраска (valence) почти независима от технических параметров — это отдельный аспект восприятия музыки.

4. Сгенерированный данные показывают, что даже упрощенный «виртуальный Spotify» может дать реалистичные и объяснимы распределения — хорошая база для ученых проектов.