Original size 1750x2480

Библиотека обмена: анализ 1000 самых популярных книг

The project is taking part in the competition

В данном проекте будут расмотрены данные о самых популярных книгах для обмена.

Выбор данных и источник

Для анализа я выбрала датасет «Top 1000 Most Swapped Books», содержащий информацию о 1000 наиболее обмениваемых книг в международной библиотечной сети.

Датасет включает следующие параметры: • id, title, author, genre, language • publicationYear, publisher, description • pageCount, tags

Блокнот с кодом и датасет: https://disk.yandex.ru/d/Zu7zwU6fEDAU8A

Почему эта тема интересна?

Анализ популярных книг для обмена раскрывает тренды в читательских предпочтениях, демонстрирует, какие жанры и авторы пользуются наибольшим спросом в международной книжной культуре. Это особенно актуально как для дизайнеров (визуальное оформление книг), так и для понимания культурных закономерностей в современном обществе.

Выбранные типы графиков и обоснование:

• Горизонтальная столбчатая диаграмма — для наглядного сравнения жанров • Линейный график — для отображения временных тенденций • Boxplot — для анализа распределений и выбросов • Кольцевая диаграмма (Donut Chart) — для показа долевого распределения языков • Bubble Chart — для многомерного анализа трёх переменных одновременно • Scatter plot — для выявления корреляций между годом и объёмом

Этапы работы и обработка данных

Шаг 1: Загрузка и первичный анализ Шаг 2: Очистка данных Шаг 3: Преобразование типов данных Шаг 4: Стилизация визуализаций

Статистические методы, использованные в анализе:

1. Описательная статистика — value_counts () — для определения частотности жанров и языков — mean (), median () — для расчёта среднего объёма книг — quantile () — для выявления выбросов (99-й процентиль)

2. Группировка и агрегация — groupby () — для анализа по десятилетиям и жанрам — agg () — для расчёта нескольких метрик одновременно

3. Временной анализ — Округление годов в десятилетия для выявления долгосрочных тенденций — Линейная визуализация временных рядов

4. Анализ распределений — Boxplot для выявления медианы, квартилей, выбросов — Scatter plot для обнаружения корреляций между переменными

Итоговые графики и интерпретация

Original size 420x106

Данные для анализа:

id: Уникальный идентификатор записи в датасете. Используется как первичный ключ для однозначного определения каждой книги.

title: Название книги. Представляет собой основное наименование произведения.

author: Имя автора книги. Используется для анализа популярности авторов и их вклада в различные жанры.

genre: Литературный жанр, к которому относится книга (например, Fantasy, Sci-Fi, Classic и др.). Позволяет классифицировать книги и сравнивать их по тематике.

language: Язык, на котором написана или опубликована книга. Используется для анализа языкового разнообразия и распространённости литературы.

publicationYear: Год публикации книги. Позволяет анализировать временные тренды, эпохи и динамику книжного рынка.

publisher: Издательство, выпустившее книгу. Используется для анализа роли издательств и их представленности в датасете.

description: Краткое описание сюжета или аннотация книги. Представляет собой текстовые данные, которые могут быть использованы для тематического анализа или обработки естественного языка.

pageCount: Общее количество страниц в книге. Характеризует объём произведения и может использоваться для сравнения книг по длине.

tags: Набор тегов, описывающих ключевые темы и мотивы книги (например, magic, school, adventure). Используется для более детальной тематической классификации.

Обработка данных

Original size 287x48

Original size 883x773

Original size 761x87

Original size 1919x526

В датасете есть пропуски, а значит их стоит почистить и преобразовать данные

Original size 255x54

Original size 246x50

Original size 929x1199

Графики

Original size 908x644

1. Топ-10 жанров

Original size 686x210

Original size 865x470

На горизонтальной столбчатой диаграмме показано количество книг в десяти самых популярных жанрах. По оси X — количество книг, по оси Y — жанры.

Самым представленным жанром является Historical Fiction, за ним следуют Fantasy и Sci-Fi. Жанры Horror и Dystopian встречаются заметно реже

2. Количество книг по десятилетиям

Original size 745x371

Original size 841x470

Линейный график показывает, сколько книг в коллекции было опубликовано в каждом десятилетии.

Наблюдается постепенный рост числа книг начиная с середины 20 века, с пиком в районе 1990–2000 годов. После 2010 года количество книг резко снижается, что, вероятно, связано с неполнотой данных за последние годы

3. Распределение количества страниц по жанрам (топ-8)

Original size 645x535

Original size 859x519

Boxplot показывает распределение числа страниц для восьми наиболее популярных жанров.

Жанры Fantasy и Historical Fiction имеют наибольший разброс и самые «толстые» книги. Children’s Fiction отличается наименьшим объёмом и малым разбросом, что логично для детской литературы. Остальные жанры находятся в среднем диапазоне по количеству страниц.

4. Языки книг

Original size 649x414

Original size 558x589

Кольцевая диаграмма показывает распределение книг по языкам.

Абсолютное большинство книг написано на английском языке (более 99%). Остальные языки представлены крайне слабо. Это говорит о сильном смещении коллекции в сторону англоязычной литературы.

5. Средний объём книг по десятилетиям

Original size 947x361

Original size 850x476

По оси X — десятилетия, по оси Y — среднее количество страниц. Размер пузыря отражает число книг в соответствующем десятилетии.

Со временем средний объём книг увеличивается: более современные книги в среднем длиннее. Самые крупные пузыри находятся в конце 20 — начале 21 века, что указывает на наибольшее количество книг в эти периоды.

6. Год публикации и объём книги (топ-4 жанра)

Original size 944x468

Original size 859x476

Каждая точка — отдельная книга. Цветом обозначен жанр. По оси X — год публикации, по оси Y — количество страниц.

У всех жанров наблюдается тенденция к увеличению объёма книг в более поздние годы. Fantasy и Historical Fiction чаще имеют книги с большим числом страниц, тогда как Romance и Sci-Fi более компактны, но также демонстрируют рост объёма со временем.

Описание применения генеративной модели

Модель: DeepSeek (версия последней доступной на момент работы)

Способ применения: Консультирование и проверка кода

Цели использования ИИ: 1. Валидация синтаксиса Python кода и проверка логики обработки данных 2. Оптимизация запросов к DataFrame и повышение эффективности анализа 3. Генерация описаний графиков и статистических интерпретаций 4. Консультирование по лучшим практикам визуализации данных в Matplotlib

Примеры промптов: - «Как правильно обработать выбросы в данных о количестве страниц?» - «Какой тип графика лучше всего подходит для показа связи между временем и объёмом?» - «Как в Pandas группировать данные по десятилетиям?»

Использование ИИ значительно ускорило процесс разработки и повысило качество кода, однако все решения о структуре анализа, выборе данных и интерпретации результатов принимались самостоятельно.

Ссылка на модель: https://deepseek.com

Вывод

Анализ визуализаций показывает, что библиотечная коллекция преимущественно состоит из англоязычных книг и ориентирована на историческую и фантастическую литературу. Большая часть книг была опубликована во второй половине 20 и начале 21 века, причём именно в этот период наблюдается и наибольшее количество произведений. Со временем книги становятся более объёмными, особенно в таких жанрах, как Fantasy и Historical Fiction. В целом коллекция выглядит современной, жанрово разнообразной, но языково однородной, с явным акцентом на популярные и масштабные литературные направления.

Список литературы

1. Deepseek 2. Kaggle.com

Yana Kravchenko

data visualization