Original size 1240x1750

Анализ метеоритных данных

PROTECT STATUS: not protected
11

Введение

Для данного проекта я выбрала список баз данных о метеоритах на сайте Kaggle

Я выбрала эту тему для анализа, потому что космос всегда завораживал меня. Падающие звёзды, таинственные метеориты, далёкие галактики — всё это будило воображение. Анализируя данные о метеоритах, я хочу прикоснуться к этой загадочной вселенской истории, но уже через цифры и факты. Ведь каждый метеорит — это не просто камень с неба, а частичка далёких миров, которая может рассказать свою уникальную историю.

big
Original size 1536x1024

Для анализа и визуализации данных использовались библиотеки Seaborn, Matplotlib, Pandas, Numpy, Sklearn.

Структура данных (колонки):

name: название метеорита id: идентификатор nametype: тип названия (Valid/Found) recclass: классификация метеорита (например, L5, H4, LL6 и др.) mass (g): масса в граммах fall: тип (Fell — упал наблюдаемо, Found — найден) year: год падения/находки reclat: широта места падения reclong: долгота места падения GeoLocation: координаты в формате (широта, долгота)

big
Original size 2489x381

Оформление графиков

Цветовая палитра проекта отражает таинственную эстетику космоса:

#1D4C6B (глубокий синий) — символизирует бескрайние просторы Вселенной и холодную глубину межзвёздного пространства.

#23293B (тёмно-угольный) — напоминает о тёмной материи и скрытой структуре космоса.

#F07E19 (огненно-оранжевый) — передаёт энергию столкновения метеоритов и вспышки звёзд.

#FFDE8A (тёплый жёлтый) — имитирует свечение далёких солнц и отблески на поверхности космических тел.

#7094A0 (серо-голубой) — ассоциируется с ледяными астероидами и туманностями.

Original size 2489x600

Цветовая палитра

Используемый шрифт: DejaVu Sans

Цвет текста: #000000

Цвет фона: #7094A0

Original size 2489x411

Шрифт

Original size 2489x354

Оформление графиков

Виды графиков: Столбчатая диаграмма Диаграмма рассеяния Гистограмма Матрица корреляции Пирсона

Анализ данных

В данных содержится около 7 000 пропусков в координатах, но для построения модели мы будем использовать только два параметра: массу (mass (g)) и год (year).

Особенности данных:

В столбце mass (g) отсутствуют пропуски (NaN), однако присутствуют нулевые значения

В столбце year имеется небольшое количество пропущенных значений

Для обработки пропусков мы применяем медианные значения:

mass_med — медианная масса всех метеоритов

year_med — медианный год из всех имеющихся записей

Почему мы используем именно медиану, а не среднее арифметическое? Медиана более устойчива к выбросам в данных. В нашем случае это особенно важно, так как:

Встречаются экстремально тяжелые метеориты, которые могут исказить среднее значение

Годовые данные также могут содержать аномальные значения

Медиана лучше отражает типичное значение в таком неоднородном распределении.

С помощью errors='coerce' заменяем данные, которые нельзя преобразовать на NaN (пропуск).

Пропуски после fillna: {'mass (g)': 0, 'year': 0}

Original size 2489x514

Заполнение пропусков

Чтобы избежать искажения анализа, удаляем экстремальные значения по двум методам:

1. Обработка массы (weight):

Вычисляем обычный средний вес (m_mean) и отклониение от среднего веса (± 3 m_std)

Оставляем только метеориты, чей вес не слишком отличается от обычного (не легче и не тяжелее, чем в 99% случаев)

  1. Обработка года (year):

Находим типичный диапазон годов

Сначала вычисляем Q1 (25-й перцентиль) — значение, ниже которого находится 25% данных

Затем Q3 (75-й перцентиль) — значение, ниже которого находится 75% данных

IQR = Q3 — Q1 — это интервал, содержащий средние 50% данных (центральную часть распределения)

Определяем границы для выбросов

Нижняя граница: Q1 — 1,5 × IQR

Верхняя граница: Q3 + 1,5 × IQR Любые значения за этими границами считаются выбросами

Фильтруем данные Оставляем только те строки, где значение года находится в диапазоне: low_y ≤ year ≤ high_y Все записи с годами вне этого диапазона удаляются как аномальные.

После удаления mass-выбросов: (45679, 10) После удаления year-выбросов: (43716, 10)

Original size 2489x838

Получаем следующие графики:

Original size 630x470

График № 1

Original size 2489x798

Код № 1

Топ-10 самых тяжёлых метеоритов Исходя из полученной столбчатой диаграммы, можно выделить 10 метеоритов с наибольшей массой.

Original size 630x470

График № 2

Original size 2489x930

Код № 2

Падения метеоритов (год ≥ 2000) Можно сделать вывод, что после 2010 года наблюдался резкий рост числа падений: до 2010 года количество падений держалось на низком уровне (менее 20 000 г), а после наблюдается экспоненциальный рост (до 100 000 г к 2012 году).

Original size 630x470

График № 3

Original size 2489x657

Код № 3

Распределение по полушариям По данной гистограмме можно сделать вывод, что большинство метеоритов падало в Южном полушарии.

Original size 630x470

График № 4

Original size 2489x754

Код № 4

Категории массы Согласно полученным данным, наибольшее количество метеоритов имеет малый размер (менее 1 кг).

Original size 630x470

График № 5

Original size 2489x1408

Код № 5

Сравнение количества метеоритов по способу обнаружения Категория «Found» (найденные метеориты) значительно превосходит другие по количеству. Это говорит о том, что большинство метеоритов обнаруживают уже после их падения в ходе целенаправленных поисков.

Original size 630x470

График № 6

Original size 2489x454

Код № 6

Распределение масс по способу обнаружения Малые метеориты (менее 1 кг) составляют абсолютное большинство в категории «Found» (найденные), что подтверждает тенденцию: чем меньше метеорит, тем выше вероятность его обнаружения уже после падения. Крупные метеориты (более 10 кг) чаще фиксируются в категории «Fell» (наблюдаемые при падении), поскольку их падение сопровождается более заметными эффектами.

Original size 590x390

График № 7

Original size 2489x910

Код № 7

Распределение масс метеоритов График показывает чёткую закономерность — чем крупнее метеорит, тем реже он встречается. Самые маленькие метеориты (весом от 0,01 до 100 грамм) попадают на Землю в десятки тысяч раз чаще, чем метеориты весом в несколько килограммов. А действительно крупные метеориты (тяжелее 100 кг) — это большая редкость.

Original size 501x451

График № 8

Матрица корреляции Незначительная положительная корреляция (0,41): широта/ год; Заметная отрицательная корреляция (-0,58): долгота/широта; По всем остальным парам корреляция практически отсутствует.

Original size 2489x1063

Код № 8

Original size 590x390

График № 9

Original size 2489x2387

Код № 9

Лог-регрессия: log10(mass+1) = 0.0080*year + -14.46 R² (лог-модель) = 0.007883251547962544

Упал/найден Анализ данных показывает слабую связь между годом находки и массой метеоритов. Это значит, что за все время наблюдений находимые метеориты стали немного массивнее, но разница совсем незначительная.

Описание применения генеративной модели

Иллюстрации созданы с использованием DALL-E в ChatGPT. Промты, использованные для генерации: «Realistic outer space scene with glowing meteorites streaking across the sky, deep blue cosmic background, fiery orange and warm yellow flames trailing behind the meteorites, soft grey-blue clouds of space dust, stars scattered in the distance, high detail, dramatic lighting, cinematic atmosphere»; «Realistic horizontal image of a massive meteorite blazing through outer space, viewed from the side. The background is deep blue with scattered stars and grey-blue cosmic clouds. The meteorite leaves a long, fiery trail in vivid orange and warm yellow, lighting up the surrounding dust. High detail, dramatic lighting, wide composition, cinematic sci-fi atmosphere»

Анализ метеоритных данных
11