Основной метод для обнаружения пропущенных значений — это df.isnull().sum(), который возвращает количество null-значений по столбцам. Ты также можешь использовать df.isnull(), чтобы получить полную булеву маску датасета.
Есть четыре ключевых подхода в зависимости от ситуации:
dropna() — Удаляет строки или столбцы, содержащие null-значения. Лучше всего использовать, когда пропущенных данных мало и они случайны, так что их удаление не повлияет значительно на датасет.fillna() — Заменяет null-значения на указанное значение или по заданной стратегии, например фиксированное число, среднее значение столбца или заполнение вперёд/назад через параметр method.interpolate() — Оценивает пропущенные значения на основе соседних точек данных. Особенно полезно для временных рядов или упорядоченных числовых данных.replace() — Заменяет заглушки (например, "N/A", -999) на NaN или другое значение; удобно для очистки нестандартных обозначений пропущенных значений.- Небольшое количество пропущенных данных → dropna()
- Известное значение для заполнения или статистика → fillna()
- Последовательные/временные данные → interpolate()
- Нестандартные маркеры null-значений → replace()
Выбор зависит от объёма пропущенных данных, типа переменной и потенциального влияния на анализ.
df.isnull().sum() возвращает булеву маску, показывающую каждое отдельное пустое значение в датасете во всех строках и столбцах.
Новый — ещё не проверен сообществом
Вы