Кросс-валидация — это техника оценки модели, которая обеспечивает более надёжную и точную оценку качества, чем простое разбиение на train/test. Она достигает этого, систематически используя разные части данных для обучения и тестирования.
Самый распространённый подход — это K-Fold кросс-валидация, которая работает следующим образом:
k равных подмножеств, называемых фолдамиk итераций использовать один фолд как тестовую выборку, а оставшиеся k-1 фолдов — как обучающую выборкуk итерациям для получения итоговой оценкиfrom sklearn.model_selection import cross_val_score
from sklearn.ensemble import RandomForestClassifier
model = RandomForestClassifier()
scores = cross_val_score(model, X, y, cv=5)
print(f"Mean Accuracy: {scores.mean():.2f}")
k=5 или k=10, балансируя вычислительные затраты и надёжностьВ отличие от простого разбиения на train/test, кросс-валидация гарантирует, что оценка качества менее чувствительна к тому, как разделены данные, давая более надёжное представление о том, как модель обобщается на новых данных.
При k-fold кросс-валидации каждая точка данных используется ровно один раз для обучения и ровно один раз для тестирования во всех итерациях.
Новый — ещё не проверен сообществом
Вы