从训练-测试到交叉验证：提升您的模型评估能力

作者 Vinod Chugani 于 2025年2月28日发布于中间数据科学 0

许多初学者最初会依赖训练-测试方法来评估他们的模型。这种方法很简单，并且似乎能清晰地表明模型在未见过的数据上的表现。然而，这种方法常常会导致对模型能力的不完全理解。在这篇博客中，我们将讨论为什么超越基本的训练-测试分割很重要，以及交叉验证如何提供对模型性能更全面的评估。加入我们，我们将指导您完成实现更深入、更准确的模型评估的关键步骤。

通过我的书《进阶数据科学》启动您的项目。它提供了带有可运行代码的自学教程。

让我们开始吧。

从训练-测试到交叉验证：提升您的模型评估能力
照片作者 Belinda Fewings。部分权利保留。

概述

这篇博文分为三部分；它们是：

模型评估：训练-测试与交叉验证
交叉验证的“为什么”
深入K折交叉验证

模型评估：训练-测试与交叉验证

机器学习模型的确定性在于其设计（例如，线性模型与非线性模型）及其参数（例如，线性回归模型中的系数）。在考虑如何拟合模型之前，您需要确保模型适合数据。

机器学习模型的性能是通过其在先前未见过（或测试）数据上的表现来衡量的。在标准的训练-测试分割中，我们将数据集分为两部分：大部分用于训练模型，小部分用于测试其性能。如果测试性能可接受，则模型是合适的。这种方法很简单，但并不总是最有效地利用我们的数据。

然而，通过交叉验证，我们更进一步。第二张图展示了5折交叉验证，其中数据集被分成五个“折”。在每次验证回合中，使用不同的折作为测试集，其余的作为训练集。这个过程重复五次，确保每个数据点都用于训练和测试。

以下是一个说明上述内容的示例

# Load the Ames dataset
import pandas as pd
Ames = pd.read_csv('Ames.csv')

# Import Linear Regression, Train-Test, Cross-Validation from scikit-learn
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split, cross_val_score

# Select features and target
X = Ames[['GrLivArea']]  # Feature: GrLivArea, a 2D matrix
y = Ames['SalePrice']    # Target: SalePrice, a 1D vector

# Split data into training and testing sets
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Linear Regression model using Train-Test
model = LinearRegression()
model.fit(X_train, y_train)
train_test_score = round(model.score(X_test, y_test), 4)
print(f"Train-Test R^2 Score: {train_test_score}")

# Perform 5-Fold Cross-Validation
cv_scores = cross_val_score(model, X, y, cv=5)
cv_scores_rounded = [round(score, 4) for score in cv_scores]
print(f"Cross-Validation R^2 Scores: {cv_scores_rounded}")

# 加载Ames数据集

import pandas as pd

Ames = pd.read_csv('Ames.csv')

# 从scikit-learn导入线性回归、训练-测试、交叉验证

来自 sklearn.linear_model 导入 LinearRegression

from sklearn.model_selection import train_test_split, cross_val_score

# 选择特征和目标

X = Ames[['GrLivArea']] # 特征：GrLivArea，一个二维矩阵

y = Ames['SalePrice'] # 目标：SalePrice，一个一维向量

# 将数据分割为训练集和测试集

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 使用训练-测试的线性回归模型

模型 = LinearRegression()

model.fit(X_train, y_train)

train_test_score = round(model.score(X_test, y_test), 4)

print(f"训练-测试 R^2 分数： {train_test_score}")

# 执行5折交叉验证

cv_scores = cross_val_score(model, X, y, cv=5)

cv_scores_rounded = [round(score, 4) for score in cv_scores]

print(f"交叉验证 R^2 分数： {cv_scores_rounded}")

训练-测试方法产生一个单一的R²分数，而交叉验证则为我们提供了五个不同的R²分数，每个数据折一个，从而更全面地了解模型的性能。

Train-Test R^2 Score: 0.4789
Cross-Validation R^2 Scores: [0.4884, 0.5412, 0.5214, 0.5454, 0.4673]

1 2	训练-测试 R^2 分数： 0.4789 交叉验证 R^2 分数： [0.4884, 0.5412, 0.5214, 0.5454, 0.4673]

这五个R²分数大致相等，表明模型是稳定的。然后您可以决定该模型（即线性回归）是否提供可接受的预测能力。

交叉验证的“为什么”

理解模型性能在不同数据子集上的变异性在机器学习中至关重要。训练-测试分割方法虽然有用，但只给了我们模型在某个特定未见过数据集上表现快照。

交叉验证通过系统地使用多个数据折进行训练和测试，提供了对模型性能更稳健、更全面的评估。每个折都作为一个独立的测试，深入了解模型在不同数据样本上的预期表现。这种多重性不仅有助于识别潜在的过拟合，还确保了性能指标（在此例中为R²分数）不过于乐观或悲观，而是模型泛化到未见过数据的更可靠的指标。

为了直观地展示这一点，让我们考虑来自训练-测试分割和5折交叉验证过程的R²分数。

# Import Seaborn and Matplotlib
import seaborn as sns
import matplotlib.pyplot as plt

# Assuming cv_scores_rounded contains your cross-validation scores
# And train_test_score is your single train-test R^2 score

# Plot the box plot for cross-validation scores
cv_scores_df = pd.DataFrame(cv_scores_rounded, columns=['Cross-Validation Scores'])
sns.boxplot(data=cv_scores_df, y='Cross-Validation Scores', width=0.3, color='lightblue', fliersize=0)

# Overlay individual scores as points
plt.scatter([0] * len(cv_scores_rounded), cv_scores_rounded, color='blue', label='Cross-Validation Scores')
plt.scatter(0, train_test_score, color='red', zorder=5, label='Train-Test Score')

# Plot the visual 
plt.title('Model Evaluation: Cross-Validation vs. Train-Test')
plt.ylabel('R^2 Score')
plt.xticks([0], ['Evaluation Scores'])
plt.legend(loc='lower left', bbox_to_anchor=(0, +0.1))
plt.show()

# 导入Seaborn和Matplotlib

import seaborn as sns

import matplotlib.pyplot as plt

# 假设cv_scores_rounded包含您的交叉验证分数

# 并且train_test_score是您的单一训练-测试R^2分数

# 绘制交叉验证分数的箱线图

cv_scores_df = pd.DataFrame(cv_scores_rounded, columns=['交叉验证分数'])

sns.boxplot(data=cv_scores_df, y='交叉验证分数', width=0.3, color='lightblue', fliersize=0)

# 将单个分数叠加为点

plt.scatter([0] * len(cv_scores_rounded), cv_scores_rounded, color='blue', label='交叉验证分数')

plt.scatter(0, train_test_score, color='red', zorder=5, label='训练-测试分数')

# 绘制图表

plt.title('模型评估：交叉验证 vs. 训练-测试')

plt.ylabel('R^2 分数')

plt.xticks([0], ['评估分数'])

plt.legend(loc='lower left', bbox_to_anchor=(0, +0.1))

plt.show()

这个可视化突显了从单一训练-测试评估中获得的见解与交叉验证提供的更广泛视角之间的差异。

通过交叉验证，我们对模型的性能有了更深入的了解，使我们更接近开发有效且可靠的机器学习解决方案。

想开始学习进阶数据科学吗？

立即参加我的免费电子邮件速成课程（附示例代码）。

点击注册，同时获得该课程的免费PDF电子书版本。

深入K折交叉验证

交叉验证是可靠的机器学习模型评估的基石，其中cross_val_score()提供了执行此任务的快速自动化方法。现在，我们将注意力转向KFold类，它是scikit-learn的一个组件，它提供了对交叉验证折的深入了解。KFold类不仅提供分数，还提供了对模型在不同数据段上的性能的窗口。我们通过复制上述示例来演示这一点。

# Import K-Fold and necessary libraries
from sklearn.model_selection import KFold
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score

# Select features and target
X = Ames[['GrLivArea']].values  # Convert to numpy array for KFold
y = Ames['SalePrice'].values    # Convert to numpy array for KFold

# Initialize Linear Regression and K-Fold
model = LinearRegression()
kf = KFold(n_splits=5)

# Manually perform K-Fold Cross-Validation
for fold, (train_index, test_index) in enumerate(kf.split(X), start=1):
    # Split the data into training and testing sets
    X_train, X_test = X[train_index], X[test_index]
    y_train, y_test = y[train_index], y[test_index]

    # Fit the model and predict
    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)

    # Calculate and print the R^2 score for the current fold
    print(f"Fold {fold}:")
    print(f"TRAIN set size: {len(train_index)}")
    print(f"TEST set size: {len(test_index)}")
    print(f"R^2 score: {round(r2_score(y_test, y_pred), 4)}\n")

# 导入K-Fold及所需库

from sklearn.model_selection import KFold

来自 sklearn.linear_model 导入 LinearRegression

from sklearn.metrics import r2_score

# 选择特征和目标

X = Ames[['GrLivArea']].values # 转换为numpy数组以供KFold使用

y = Ames['SalePrice'].values # 转换为numpy数组以供KFold使用

# 初始化线性回归和K-Fold

模型 = LinearRegression()

kf = KFold(n_splits=5)

# 手动执行K-Fold交叉验证

for fold, (train_index, test_index) in enumerate(kf.split(X), start=1):

# 将数据分割为训练集和测试集

X_train, X_test = X[train_index], X[test_index]

y_train, y_test = y[train_index], y[test_index]

# 拟合模型并预测

model.fit(X_train, y_train)

y_pred = model.predict(X_test)

# 计算并打印当前折的R^2分数

print(f"折 {fold}:")

print(f"训练集大小： {len(train_index)}")

print(f"测试集大小： {len(test_index)}")

print(f"R^2 分数： {round(r2_score(y_test, y_pred), 4)}\n")

此代码块将向我们展示每个训练集和测试集的大小以及每个折对应的R²分数。

Fold 1:
TRAIN set size: 2063
TEST set size: 516
R^2 score: 0.4884

Fold 2:
TRAIN set size: 2063
TEST set size: 516
R^2 score: 0.5412

Fold 3:
TRAIN set size: 2063
TEST set size: 516
R^2 score: 0.5214

Fold 4:
TRAIN set size: 2063
TEST set size: 516
R^2 score: 0.5454

Fold 5:
TRAIN set size: 2064
TEST set size: 515
R^2 score: 0.4673

折 1

训练集大小： 2063

测试集大小： 516

R^2 分数： 0.4884

折 2

训练集大小： 2063

测试集大小： 516

R^2 分数： 0.5412

折 3

训练集大小： 2063

测试集大小： 516

R^2 分数： 0.5214

折 4

训练集大小： 2063

测试集大小： 516

R^2 分数： 0.5454

折 5

训练集大小： 2064

测试集大小： 515

R^2 分数： 0.4673

KFold类在其透明性和对交叉验证过程的控制方面表现出色。虽然cross_val_score()将过程简化为一行，但KFold将其打开，允许我们查看数据分割的具体情况。当您需要以下操作时，这非常有价值：

了解数据是如何分割的。
在每次折叠前实现自定义预处理。
深入了解模型性能的一致性。

通过使用KFold类，您可以手动迭代每个分割并应用模型训练和测试过程。这不仅有助于确保您完全了解每个阶段使用的数据，还提供了修改过程以适应复杂需求的选项。

进一步阅读

API

教程

Geeks for Geeks 上的机器学习交叉验证

Ames 住房数据集和数据字典

总结

在本帖中，我们探讨了通过交叉验证和KFold方法进行彻底模型评估的重要性。这两种技术都仔细地避免了数据泄露的陷阱，通过保持训练和测试数据分开，从而确保模型的性能得到准确衡量。此外，通过精确地验证每个数据点一次，并将其用于训练K-1次，这些方法提供了模型泛化能力的详细视图，增强了对其现实世界适用性的信心。通过实际示例，我们展示了如何将这些策略整合到您的评估过程中，可以带来更可靠、更稳健的机器学习模型，为应对新数据和未见过数据的挑战做好准备。

具体来说，你学到了：

cross_val_score()在自动化交叉验证过程中的效率。
KFold如何提供对数据分割的详细控制，以进行量身定制的模型评估。
这两种方法如何确保充分利用数据并防止数据泄露。

您有任何问题吗？请在下面的评论中提出您的问题，我将尽力回答。

开始学习进阶数据科学！

掌握数据科学项目成功的思维模式

...通过清晰、实用的例子建立专业知识，尽量减少复杂的数学，并专注于实践学习。

在我的新电子书中探索如何实现
新一代数据科学

它提供自学教程，旨在指导您从初级到高级。学习优化工作流程、处理多重共线性、改进基于树的模型以及处理缺失数据——等等，以帮助您获得更深入的见解和有效的数据故事讲述。

通过实际练习提升您的数据科学技能

查看内容

关于此主题的更多信息

关于Vinod Chugani

我出生在印度，在日本长大，是一位拥有全球视野的第三文化儿童。我在杜克大学的学术生涯包括主修经济学，并于大三时被选入 Phi Beta Kappa 荣誉学会。多年来，我积累了丰富的专业经验，花费十年时间驾驭华尔街复杂的固定收益领域，之后又领导了一个全国性的分销业务。目前，我作为纽约市数据科学学院的导师，将我对数据科学、机器学习和人工智能的热情转化为实践。我珍惜能够激发好奇心和分享知识的机会，无论是通过在线学习课程还是深入的一对一互动。凭借金融/创业的背景以及目前在数据领域的沉浸，我带着目标感和信心面对未来。我期待进一步探索、持续学习，并有机会为不断发展的数据科学和机器学习领域做出有意义的贡献，尤其是在 MLM。

查看Vinod Chugani发布的所有帖子 →

导航

从训练-测试到交叉验证：提升您的模型评估能力

概述

模型评估：训练-测试与交叉验证

交叉验证的“为什么”

想开始学习进阶数据科学吗？

深入K折交叉验证

进一步阅读

API

教程

Ames 住房数据集和数据字典

总结

开始学习进阶数据科学！

掌握数据科学项目成功的思维模式

通过实际练习提升您的数据科学技能

关于此主题的更多信息

暂无评论。

留下回复点击此处取消回复。

导航

概述

模型评估：训练-测试与交叉验证

交叉验证的“为什么”

想开始学习进阶数据科学吗？

深入K折交叉验证

进一步阅读

API

教程

Ames 住房数据集和数据字典

总结

开始学习进阶数据科学！

掌握数据科学项目成功的思维模式

通过实际练习提升您的数据科学技能

关于此主题的更多信息

暂无评论。

留下回复 点击此处取消回复。

留下回复点击此处取消回复。