如何在 Scikit-Learn 中保存和重用数据准备对象

作者： Jason Brownlee 于 2020年6月30日在数据准备 48条评论

对训练数据集执行的任何数据准备也必须在未来的新数据集上执行，这一点至关重要。

这可能包括在评估模型时使用的测试数据集，或者在使用模型进行预测时来自领域的新数据。

通常，在训练数据集上拟合的模型会保存起来供以后使用。将来为模型准备新数据的正确解决方案是，将任何数据准备对象（例如数据缩放方法）与模型一起保存到文件中。

在本教程中，您将学习如何将模型和数据准备对象保存到文件中以供以后使用。

完成本教程后，您将了解：

为机器学习模型正确准备测试数据和新数据的挑战。
将模型和数据准备对象保存到文件以供以后使用的解决方案。
如何保存、稍后加载和使用机器学习模型和数据准备模型处理新数据。

通过我的新书《机器学习数据准备》**启动您的项目**，其中包括**分步教程**和所有示例的**Python源代码**文件。

让我们开始吧。

**2020年1月更新**：已针对 scikit-learn v0.22 API 的变更进行更新。
**2020年5月更新**：改进了代码示例和打印输出。

How to Save and Load Models and Data Preparation in Scikit-Learn for Later Use

如何在 Scikit-Learn 中保存和加载模型和数据准备以供以后使用
图片由Dennis Jarvis提供，保留部分权利。

教程概述

本教程分为三个部分；它们是：

为模型准备新数据的挑战
保存数据准备对象
如何保存和稍后使用数据准备对象

为模型准备新数据的挑战

数据集中每个输入变量的单位可能不同。

例如，一个变量可能以英寸为单位，另一个以英里为单位，另一个以天为单位，等等。

因此，在拟合模型之前缩放数据通常很重要。

这对于使用输入的加权和或距离度量（如逻辑回归、神经网络和k-近邻）的模型尤其重要。这是因为具有较大值或范围的变量可能会主导或冲淡具有较小值或范围的变量的影响。

缩放技术，例如归一化或标准化，可以使每个输入变量的分布相同，例如在归一化情况下具有相同的最小值和最大值，或者在标准化情况下具有相同的均值和标准差。

缩放技术必须经过拟合，这意味着它需要从数据中计算系数，例如观察到的最小值和最大值，或者观察到的均值和标准差。这些值也可以由领域专家设置。

使用缩放技术评估模型的最佳实践是：在训练数据集上拟合它们，然后将其应用于训练和测试数据集。

或者，在使用最终模型时，在训练数据集上拟合缩放方法，并将转换应用于训练数据集以及将来任何新数据集。

对训练数据集应用的任何数据准备或转换也必须在将来应用于测试或其他数据集，这一点至关重要。

当所有数据和模型都在内存中时，这很简单。

当模型被保存并在以后使用时，这具有挑战性。

当保存拟合模型以供以后使用（例如最终模型）时，缩放数据的最佳实践是什么？

想开始学习数据准备吗？

立即参加我为期7天的免费电子邮件速成课程（附示例代码）。

点击注册，同时获得该课程的免费PDF电子书版本。

保存数据准备对象

解决方案是将数据准备对象与模型一起保存到文件中。

例如，通常使用 pickle 框架（Python 内置）来保存机器学习模型以供以后使用，例如保存最终模型。

此框架也可用于保存用于数据准备的对象。

稍后，模型和数据准备对象可以被加载和使用。

将整个对象（例如模型对象和数据准备对象）保存到文件中很方便。然而，专家可能更喜欢只将模型参数保存到文件中，然后稍后加载它们并将其设置到新的模型对象中。这种方法也可以用于缩放数据所用的系数，例如每个变量的最小值和最大值，或每个变量的均值和标准差。

选择哪种方法适合您的项目由您决定，但我建议直接将模型和数据准备对象（或多个对象）保存到文件中以供以后使用。

为了使保存对象和数据转换对象到文件的想法具体化，我们来看一个示例。

如何保存和稍后使用数据准备对象

在本节中，我们将演示如何准备数据集、在数据集上拟合模型、将模型和数据转换对象保存到文件，以及稍后加载模型和转换并在新数据上使用它们。

1. 定义数据集

首先，我们需要一个数据集。

我们将使用 scikit-learn 数据集中的一个测试数据集，具体是一个通过 make_blobs() 函数随机创建的具有两个输入变量的二元分类问题。

下面的示例创建了一个包含 100 个样本、两个输入特征和两个类别标签（0 和 1）的测试数据集。然后将数据集拆分为训练集和测试集，并报告每个变量的最小值和最大值。

重要的是，在创建数据集和拆分数据时都设置了 _random_state_，这样每次运行代码时都会创建相同的数据集并执行相同的数据拆分。

# example of creating a test dataset and splitting it into train and test sets
from sklearn.datasets import make_blobs
from sklearn.model_selection import train_test_split
# prepare dataset
X, y = make_blobs(n_samples=100, centers=2, n_features=2, random_state=1)
# split data into train and test sets
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=1)
# summarize the scale of each input variable
for i in range(X_test.shape[1]):
	print('>%d, train: min=%.3f, max=%.3f, test: min=%.3f, max=%.3f' %
		(i, X_train[:, i].min(), X_train[:, i].max(),
			X_test[:, i].min(), X_test[:, i].max()))

# 创建测试数据集并将其拆分为训练集和测试集的示例

from sklearn.datasets import make_blobs

from sklearn.model_selection import train_test_split

# 准备数据集

X, y = make_blobs(n_samples=100, centers=2, n_features=2, random_state=1)

# 将数据拆分为训练集和测试集

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=1)

# 总结每个输入变量的规模

for i in range(X_test.shape[1]):

print('>%d, train: min=%.3f, max=%.3f, test: min=%.3f, max=%.3f' %

(i, X_train[:, i].min(), X_train[:, i].max(),

X_test[:, i].min(), X_test[:, i].max()))

运行示例报告了训练集和测试集中每个变量的最小值和最大值。

我们可以看到，每个变量的规模都不同，而且训练集和测试集之间的规模也不同。这是一种我们可能在真实数据集中遇到的现实情况。

>0, train: min=-11.856, max=0.526, test: min=-11.270, max=0.085
>1, train: min=-6.388, max=6.507, test: min=-5.581, max=5.926

1 2	>0, train: min=-11.856, max=0.526, test: min=-11.270, max=0.085 >1, train: min=-6.388, max=6.507, test: min=-5.581, max=5.926

2. 缩放数据集

接下来，我们可以缩放数据集。

我们将使用 MinMaxScaler 将每个输入变量缩放到 [0, 1] 范围。此缩放器的最佳实践用法是在训练数据集上拟合它，然后将转换应用于训练数据集和所有其他数据集：在本例中是测试数据集。

下面列出了缩放数据和总结效果的完整示例。

# example of scaling the dataset
from sklearn.datasets import make_blobs
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import MinMaxScaler
# prepare dataset
X, y = make_blobs(n_samples=100, centers=2, n_features=2, random_state=1)
# split data into train and test sets
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=1)
# define scaler
scaler = MinMaxScaler()
# fit scaler on the training dataset
scaler.fit(X_train)
# transform both datasets
X_train_scaled = scaler.transform(X_train)
X_test_scaled = scaler.transform(X_test)
# summarize the scale of each input variable
for i in range(X_test.shape[1]):
	print('>%d, train: min=%.3f, max=%.3f, test: min=%.3f, max=%.3f' %
		(i, X_train_scaled[:, i].min(), X_train_scaled[:, i].max(),
			X_test_scaled[:, i].min(), X_test_scaled[:, i].max()))

# 缩放数据集的示例

from sklearn.datasets import make_blobs

from sklearn.model_selection import train_test_split

from sklearn.preprocessing import MinMaxScaler

# 准备数据集

X, y = make_blobs(n_samples=100, centers=2, n_features=2, random_state=1)

# 将数据拆分为训练集和测试集

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=1)

# 定义缩放器

scaler = MinMaxScaler()

# 在训练数据集上拟合缩放器

scaler.fit(X_train)

# 转换两个数据集

X_train_scaled = scaler.transform(X_train)

X_test_scaled = scaler.transform(X_test)

# 总结每个输入变量的规模

for i in range(X_test.shape[1]):

print('>%d, train: min=%.3f, max=%.3f, test: min=%.3f, max=%.3f' %

(i, X_train_scaled[:, i].min(), X_train_scaled[:, i].max(),

X_test_scaled[:, i].min(), X_test_scaled[:, i].max()))

运行示例会打印缩放数据的影响，显示训练集和测试集中每个变量的最小值和最大值。

我们可以看到，两个数据集中的所有变量现在的值都在所需的 0 到 1 范围内。

>0, train: min=0.000, max=1.000, test: min=0.047, max=0.964
>1, train: min=0.000, max=1.000, test: min=0.063, max=0.955

1 2	>0, train: min=0.000, max=1.000, test: min=0.047, max=0.964 >1, train: min=0.000, max=1.000, test: min=0.063, max=0.955

3. 保存模型和数据缩放器

接下来，我们可以在训练数据集上拟合模型，并将模型和缩放器对象都保存到文件中。

我们将使用 LogisticRegression 模型，因为该问题是一个简单的二元分类任务。

训练数据集像以前一样进行缩放，在这种情况下，我们假设测试数据集当前不可用。缩放后，数据集用于拟合逻辑回归模型。

我们将使用 pickle 框架将 LogisticRegression 模型保存到一个文件，将 MinMaxScaler 保存到另一个文件。

完整的示例如下所示。

# example of fitting a model on the scaled dataset
from sklearn.datasets import make_blobs
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import MinMaxScaler
from sklearn.linear_model import LogisticRegression
from pickle import dump
# prepare dataset
X, y = make_blobs(n_samples=100, centers=2, n_features=2, random_state=1)
# split data into train and test sets
X_train, _, y_train, _ = train_test_split(X, y, test_size=0.33, random_state=1)
# define scaler
scaler = MinMaxScaler()
# fit scaler on the training dataset
scaler.fit(X_train)
# transform the training dataset
X_train_scaled = scaler.transform(X_train)
# define model
model = LogisticRegression(solver='lbfgs')
model.fit(X_train_scaled, y_train)
# save the model
dump(model, open('model.pkl', 'wb'))
# save the scaler
dump(scaler, open('scaler.pkl', 'wb'))

# 在缩放数据集上拟合模型的示例

from sklearn.datasets import make_blobs

from sklearn.model_selection import train_test_split

从 sklearn.预处理导入 MinMaxScaler

from sklearn.linear_model import LogisticRegression

from pickle import dump

# 准备数据集

X, y = make_blobs(n_samples=100, centers=2, n_features=2, random_state=1)

# 将数据拆分为训练集和测试集

X_train, _, y_train, _ = train_test_split(X, y, test_size=0.33, random_state=1)

# 定义缩放器

scaler = MinMaxScaler()

# 在训练数据集上拟合缩放器

scaler.fit(X_train)

# 转换训练数据集

X_train_scaled = scaler.transform(X_train)

# 定义模型

model = LogisticRegression(solver='lbfgs')

model.fit(X_train_scaled, y_train)

# 保存模型

dump(model, open('model.pkl', 'wb'))

# 保存缩放器

dump(scaler, open('scaler.pkl', 'wb'))

运行示例会缩放数据、拟合模型，并使用 pickle 将模型和缩放器保存到文件中。

您应该在当前工作目录中看到两个文件：

model.pkl
scaler.pkl

4. 加载模型和数据缩放器

最后，我们可以加载模型和缩放器对象并使用它们。

在这种情况下，我们将假设训练数据集不可用，并且只有新数据或测试数据集可用。

我们将加载模型和缩放器，然后使用缩放器准备新数据，并使用模型进行预测。由于是测试数据集，我们有预期的目标值，因此我们将预测与预期的目标值进行比较并计算模型的准确性。

完整的示例如下所示。

# load model and scaler and make predictions on new data
from sklearn.datasets import make_blobs
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from pickle import load
# prepare dataset
X, y = make_blobs(n_samples=100, centers=2, n_features=2, random_state=1)
# split data into train and test sets
_, X_test, _, y_test = train_test_split(X, y, test_size=0.33, random_state=1)
# load the model
model = load(open('model.pkl', 'rb'))
# load the scaler
scaler = load(open('scaler.pkl', 'rb'))
# check scale of the test set before scaling
print('Raw test set range')
for i in range(X_test.shape[1]):
	print('>%d, min=%.3f, max=%.3f' % (i, X_test[:, i].min(), X_test[:, i].max()))
# transform the test dataset
X_test_scaled = scaler.transform(X_test)
print('Scaled test set range')
for i in range(X_test_scaled.shape[1]):
	print('>%d, min=%.3f, max=%.3f' % (i, X_test_scaled[:, i].min(), X_test_scaled[:, i].max()))
# make predictions on the test set
yhat = model.predict(X_test_scaled)
# evaluate accuracy
acc = accuracy_score(y_test, yhat)
print('Test Accuracy:', acc)

# 加载模型和缩放器并在新数据上进行预测

from sklearn.datasets import make_blobs

from sklearn.model_selection import train_test_split

from sklearn.metrics import accuracy_score

from pickle import load

# 准备数据集

X, y = make_blobs(n_samples=100, centers=2, n_features=2, random_state=1)

# 将数据拆分为训练集和测试集

_, X_test, _, y_test = train_test_split(X, y, test_size=0.33, random_state=1)

# 加载模型

model = load(open('model.pkl', 'rb'))

# 加载缩放器

scaler = load(open('scaler.pkl', 'rb'))

# 检查缩放前测试集的范围

print('原始测试集范围')

for i in range(X_test.shape[1]):

print('>%d, min=%.3f, max=%.3f' % (i, X_test[:, i].min(), X_test[:, i].max()))

# 转换测试数据集

X_test_scaled = scaler.transform(X_test)

print('缩放后测试集范围')

for i in range(X_test_scaled.shape[1]):

print('>%d, min=%.3f, max=%.3f' % (i, X_test_scaled[:, i].min(), X_test_scaled[:, i].max()))

# 对测试集进行预测

yhat = model.predict(X_test_scaled)

# 评估准确性

acc = accuracy_score(y_test, yhat)

print('测试准确度:', acc)

运行此示例将加载模型和缩放器，然后使用缩放器正确地为模型准备测试数据集，从而满足模型训练时的期望。

为了确认缩放器产生了预期的效果，我们报告了在应用缩放之前和之后每个输入特征的最小值和最大值。然后，模型对测试集中的示例进行预测，并计算分类准确度。

在这种情况下，正如预期的那样，数据集正确地归一化，模型在测试集上实现了 100% 的准确率，因为测试问题是微不足道的。

Raw test set range
>0, min=-11.270, max=0.085
>1, min=-5.581, max=5.926

Scaled test set range
>0, min=0.047, max=0.964
>1, min=0.063, max=0.955

Test Accuracy: 1.0

原始测试集范围

>0, min=-11.270, max=0.085

>1, min=-5.581, max=5.926

缩放后测试集范围

>0, min=0.047, max=0.964

>1, min=0.063, max=0.955

测试准确度：1.0

这提供了一个模板，您可以使用它将模型和缩放器对象（或多个对象）保存到文件中，以便您自己的项目使用。

进一步阅读

如果您想深入了解，本节提供了更多关于该主题的资源。

文章

API

总结

在本教程中，您学习了如何将模型和数据准备对象保存到文件中以供以后使用。

具体来说，你学到了：

为机器学习模型正确准备测试数据和新数据的挑战。
将模型和数据准备对象保存到文件以供以后使用的解决方案。
如何保存、稍后加载和使用机器学习模型和数据准备模型处理新数据。

你有什么问题吗？
在下面的评论中提出你的问题，我会尽力回答。

关于此主题的更多信息

机器学习中的“随机”是什么意思？

深度学习中分类变量的3种编码方式