使用提前停止在正确的时间停止神经网络的训练

作者： Jason Brownlee 发布于 2020年8月25日分类：深度学习性能 121

训练神经网络的一个问题在于选择要使用的训练周期数。

过多的周期可能导致训练数据集过拟合，而过少则可能导致模型欠拟合。提前停止是一种方法，它允许您指定任意大量的训练周期，并在模型在保留的验证数据集上性能停止提升时停止训练。

在本教程中，您将学习Keras API，用于向过拟合的深度学习神经网络模型添加提前停止功能。

完成本教程后，您将了解：

如何使用Keras API在训练期间监控模型的性能。
如何使用Keras API创建和配置提前停止和模型检查点回调。
如何通过向现有模型添加提前停止来减少过拟合。

用我的新书《更好的深度学习》来启动你的项目，书中包含分步教程和所有示例的 Python 源代码文件。

让我们开始吧。

2019 年 10 月更新：更新至 Keras 2.3 和 TensorFlow 2.0。

How to Stop Training Deep Neural Networks At the Right Time With Using Early Stopping

如何使用提前停止在正确的时间停止深度神经网络的训练
图片由Ian D. Keating提供，部分权利保留。

教程概述

本教程分为六个部分；它们是：

在Keras中使用回调
评估验证数据集
监控模型性能
Keras中的提前停止
Keras中的检查点
提前停止案例研究

在Keras中使用回调

回调提供了一种自动执行代码并与训练模型过程交互的方式。

可以通过“callbacks”参数将回调提供给fit()函数。

首先，必须实例化回调。

...
cb = Callback(...)

1 2	... cb = Callback(...)

然后，您打算使用的一个或多个回调必须添加到Python列表中。

...
cb_list = [cb, ...]

1 2	... cb_list = [cb, ...]

最后，在拟合模型时，将回调列表提供给回调参数。

...
model.fit(..., callbacks=cb_list)

1 2	... model.fit(..., callbacks=cb_list)

在Keras中评估验证数据集

提前停止要求在训练期间评估验证数据集。

这可以通过在训练模型时向fit()函数指定验证数据集来实现。

有两种方法可以做到这一点。

第一种方法是您手动将训练数据拆分为训练集和验证集，并通过validation_data参数将验证数据集指定给fit()函数。例如：

...
model.fit(train_X, train_y, validation_data=(val_x, val_y))

1 2	... model.fit(train_X, train_y, validation_data=(val_x, val_y))

或者，fit()函数可以根据通过validation_split参数指定的百分比拆分，自动将您的训练数据集拆分为训练集和验证集。

validation_split是一个介于0和1之间的值，定义用于验证数据集的训练数据集的百分比。例如：

...
model.fit(train_X, train_y, validation_split=0.3)

1 2	... model.fit(train_X, train_y, validation_split=0.3)

在这两种情况下，模型都不会在验证数据集上进行训练。相反，模型会在每个训练周期结束时在验证数据集上进行评估。

想要通过深度学习获得更好的结果吗？

立即参加我为期7天的免费电子邮件速成课程（附示例代码）。

点击注册，同时获得该课程的免费PDF电子书版本。

监控模型性能

在每个周期结束时，都会计算为您模型选择的损失函数。

对于回调，这通过名称“loss”提供。

如果通过validation_data或validation_split参数向fit()函数指定了验证数据集，则验证数据集上的损失将通过名称“val_loss”提供。

在模型训练期间可以监控其他指标。

它们可以在编译模型时通过编译函数的“metrics”参数指定。此参数接受一个已知指标函数的Python列表，例如用于均方误差的“mse”和用于准确度的“accuracy”。例如：

...
model.compile(..., metrics=['accuracy'])

1 2	... model.compile(..., metrics=['accuracy'])

如果在训练期间监控其他指标，它们也通过相同的名称提供给回调，例如训练数据集上的准确度为“accuracy”，验证数据集上的准确度为“val_accuracy”。或者，训练数据集上的均方误差为“mse”，验证数据集上的均方误差为“val_mse”。

Keras中的提前停止

Keras通过名为EarlyStopping的回调支持提前停止训练。

此回调允许您指定要监控的性能度量、触发器，一旦触发，它将停止训练过程。

EarlyStopping回调在实例化时通过参数进行配置。

“monitor”允许您指定要监控的性能度量以结束训练。回想一下上一节，验证数据集上度量的计算将带有“val_”前缀，例如验证数据集上的损失为“val_loss”。

es = EarlyStopping(monitor='val_loss')

1	es = EarlyStopping(monitor='val_loss')

根据性能度量的选择，需要指定“mode”参数，以指示所选指标的目标是增加（最大化或“max”）还是减少（最小化或“min”）。

例如，我们寻求验证损失和验证均方误差的最小值，而寻求验证准确度的最大值。

es = EarlyStopping(monitor='val_loss', mode='min')

1	es = EarlyStopping(monitor='val_loss', mode='min')

默认情况下，mode设置为“auto”，并知道您希望最小化损失或最大化准确度。

这就是最简单的提前停止形式所需的全部。当所选性能度量停止改进时，训练将停止。要发现停止训练的训练周期，可以将“verbose”参数设置为1。一旦停止，回调将打印周期数。

es = EarlyStopping(monitor='val_loss', mode='min', verbose=1)

1	es = EarlyStopping(monitor='val_loss', mode='min', verbose=1)

通常，没有进一步改进的第一个迹象可能不是停止训练的最佳时机。这是因为模型可能会进入一个没有改进的平台，甚至在变得更好之前会稍微变差。

我们可以通过在触发器中添加一个延迟来解决这个问题，延迟的时间是我们希望看到没有改进的周期数。这可以通过设置“patience”参数来实现。

es = EarlyStopping(monitor='val_loss', mode='min', verbose=1, patience=50)

1	es = EarlyStopping(monitor='val_loss', mode='min', verbose=1, patience=50)

确切的耐心程度会因模型和问题而异。查看您的性能度量图对于了解您的模型在您的数据上的优化过程可能有多大的噪声非常有用。

默认情况下，性能度量的任何变化，无论多么微小，都将被视为改进。您可能希望将改进视为一个特定的增量，例如均方误差的1个单位或准确度的1%。这可以通过“min_delta”参数指定。

es = EarlyStopping(monitor='val_accuracy', mode='max', min_delta=1)

1	es = EarlyStopping(monitor='val_accuracy', mode='max', min_delta=1)

最后，如果性能保持在给定阈值或基线之上或之下，则可能需要停止训练。例如，如果您熟悉模型的训练（例如学习曲线），并且知道一旦达到给定值的验证损失，就没有必要继续训练。这可以通过设置“baseline”参数来指定。

这在微调模型时可能更有用，即在训练新模型的早期阶段观察到的性能度量的初始剧烈波动过去之后。

es = EarlyStopping(monitor='val_loss', mode='min', baseline=0.4)

1	es = EarlyStopping(monitor='val_loss', mode='min', baseline=0.4)

Keras中的检查点

一旦触发，EarlyStopping回调将停止训练，但训练结束时的模型可能不是在验证数据集上表现最佳的模型。

需要一个额外的回调，它将保存训练期间观察到的最佳模型以供以后使用。这就是ModelCheckpoint回调。

ModelCheckpoint回调在使用方式上非常灵活，但在本例中，我们将仅使用它来保存训练期间观察到的最佳模型，该模型由验证数据集上选定的性能度量定义。

保存和加载模型需要您的工作站已安装HDF5支持。例如，使用pip Python安装程序，这可以如下实现：

sudo pip install h5py

1	sudo pip install h5py

您可以从h5py安装文档中了解更多信息。

回调会将模型保存到文件，这需要通过第一个参数指定路径和文件名。

mc = ModelCheckpoint('best_model.h5')

1	mc = ModelCheckpoint('best_model.h5')

首选要监控的损失函数可以通过monitor参数指定，其方式与EarlyStopping回调相同。例如，验证数据集上的损失（默认）。

mc = ModelCheckpoint('best_model.h5', monitor='val_loss')

1	mc = ModelCheckpoint('best_model.h5', monitor='val_loss')

此外，与EarlyStopping回调一样，我们必须将“mode”指定为最小化或最大化性能度量。同样，默认值为“auto”，它知道标准性能度量。

mc = ModelCheckpoint('best_model.h5', monitor='val_loss', mode='min')

1	mc = ModelCheckpoint('best_model.h5', monitor='val_loss', mode='min')

最后，我们只对训练期间观察到的最佳模型感兴趣，而不是与前一个周期相比的最佳模型，因为如果训练有噪声，它可能不是整体最佳模型。这可以通过将“save_best_only”参数设置为True来实现。

mc = ModelCheckpoint('best_model.h5', monitor='val_loss', mode='min', save_best_only=True)

1	mc = ModelCheckpoint('best_model.h5', monitor='val_loss', mode='min', save_best_only=True)

这就是确保在使用提前停止或通常情况下保存最佳性能模型所需的全部。

了解性能度量的值以及模型保存的周期可能很有趣。这可以通过将“verbose”参数设置为“1”来由回调打印。

mc = ModelCheckpoint('best_model.h5', monitor='val_loss', mode='min', verbose=1)

1	mc = ModelCheckpoint('best_model.h5', monitor='val_loss', mode='min', verbose=1)

然后可以通过调用load_model()函数随时加载和评估保存的模型。

# load a saved model
from keras.models import load_model
saved_model = load_model('best_model.h5')

# 加载保存的模型

from keras.models import load_model

saved_model = load_model('best_model.h5')

现在我们知道如何使用提前停止和模型检查点API，让我们看一个实际的例子。

提前停止案例研究

在本节中，我们将演示如何使用提前停止来减少MLP在简单二分类问题上的过拟合。

此示例提供了一个模板，用于将提前停止应用于您自己的神经网络以解决分类和回归问题。

二分类问题

我们将使用一个标准的二分类问题，它定义了两个半圆的观测值，每个类别一个半圆。

每个观测值都有两个具有相同尺度的输入变量和一个类别输出值0或1。这个数据集被称为“moons”数据集，因为绘制时每个类别中的观测值的形状。

我们可以使用make_moons()函数从这个问题生成观测值。我们将向数据中添加噪声并设置随机数生成器的种子，以便每次运行代码时都生成相同的样本。

# generate 2d classification dataset
X, y = make_moons(n_samples=100, noise=0.2, random_state=1)

1 2	# 生成二维分类数据集 X, y = make_moons(n_samples=100, noise=0.2, random_state=1)

我们可以绘制数据集，其中两个变量作为图上的x和y坐标，类别值作为观测值的颜色。

生成数据集并绘制它的完整示例如下所示。

# generate two moons dataset
from sklearn.datasets import make_moons
from matplotlib import pyplot
from pandas import DataFrame
# generate 2d classification dataset
X, y = make_moons(n_samples=100, noise=0.2, random_state=1)
# scatter plot, dots colored by class value
df = DataFrame(dict(x=X[:,0], y=X[:,1], label=y))
colors = {0:'red', 1:'blue'}
fig, ax = pyplot.subplots()
grouped = df.groupby('label')
for key, group in grouped:
    group.plot(ax=ax, kind='scatter', x='x', y='y', label=key, color=colors[key])
pyplot.show()

# 生成两个月牙形数据集

from sklearn.datasets import make_moons

from matplotlib import pyplot

from pandas import DataFrame

# 生成二维分类数据集

X, y = make_moons(n_samples=100, noise=0.2, random_state=1)

# 散点图，点按类别值着色

df = DataFrame(dict(x=X[:,0], y=X[:,1], label=y))

colors = {0:'red', 1:'blue'}

fig, ax = pyplot.subplots()

grouped = df.groupby('label')

for key, group in grouped:

group.plot(ax=ax, kind='scatter', x='x', y='y', label=key, color=colors[key])

pyplot.show()

运行示例将创建一个散点图，显示每个类别中观测值的半圆或月牙形。我们可以看到点分散中的噪声使得月牙形不那么明显。

Scatter Plot of Moons Dataset With Color Showing the Class Value of Each Sample

月牙形数据集的散点图，点颜色显示每个样本的类别值

这是一个很好的测试问题，因为这些类别不能用一条线分开，例如，它们不是线性可分的，需要一种非线性方法（如神经网络）来解决。

我们只生成了100个样本，这对于神经网络来说太少了，这提供了过拟合训练数据集并在测试数据集上产生更高误差的机会：这是使用正则化的一个很好的例子。此外，样本带有噪声，这使得模型有机会学习样本中不能泛化的方面。

过拟合多层感知器

我们可以开发一个MLP模型来解决这个二分类问题。

该模型将有一个隐藏层，其节点数可能超过解决此问题所需的数量，从而提供过拟合的机会。我们还将训练模型的时间延长到超过所需时间，以确保模型过拟合。

在定义模型之前，我们将数据集拆分为训练集和测试集，使用30个示例来训练模型，70个示例来评估拟合模型的性能。

# generate 2d classification dataset
X, y = make_moons(n_samples=100, noise=0.2, random_state=1)
# split into train and test
n_train = 30
trainX, testX = X[:n_train, :], X[n_train:, :]
trainy, testy = y[:n_train], y[n_train:]

# 生成二维分类数据集

X, y = make_moons(n_samples=100, noise=0.2, random_state=1)

# 分割成训练集和测试集

n_train = 30

trainX, testX = X[:n_train, :], X[n_train:, :]

trainy, testy = y[:n_train], y[n_train:]

接下来，我们可以定义模型。

隐藏层使用500个节点和ReLU激活函数。输出层使用Sigmoid激活函数以预测0或1的类别值。模型使用二元交叉熵损失函数进行优化，适用于二分类问题和高效的Adam梯度下降算法。

# define model
model = Sequential()
model.add(Dense(500, input_dim=2, activation='relu'))
model.add(Dense(1, activation='sigmoid'))
model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])

# 定义模型

model = Sequential()

model.add(Dense(500, input_dim=2, activation='relu'))

model.add(Dense(1, activation='sigmoid'))

model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])

然后，将定义的模型在训练数据上拟合4,000个周期，并使用默认的批量大小32。

我们还将测试数据集用作验证数据集。这只是本示例的简化。实际上，您会将训练集拆分为训练集和验证集，并保留一个测试集用于最终模型评估。

# fit model
history = model.fit(trainX, trainy, validation_data=(testX, testy), epochs=4000, verbose=0)

1 2	# 拟合模型 history = model.fit(trainX, trainy, validation_data=(testX, testy), epochs=4000, verbose=0)

我们可以评估模型在测试数据集上的性能并报告结果。

# evaluate the model
_, train_acc = model.evaluate(trainX, trainy, verbose=0)
_, test_acc = model.evaluate(testX, testy, verbose=0)
print('Train: %.3f, Test: %.3f' % (train_acc, test_acc))

# 评估模型

_, train_acc = model.evaluate(trainX, trainy, verbose=0)

_, test_acc = model.evaluate(testX, testy, verbose=0)

print('Train: %.3f, Test: %.3f' % (train_acc, test_acc))

最后，我们将绘制模型在每个周期的训练集和测试集上的损失。

如果模型确实过拟合了训练数据集，我们预计训练集上的损失（和准确度）线图会持续增加，而测试集上的损失会先上升然后再次下降，因为模型学习了训练数据集中的统计噪声。

# plot training history
pyplot.plot(history.history['loss'], label='train')
pyplot.plot(history.history['val_loss'], label='test')
pyplot.legend()
pyplot.show()

# 绘制训练历史

pyplot.plot(history.history['loss'], label='train')

pyplot.plot(history.history['val_loss'], label='test')

pyplot.legend()

pyplot.show()

我们可以将所有这些部分结合起来；完整的示例如下所示。

# mlp overfit on the moons dataset
from sklearn.datasets import make_moons
from keras.layers import Dense
from keras.models import Sequential
from matplotlib import pyplot
# generate 2d classification dataset
X, y = make_moons(n_samples=100, noise=0.2, random_state=1)
# split into train and test
n_train = 30
trainX, testX = X[:n_train, :], X[n_train:, :]
trainy, testy = y[:n_train], y[n_train:]
# define model
model = Sequential()
model.add(Dense(500, input_dim=2, activation='relu'))
model.add(Dense(1, activation='sigmoid'))
model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])
# fit model
history = model.fit(trainX, trainy, validation_data=(testX, testy), epochs=4000, verbose=0)
# evaluate the model
_, train_acc = model.evaluate(trainX, trainy, verbose=0)
_, test_acc = model.evaluate(testX, testy, verbose=0)
print('Train: %.3f, Test: %.3f' % (train_acc, test_acc))
# plot training history
pyplot.plot(history.history['loss'], label='train')
pyplot.plot(history.history['val_loss'], label='test')
pyplot.legend()
pyplot.show()

# MLP在月牙形数据集上过拟合

from sklearn.datasets import make_moons

from keras.layers import Dense

from keras.models import Sequential

from matplotlib import pyplot

# 生成二维分类数据集

X, y = make_moons(n_samples=100, noise=0.2, random_state=1)

# 分割成训练集和测试集

n_train = 30

trainX, testX = X[:n_train, :], X[n_train:, :]

trainy, testy = y[:n_train], y[n_train:]

# 定义模型

model = Sequential()

model.add(Dense(500, input_dim=2, activation='relu'))

model.add(Dense(1, activation='sigmoid'))

model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])

# 拟合模型

history = model.fit(trainX, trainy, validation_data=(testX, testy), epochs=4000, verbose=0)

# 评估模型

_, train_acc = model.evaluate(trainX, trainy, verbose=0)

_, test_acc = model.evaluate(testX, testy, verbose=0)

print('Train: %.3f, Test: %.3f' % (train_acc, test_acc))

# 绘制训练历史

pyplot.plot(history.history['loss'], label='train')

pyplot.plot(history.history['val_loss'], label='test')

pyplot.legend()

pyplot.show()

运行示例会报告模型在训练数据集和测试数据集上的性能。

我们可以看到模型在训练数据集上的性能优于测试数据集，这可能是过拟合的一个迹象。

注意：由于算法或评估过程的随机性，或者数值精度的差异，您的结果可能会有所不同。考虑多次运行示例并比较平均结果。

因为模型严重过拟合，我们通常不期望在相同数据集上重复运行模型时，准确性会有很大（如果有的话）差异。

Train: 1.000, Test: 0.914

1	训练：1.000，测试：0.914

生成一个图，显示模型在训练集和测试集上的损失线图。

我们可以看到一个过拟合模型的预期形状，其中测试准确度会增加到一个点，然后再次开始下降。

回顾图表，我们还可以看到验证损失的起伏中存在平坦区域。任何提前停止都必须考虑这些行为。我们还预计，大约在第800个周期停止训练可能是个好时机。

Line Plots of Loss on Train and Test Datasets While Training Showing an Overfit Model

训练期间损失在训练集和测试集上的线图显示过拟合模型

带有提前停止的过拟合多层感知器

我们可以更新示例并添加非常简单的提前停止功能。

一旦模型在测试数据集上的损失开始增加，我们将停止训练。

首先，我们可以定义提前停止回调。

# simple early stopping
es = EarlyStopping(monitor='val_loss', mode='min', verbose=1)

1 2	# 简单的提前停止 es = EarlyStopping(monitor='val_loss', mode='min', verbose=1)

然后我们可以更新对fit()函数的调用，并通过“callback”参数指定回调列表。

# fit model
history = model.fit(trainX, trainy, validation_data=(testX, testy), epochs=4000, verbose=0, callbacks=[es])

1 2	# 拟合模型 history = model.fit(trainX, trainy, validation_data=(testX, testy), epochs=4000, verbose=0, callbacks=[es])

添加了简单提前停止功能的完整示例如下所示。

# mlp overfit on the moons dataset with simple early stopping
from sklearn.datasets import make_moons
from keras.models import Sequential
from keras.layers import Dense
from keras.callbacks import EarlyStopping
from matplotlib import pyplot
# generate 2d classification dataset
X, y = make_moons(n_samples=100, noise=0.2, random_state=1)
# split into train and test
n_train = 30
trainX, testX = X[:n_train, :], X[n_train:, :]
trainy, testy = y[:n_train], y[n_train:]
# define model
model = Sequential()
model.add(Dense(500, input_dim=2, activation='relu'))
model.add(Dense(1, activation='sigmoid'))
model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])
# simple early stopping
es = EarlyStopping(monitor='val_loss', mode='min', verbose=1)
# fit model
history = model.fit(trainX, trainy, validation_data=(testX, testy), epochs=4000, verbose=0, callbacks=[es])
# evaluate the model
_, train_acc = model.evaluate(trainX, trainy, verbose=0)
_, test_acc = model.evaluate(testX, testy, verbose=0)
print('Train: %.3f, Test: %.3f' % (train_acc, test_acc))
# plot training history
pyplot.plot(history.history['loss'], label='train')
pyplot.plot(history.history['val_loss'], label='test')
pyplot.legend()
pyplot.show()

# MLP在月牙形数据集上过拟合，带有简单提前停止

from sklearn.datasets import make_moons

from keras.models import Sequential

from keras.layers import Dense

from keras.callbacks import EarlyStopping

from matplotlib import pyplot

# 生成二维分类数据集

X, y = make_moons(n_samples=100, noise=0.2, random_state=1)

# 分割成训练集和测试集

n_train = 30

trainX, testX = X[:n_train, :], X[n_train:, :]

trainy, testy = y[:n_train], y[n_train:]

# 定义模型

model = Sequential()

model.add(Dense(500, input_dim=2, activation='relu'))

model.add(Dense(1, activation='sigmoid'))

model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])

# 简单的提前停止

es = EarlyStopping(monitor='val_loss', mode='min', verbose=1)

# 拟合模型

history = model.fit(trainX, trainy, validation_data=(testX, testy), epochs=4000, verbose=0, callbacks=[es])

# 评估模型

_, train_acc = model.evaluate(trainX, trainy, verbose=0)

_, test_acc = model.evaluate(testX, testy, verbose=0)

print('Train: %.3f, Test: %.3f' % (train_acc, test_acc))

# 绘制训练历史

pyplot.plot(history.history['loss'], label='train')

pyplot.plot(history.history['val_loss'], label='test')

pyplot.legend()

pyplot.show()

运行示例会报告模型在训练数据集和测试数据集上的性能。

注意：由于算法或评估过程的随机性，或者数值精度的差异，您的结果可能会有所不同。考虑多次运行示例并比较平均结果。

我们还可以看到回调在第200个周期停止了训练。这太早了，因为我们期望提前停止大约在第800个周期。训练集和测试集上的分类准确率也证明了这一点，它比没有提前停止时更差。

Epoch 00219: early stopping
Train: 0.967, Test: 0.814

1 2	第00219个周期：提前停止训练：0.967，测试：0.814

回顾训练和测试损失的线图，我们确实可以看到训练在验证损失首次趋于平稳时停止了。

Line Plot of Train and Test Loss During Training With Simple Early Stopping

使用简单提前停止的训练期间训练和测试损失的线图

我们可以通过等待一段时间再停止来改善提前停止的触发机制。

这可以通过设置“patience”参数来实现。

在这种情况下，我们将等待200个周期才停止训练。具体来说，这意味着我们允许训练在验证损失开始下降之后再继续最多200个周期，从而为训练过程提供机会越过平稳期或找到一些额外的改进。

# patient early stopping
es = EarlyStopping(monitor='val_loss', mode='min', verbose=1, patience=200)

1 2	# 耐心提前停止 es = EarlyStopping(monitor='val_loss', mode='min', verbose=1, patience=200)

进行了此更改的完整示例如下所示。

# mlp overfit on the moons dataset with patient early stopping
from sklearn.datasets import make_moons
from keras.models import Sequential
from keras.layers import Dense
from keras.callbacks import EarlyStopping
from matplotlib import pyplot
# generate 2d classification dataset
X, y = make_moons(n_samples=100, noise=0.2, random_state=1)
# split into train and test
n_train = 30
trainX, testX = X[:n_train, :], X[n_train:, :]
trainy, testy = y[:n_train], y[n_train:]
# define model
model = Sequential()
model.add(Dense(500, input_dim=2, activation='relu'))
model.add(Dense(1, activation='sigmoid'))
model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])
# patient early stopping
es = EarlyStopping(monitor='val_loss', mode='min', verbose=1, patience=200)
# fit model
history = model.fit(trainX, trainy, validation_data=(testX, testy), epochs=4000, verbose=0, callbacks=[es])
# evaluate the model
_, train_acc = model.evaluate(trainX, trainy, verbose=0)
_, test_acc = model.evaluate(testX, testy, verbose=0)
print('Train: %.3f, Test: %.3f' % (train_acc, test_acc))
# plot training history
pyplot.plot(history.history['loss'], label='train')
pyplot.plot(history.history['val_loss'], label='test')
pyplot.legend()
pyplot.show()

# MLP在月牙形数据集上过拟合，带有耐心提前停止

from sklearn.datasets import make_moons

from keras.models import Sequential

from keras.layers import Dense

from keras.callbacks import EarlyStopping

from matplotlib import pyplot

# 生成二维分类数据集

X, y = make_moons(n_samples=100, noise=0.2, random_state=1)

# 分割成训练集和测试集

n_train = 30

trainX, testX = X[:n_train, :], X[n_train:, :]

trainy, testy = y[:n_train], y[n_train:]

# 定义模型

model = Sequential()

model.add(Dense(500, input_dim=2, activation='relu'))

model.add(Dense(1, activation='sigmoid'))

model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])

# 耐心提前停止

es = EarlyStopping(monitor='val_loss', mode='min', verbose=1, patience=200)

# 拟合模型

history = model.fit(trainX, trainy, validation_data=(testX, testy), epochs=4000, verbose=0, callbacks=[es])

# 评估模型

_, train_acc = model.evaluate(trainX, trainy, verbose=0)

_, test_acc = model.evaluate(testX, testy, verbose=0)

print('Train: %.3f, Test: %.3f' % (train_acc, test_acc))

# 绘制训练历史

pyplot.plot(history.history['loss'], label='train')

pyplot.plot(history.history['val_loss'], label='test')

pyplot.legend()

pyplot.show()

运行示例，我们可以看到训练停止得晚得多，在这种情况下是在第1000个周期之后。

注意：由于算法或评估过程的随机性，或者数值精度的差异，您的结果可能会有所不同。考虑多次运行示例并比较平均结果。

我们还可以看到测试数据集上的性能优于不使用任何提前停止。

Epoch 01033: early stopping
Train: 1.000, Test: 0.943

1 2	第01033个周期：提前停止训练：1.000，测试：0.943

回顾训练期间的损失线图，我们可以看到耐心允许训练越过一些小的平坦和不佳区域。

Line Plot of Train and Test Loss During Training With Patient Early Stopping

使用耐心提前停止的训练期间训练和测试损失的线图

我们还可以看到，在最后大约100个周期中，测试损失再次开始增加。

这意味着，尽管模型的性能有所提高，但在训练结束时，我们可能没有性能最好或最稳定的模型。我们可以通过使用ModelCheckpoint回调来解决这个问题。

在这种情况下，我们对在测试数据集上具有最佳准确度的模型感兴趣。我们也可以寻找在测试数据集上具有最佳损失的模型，但这可能不一定与具有最佳准确度的模型相对应。

这强调了模型选择中的一个重要概念。在训练期间，“最佳”模型的概念在评估使用不同性能度量时可能会发生冲突。尝试根据在领域中评估和呈现它们的指标来选择模型。在平衡的二分类问题中，这很可能是分类准确度。因此，我们将在ModelCheckpoint回调中使用验证集上的准确度来保存训练期间观察到的最佳模型。

mc = ModelCheckpoint('best_model.h5', monitor='val_accuracy', mode='max', verbose=1, save_best_only=True)

1	mc = ModelCheckpoint('best_model.h5', monitor='val_accuracy', mode='max', verbose=1, save_best_only=True)

在训练期间，只有当验证数据集上的准确度在整个训练过程中整体提高时，整个模型才会保存到文件“best_model.h5”。详细输出还将告知我们每次模型保存到同一文件（即被覆盖）时的周期和准确度值。

在调用fit()函数时，可以将此新添加的回调添加到回调列表中。

history = model.fit(trainX, trainy, validation_data=(testX, testy), epochs=4000, verbose=0, callbacks=[es, mc])

1	history = model.fit(trainX, trainy, validation_data=(testX, testy), epochs=4000, verbose=0, callbacks=[es, mc])

我们不再对训练期间损失的线图感兴趣；它将与之前的运行大致相同。

相反，我们希望从文件中加载保存的模型并评估其在测试数据集上的性能。

# load the saved model
saved_model = load_model('best_model.h5')
# evaluate the model
_, train_acc = saved_model.evaluate(trainX, trainy, verbose=0)
_, test_acc = saved_model.evaluate(testX, testy, verbose=0)
print('Train: %.3f, Test: %.3f' % (train_acc, test_acc))

# 加载保存的模型

saved_model = load_model('best_model.h5')

# 评估模型

_, train_acc = saved_model.evaluate(trainX, trainy, verbose=0)

_, test_acc = saved_model.evaluate(testX, testy, verbose=0)

print('Train: %.3f, Test: %.3f' % (train_acc, test_acc))

进行了这些更改的完整示例如下所示。

# mlp overfit on the moons dataset with patient early stopping and model checkpointing
from sklearn.datasets import make_moons
from keras.models import Sequential
from keras.layers import Dense
from keras.callbacks import EarlyStopping
from keras.callbacks import ModelCheckpoint
from matplotlib import pyplot
from keras.models import load_model
# generate 2d classification dataset
X, y = make_moons(n_samples=100, noise=0.2, random_state=1)
# split into train and test
n_train = 30
trainX, testX = X[:n_train, :], X[n_train:, :]
trainy, testy = y[:n_train], y[n_train:]
# define model
model = Sequential()
model.add(Dense(500, input_dim=2, activation='relu'))
model.add(Dense(1, activation='sigmoid'))
model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])
# simple early stopping
es = EarlyStopping(monitor='val_loss', mode='min', verbose=1, patience=200)
mc = ModelCheckpoint('best_model.h5', monitor='val_accuracy', mode='max', verbose=1, save_best_only=True)
# fit model
history = model.fit(trainX, trainy, validation_data=(testX, testy), epochs=4000, verbose=0, callbacks=[es, mc])
# load the saved model
saved_model = load_model('best_model.h5')
# evaluate the model
_, train_acc = saved_model.evaluate(trainX, trainy, verbose=0)
_, test_acc = saved_model.evaluate(testX, testy, verbose=0)
print('Train: %.3f, Test: %.3f' % (train_acc, test_acc))

# MLP在月牙形数据集上过拟合，带有耐心提前停止和模型检查点

from sklearn.datasets import make_moons

from keras.models import Sequential

from keras.layers import Dense

from keras.callbacks import EarlyStopping

from keras.callbacks import ModelCheckpoint

from matplotlib import pyplot

from keras.models import load_model

# 生成二维分类数据集

X, y = make_moons(n_samples=100, noise=0.2, random_state=1)

# 分割成训练集和测试集

n_train = 30

trainX, testX = X[:n_train, :], X[n_train:, :]

trainy, testy = y[:n_train], y[n_train:]

# 定义模型

model = Sequential()

model.add(Dense(500, input_dim=2, activation='relu'))

model.add(Dense(1, activation='sigmoid'))

model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])

# 简单的提前停止

es = EarlyStopping(monitor='val_loss', mode='min', verbose=1, patience=200)

mc = ModelCheckpoint('best_model.h5', monitor='val_accuracy', mode='max', verbose=1, save_best_only=True)

# 拟合模型

history = model.fit(trainX, trainy, validation_data=(testX, testy), epochs=4000, verbose=0, callbacks=[es, mc])

# 加载保存的模型

saved_model = load_model('best_model.h5')

# 评估模型

_, train_acc = saved_model.evaluate(trainX, trainy, verbose=0)

_, test_acc = saved_model.evaluate(testX, testy, verbose=0)

print('Train: %.3f, Test: %.3f' % (train_acc, test_acc))

运行示例，我们可以看到来自ModelCheckpoint回调的详细输出，用于保存新的最佳模型和未观察到改进时的情况。

我们可以看到在此运行期间，最佳模型是在第879个周期观察到的。

注意：由于算法或评估过程的随机性，或者数值精度的差异，您的结果可能会有所不同。考虑多次运行示例并比较平均结果。

再次，我们可以看到提前停止耐心持续到第1000个周期之后。请注意，第880个周期加上200个耐心并非第1044个周期。回想一下，提前停止正在监控验证数据集上的损失，而模型检查点正在根据准确度保存模型。因此，提前停止的耐心从第880个周期以外的某个周期开始。

...
Epoch 00878: val_acc did not improve from 0.92857
Epoch 00879: val_acc improved from 0.92857 to 0.94286, saving model to best_model.h5
Epoch 00880: val_acc did not improve from 0.94286
...
Epoch 01042: val_acc did not improve from 0.94286
Epoch 01043: val_acc did not improve from 0.94286
Epoch 01044: val_acc did not improve from 0.94286
Epoch 01044: early stopping
Train: 1.000, Test: 0.943

...

第00878个周期：val_acc未从0.92857改进

第00879个周期：val_acc从0.92857改进到0.94286，将模型保存到best_model.h5

第00880个周期：val_acc未从0.94286改进

...

第01042个周期：val_acc未从0.94286改进

第01043个周期：val_acc未从0.94286改进

第01044个周期：val_acc未从0.94286改进

第01044个周期：提前停止

训练：1.000，测试：0.943

在这种情况下，我们没有看到模型在测试数据集上的准确度有进一步的改进。尽管如此，我们遵循了良好的实践。

为什么不监控验证准确度进行提前停止？

这是一个很好的问题。主要原因是，准确度是训练期间模型性能的粗略度量，而损失在分类问题中使用提前停止时提供了更多的细微差别。在回归情况下，例如均方误差，提前停止和模型检查点可以使用相同的度量。

扩展

本节列出了一些您可能希望探索的扩展本教程的想法。

使用准确率。更新示例以监控测试数据集上的准确率而不是损失，并绘制显示准确率的学习曲线。
使用真实的验证集。更新示例以将训练集拆分为训练集和验证集，然后评估测试数据集上的模型。
回归示例。创建一个新示例，演示如何使用提前停止来解决简单回归问题中的过拟合，并监控均方误差。

如果您探索了这些扩展中的任何一个，我很想知道。

进一步阅读

如果您想深入了解，本节提供了更多关于该主题的资源。

文章

API

总结

在本教程中，您学习了Keras API，用于向过拟合的深度学习神经网络模型添加提前停止功能。

具体来说，你学到了：

如何使用Keras API在训练期间监控模型的性能。
如何使用Keras API创建和配置提前停止和模型检查点回调。
如何通过向现有模型添加提前停止来减少过拟合。

你有什么问题吗？
在下面的评论中提出你的问题，我会尽力回答。

关于此主题的更多信息

提前停止以避免神经网络过拟合的温和介绍

训练带噪声的神经网络以减少过拟合