如何在Keras中开发深度学习模型集成

作者： Jason Brownlee 发布于 2020 年 8 月 28 日在深度学习性能 51

深度学习神经网络模型是高度灵活的非线性算法，能够学习几乎无限数量的映射函数。

这种灵活性带来的一个令人沮丧的问题是最终模型的高方差。在相同数据集上训练的相同神经网络模型，每次运行时都可能找到许多不同“足够好”的解决方案之一。

模型平均是一种集成学习技术，它通过牺牲模型性能的扩展性来减少最终神经网络模型的方差，以获得对模型预期性能的信心。

在本教程中，您将学习如何在 Keras 中开发模型平均集成，以减少最终模型的方差。

完成本教程后，您将了解：

模型平均是一种集成学习技术，可用于减少深度学习神经网络模型的预期方差。
如何在 Keras 中实现分类和回归预测建模问题的模型平均。
如何解决多类分类问题，并使用模型平均来减少最终模型的方差。

用我的新书《更好的深度学习》来启动你的项目，书中包含分步教程和所有示例的 Python 源代码文件。

让我们开始吧。

2019 年 10 月更新：更新至 Keras 2.3 和 TensorFlow 2.0。
2020年1月更新：已针对 scikit-learn v0.22 API 的更改进行更新。

How to Reduce the Variance of Deep Learning Models in Keras With Model Averaging Ensembles

如何在 Keras 中使用模型平均集成来减少深度学习模型的方差
照片由 John Mason 拍摄，保留部分权利。

教程概述

本教程分为六个部分；它们是：

模型平均
如何在 Keras 中平均模型
多类别分类问题
用于多类分类的 MLP 模型
MLP 模型的高方差
模型平均集成

模型平均

深度学习神经网络模型是通过随机训练算法学习的非线性方法。

这意味着它们具有高度灵活性，能够学习变量之间复杂的关联，并在资源充足的情况下近似任何映射函数。这种灵活性的一个缺点是模型具有高方差。

这意味着模型高度依赖于用于训练模型的特定训练数据、初始条件（随机初始权重）以及训练过程中的偶然性。结果是，每次在相同数据集上训练相同模型配置时，最终模型都会做出不同的预测。

当训练一个最终模型用于对新数据进行预测时，例如在操作中或机器学习竞赛中，这可能会令人沮丧。

可以通过为问题训练多个模型并组合它们的预测来解决该方法的高方差问题。这种方法称为模型平均，属于集成学习技术家族。

想要通过深度学习获得更好的结果吗？

立即参加我为期7天的免费电子邮件速成课程（附示例代码）。

点击注册，同时获得该课程的免费PDF电子书版本。

如何在 Keras 中平均模型

在 Keras 中开发模型平均集成的最简单方法是在相同数据集上训练多个模型，然后组合每个训练模型的预测。

训练多个模型

根据模型的大小和训练数据的大小，训练多个模型可能需要大量的资源。

您可能需要在相同的硬件上顺序训练模型。对于非常大的模型，可能值得使用云基础设施（例如Amazon Web Services）并行训练模型。

集成所需的模型数量可能因问题的复杂性和模型而异。该方法的一个优点是您可以继续创建模型，将它们添加到集成中，并通过对保留测试集进行预测来评估它们对性能的影响。

对于小型模型，您可以按顺序训练模型并将其保存在内存中以供实验使用。例如

...
# train models and keep them in memory
n_members = 10
models = list()
for _ in range(n_members):
	# define and fit model
	model = ...
	# store model in memory as ensemble member
	models.add(models)
...

...

# 训练模型并将其保存在内存中

n_members = 10

models = list()

for _ in range(n_members):

# 定义和拟合模型

model = ...

# 将模型作为集成成员存储在内存中

models.add(models)

...

对于大型模型，可能在不同的硬件上训练，您可以将每个模型保存到文件。

...
# train models and keep them to file
n_members = 10
for i in range(n_members):
	# define and fit model
	model = ...
	# save model to file
	filename = 'model_' + str(i + 1) + '.h5'
	model.save(filename)
	print('Saved: %s' % filename)
...

...

# 训练模型并将其保存到文件

n_members = 10

for i in range(n_members):

# 定义和拟合模型

model = ...

# 将模型保存到文件

filename = 'model_' + str(i + 1) + '.h5'

model.save(filename)

print('Saved: %s' % filename)

...

模型稍后可以加载。

小型模型可以全部同时加载到内存中，而非常大型的模型可能必须一次加载一个以进行预测，然后将预测结果合并。

from keras.models import load_model
...
# load pre-trained ensemble members
n_members = 10
models = list()
for i in range(n_members):
	# load model
	filename = 'model_' + str(i + 1) + '.h5'
	model = load_model(filename)
	# store in memory
	models.append(model)
...

from keras.models import load_model

...

# 加载预训练的集成成员

n_members = 10

models = list()

for i in range(n_members):

# 加载模型

filename = 'model_' + str(i + 1) + '.h5'

model = load_model(filename)

# 存储在内存中

models.append(model)

...

合并预测

模型准备好后，每个模型都可以用于进行预测，并且可以将预测结果合并。

在每个模型都预测实数值输出的回归问题中，可以收集这些值并计算平均值。

...
# make predictions
yhats = [model.predict(testX) for model in models]
yhats = array(yhats)
# calculate average
outcomes = mean(yhats)

...

# 进行预测

yhats = [model.predict(testX) for model in models]

yhats = array(yhats)

# 计算平均值

outcomes = mean(yhats)

在分类问题中，有两种选择。

第一种是计算预测整数类别值的众数。

...
# make predictions
yhats = [model.predict_classes(testX) for model in models]
yhats = array(yhats)
# calculate mode
outcomes, _ = mode(yhats)

...

# 进行预测

yhats = [model.predict_classes(testX) for model in models]

yhats = array(yhats)

# 计算众数

outcomes, _ = mode(yhats)

这种方法的一个缺点是，对于小型集成或具有大量类别的问题，预测样本可能不够大，无法使众数具有意义。

在二元分类问题中，输出层使用 sigmoid 激活函数，预测概率的平均值可以像回归问题一样计算。

在具有两个以上类别的多类分类问题中，输出层使用 softmax 激活函数，可以计算每个预测类别的概率之和，然后再取argmax以获得类别值。

...
# make predictions
yhats = [model.predict(testX) for model in models]
yhats = array(yhats)
# sum across ensembles
summed = numpy.sum(yhats, axis=0)
# argmax across classes
outcomes = argmax(summed, axis=1)

...

# 进行预测

yhats = [model.predict(testX) for model in models]

yhats = array(yhats)

# 在集成中求和

summed = numpy.sum(yhats, axis=0)

# 对类别求argmax

outcomes = argmax(summed, axis=1)

这些组合 Keras 模型预测的方法同样适用于多层感知器、卷积神经网络和循环神经网络。

既然我们知道如何在 Keras 中对多个神经网络模型的预测进行平均，那么我们来研究一个案例。

多类别分类问题

我们将使用一个小型多类分类问题作为基础来演示模型平均集成。

scikit-learn 类提供了 make_blobs() 函数，可用于创建具有规定样本数、输入变量、类别和类别内样本方差的多类分类问题。

我们使用这个包含 500 个示例的问题，其中输入变量（表示点的 x 和 y 坐标）和每个组内点的标准差为 2.0。我们将使用相同的随机状态（伪随机数生成器的种子）以确保我们始终获得相同的 500 个点。

# generate 2d classification dataset
X, y = make_blobs(n_samples=500, centers=3, n_features=2, cluster_std=2, random_state=2)

1 2	# 生成二维分类数据集 X, y = make_blobs(n_samples=500, centers=3, n_features=2, cluster_std=2, random_state=2)

结果是我们可以建模的数据集的输入和输出元素。

为了了解问题的复杂性，我们可以将每个点绘制在二维散点图上，并按类别值对每个点进行着色。

完整的示例如下所示。

# scatter plot of blobs dataset
from sklearn.datasets import make_blobs
from matplotlib import pyplot
from pandas import DataFrame
# generate 2d classification dataset
X, y = make_blobs(n_samples=500, centers=3, n_features=2, cluster_std=2, random_state=2)
# scatter plot, dots colored by class value
df = DataFrame(dict(x=X[:,0], y=X[:,1], label=y))
colors = {0:'red', 1:'blue', 2:'green'}
fig, ax = pyplot.subplots()
grouped = df.groupby('label')
for key, group in grouped:
    group.plot(ax=ax, kind='scatter', x='x', y='y', label=key, color=colors[key])
pyplot.show()

# blob 数据集的散点图

from sklearn.datasets import make_blobs

from matplotlib import pyplot

from pandas import DataFrame

# 生成二维分类数据集

X, y = make_blobs(n_samples=500, centers=3, n_features=2, cluster_std=2, random_state=2)

# 散点图，点按类别值着色

df = DataFrame(dict(x=X[:,0], y=X[:,1], label=y))

colors = {0:'red', 1:'blue', 2:'green'}

fig, ax = pyplot.subplots()

grouped = df.groupby('label')

for key, group in grouped:

group.plot(ax=ax, kind='scatter', x='x', y='y', label=key, color=colors[key])

pyplot.show()

运行此示例将生成整个数据集的散点图。我们可以看到，标准差为 2.0 意味着这些类不是线性可分的（不能用一条线分开），导致许多模糊的点。

这是可取的，因为它意味着问题不是微不足道的，并且将允许神经网络模型找到许多不同的“足够好”的候选解决方案，从而导致高方差。

Scatter Plot of Blobs Dataset with Three Classes and Points Colored by Class Value

具有三个类别的 Blobs 数据集散点图，点按类别值着色

用于多类分类的 MLP 模型

既然我们已经定义了一个问题，我们就可以定义一个模型来解决它。

我们将定义一个可能约束不足且未针对问题进行调整的模型。这是有意的，以演示在真正大型和具有挑战性的监督学习问题上看到的神经网络模型的高方差。

该问题是一个多类分类问题，我们将使用输出层上的 softmax 激活函数对其进行建模。这意味着模型将预测一个包含 3 个元素的向量，其中包含样本属于 3 个类别中每个类别的概率。因此，第一步是对类别值进行独热编码。

y = to_categorical(y)

1	y = to_categorical(y)

接下来，我们必须将数据集分成训练集和测试集。我们将使用测试集来评估模型的性能，并使用学习曲线绘制其在训练过程中的性能。我们将使用 30% 的数据进行训练，70% 用于测试集。

这是一个具有挑战性的问题示例，其中我们有比标记示例更多的未标记示例。

# split into train and test
n_train = int(0.3 * X.shape[0])
trainX, testX = X[:n_train, :], X[n_train:, :]
trainy, testy = y[:n_train], y[n_train:]

# 分割成训练集和测试集

n_train = int(0.3 * X.shape[0])

trainX, testX = X[:n_train, :], X[n_train:, :]

trainy, testy = y[:n_train], y[n_train:]

接下来，我们可以定义并编译模型。

该模型将期望具有两个输入变量的样本。然后，模型有一个具有 15 个节点和整流线性激活函数的单个隐藏层，然后是一个具有 3 个节点以预测 3 个类别中每个类别的概率的输出层，以及一个 softmax 激活函数。

由于问题是多类问题，我们将使用分类交叉熵损失函数来优化模型，并使用高效的Adam 随机梯度下降变体。

# define model
model = Sequential()
model.add(Dense(15, input_dim=2, activation='relu'))
model.add(Dense(3, activation='softmax'))
model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])

# 定义模型

model = Sequential()

model.add(Dense(15, input_dim=2, activation='relu'))

model.add(Dense(3, activation='softmax'))

model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])

模型将训练 200 个训练周期，我们将在每个周期在测试集上评估模型，将测试集用作验证集。

# fit model
history = model.fit(trainX, trainy, validation_data=(testX, testy), epochs=200, verbose=0)

1 2	# 拟合模型 history = model.fit(trainX, trainy, validation_data=(testX, testy), epochs=200, verbose=0)

在运行结束时，我们将评估模型在训练集和测试集上的性能。

# evaluate the model
_, train_acc = model.evaluate(trainX, trainy, verbose=0)
_, test_acc = model.evaluate(testX, testy, verbose=0)
print('Train: %.3f, Test: %.3f' % (train_acc, test_acc))

# 评估模型

_, train_acc = model.evaluate(trainX, trainy, verbose=0)

_, test_acc = model.evaluate(testX, testy, verbose=0)

print('Train: %.3f, Test: %.3f' % (train_acc, test_acc))

最后，我们将绘制模型在每个训练周期在训练数据集和测试数据集上的准确率学习曲线。

# plot history
pyplot.plot(history.history['accuracy'], label='train')
pyplot.plot(history.history['val_accuracy'], label='test')
pyplot.legend()
pyplot.show()

# 绘制历史记录

pyplot.plot(history.history['accuracy'], label='train')

pyplot.plot(history.history['val_accuracy'], label='test')

pyplot.legend()

pyplot.show()

完整的示例如下所示。

# fit high variance mlp on blobs classification problem
from sklearn.datasets import make_blobs
from keras.utils import to_categorical
from keras.models import Sequential
from keras.layers import Dense
from matplotlib import pyplot
# generate 2d classification dataset
X, y = make_blobs(n_samples=500, centers=3, n_features=2, cluster_std=2, random_state=2)
y = to_categorical(y)
# split into train and test
n_train = int(0.3 * X.shape[0])
trainX, testX = X[:n_train, :], X[n_train:, :]
trainy, testy = y[:n_train], y[n_train:]
# define model
model = Sequential()
model.add(Dense(15, input_dim=2, activation='relu'))
model.add(Dense(3, activation='softmax'))
model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])
# fit model
history = model.fit(trainX, trainy, validation_data=(testX, testy), epochs=200, verbose=0)
# evaluate the model
_, train_acc = model.evaluate(trainX, trainy, verbose=0)
_, test_acc = model.evaluate(testX, testy, verbose=0)
print('Train: %.3f, Test: %.3f' % (train_acc, test_acc))
# learning curves of model accuracy
pyplot.plot(history.history['accuracy'], label='train')
pyplot.plot(history.history['val_accuracy'], label='test')
pyplot.legend()
pyplot.show()

# 在 blobs 分类问题上拟合高方差 mlp

from sklearn.datasets import make_blobs

from keras.utils import to_categorical

from keras.models import Sequential

from keras.layers import Dense

from matplotlib import pyplot

# 生成二维分类数据集

X, y = make_blobs(n_samples=500, centers=3, n_features=2, cluster_std=2, random_state=2)

y = to_categorical(y)

# 分割成训练集和测试集

n_train = int(0.3 * X.shape[0])

trainX, testX = X[:n_train, :], X[n_train:, :]

trainy, testy = y[:n_train], y[n_train:]

# 定义模型

model = Sequential()

model.add(Dense(15, input_dim=2, activation='relu'))

model.add(Dense(3, activation='softmax'))

model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])

# 拟合模型

history = model.fit(trainX, trainy, validation_data=(testX, testy), epochs=200, verbose=0)

# 评估模型

_, train_acc = model.evaluate(trainX, trainy, verbose=0)

_, test_acc = model.evaluate(testX, testy, verbose=0)

print('Train: %.3f, Test: %.3f' % (train_acc, test_acc))

# 模型准确率的学习曲线

pyplot.plot(history.history['accuracy'], label='train')

pyplot.plot(history.history['val_accuracy'], label='test')

pyplot.legend()

pyplot.show()

运行示例首先会打印最终模型在训练集和测试集上的性能。

注意：由于算法或评估过程的随机性，或数值精度的差异，您的结果可能会有所不同。考虑多次运行示例并比较平均结果。

在这种情况下，我们可以看到模型在训练数据集上实现了约 84% 的准确率，在测试数据集上实现了约 76% 的准确率；不算太差。

Train: 0.847, Test: 0.766

1	训练：0.847，测试：0.766

还创建了一条线图，显示了模型在训练集和测试集上每个训练周期的准确率学习曲线。

我们可以看到模型并没有真正过拟合，但可能有点欠拟合，并且可能受益于增加容量、更多训练以及一些正则化。我们故意保留所有这些改进，以强制我们的案例研究的高方差。

Line Plot Learning Curves of Model Accuracy on Train and Test Dataset Over Each Training Epoch

每个训练周期模型在训练和测试数据集上的准确率学习曲线图

MLP 模型的高方差

重要的是要证明模型确实在其预测中存在方差。

我们可以通过在相同数据集上重复拟合和评估相同的模型配置，并总结模型的最终性能来证明这一点。

为此，我们首先将模型的拟合和评估拆分为一个可以重复调用的函数。下面的 evaluate_model() 函数接受训练和测试数据集，拟合模型，然后评估它，返回模型在测试数据集上的准确率。

# fit and evaluate a neural net model on the dataset
def evaluate_model(trainX, trainy, testX, testy):
	# define model
	model = Sequential()
	model.add(Dense(15, input_dim=2, activation='relu'))
	model.add(Dense(3, activation='softmax'))
	model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])
	# fit model
	model.fit(trainX, trainy, epochs=200, verbose=0)
	# evaluate the model
	_, test_acc = model.evaluate(testX, testy, verbose=0)
	return test_acc

# 在数据集上拟合和评估神经网络模型

def evaluate_model(trainX, trainy, testX, testy):

# 定义模型

model = Sequential()

model.add(Dense(15, input_dim=2, activation='relu'))

model.add(Dense(3, activation='softmax'))

model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])

# 拟合模型

model.fit(trainX, trainy, epochs=200, verbose=0)

# 评估模型

_, test_acc = model.evaluate(testX, testy, verbose=0)

return test_acc

我们可以调用此函数 30 次，保存测试准确率分数。

# repeated evaluation
n_repeats = 30
scores = list()
for _ in range(n_repeats):
	score = evaluate_model(trainX, trainy, testX, testy)
	print('> %.3f' % score)
	scores.append(score)

# 重复评估

n_repeats = 30

scores = list()

for _ in range(n_repeats):

score = evaluate_model(trainX, trainy, testX, testy)

print('> %.3f' % score)

scores.append(score)

收集到分数后，我们可以总结分数的分布，首先是平均值和标准差，假设分布是高斯分布，这是非常合理的。

# summarize the distribution of scores
print('Scores Mean: %.3f, Standard Deviation: %.3f' % (mean(scores), std(scores)))

1 2	# 总结分数分布 print('Scores Mean: %.3f, Standard Deviation: %.3f' % (mean(scores), std(scores)))

然后，我们可以将分布概括为直方图，以显示分布的形状；概括为箱线图，以显示分布的扩展和主体。

# histogram of distribution
pyplot.hist(scores, bins=10)
pyplot.show()
# boxplot of distribution
pyplot.boxplot(scores)
pyplot.show()

# 分布直方图

pyplot.hist(scores, bins=10)

pyplot.show()

# 分布箱线图

pyplot.boxplot(scores)

pyplot.show()

下面列出了在所选 blobs 数据集上总结 MLP 模型方差的完整示例。

# demonstrate high variance of mlp model on blobs classification problem
from sklearn.datasets import make_blobs
from keras.utils import to_categorical
from keras.models import Sequential
from keras.layers import Dense
from numpy import mean
from numpy import std
from matplotlib import pyplot

# fit and evaluate a neural net model on the dataset
def evaluate_model(trainX, trainy, testX, testy):
	# define model
	model = Sequential()
	model.add(Dense(15, input_dim=2, activation='relu'))
	model.add(Dense(3, activation='softmax'))
	model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])
	# fit model
	model.fit(trainX, trainy, epochs=200, verbose=0)
	# evaluate the model
	_, test_acc = model.evaluate(testX, testy, verbose=0)
	return test_acc

# generate 2d classification dataset
X, y = make_blobs(n_samples=500, centers=3, n_features=2, cluster_std=2, random_state=2)
y = to_categorical(y)
# split into train and test
n_train = int(0.3 * X.shape[0])
trainX, testX = X[:n_train, :], X[n_train:, :]
trainy, testy = y[:n_train], y[n_train:]
# repeated evaluation
n_repeats = 30
scores = list()
for _ in range(n_repeats):
	score = evaluate_model(trainX, trainy, testX, testy)
	print('> %.3f' % score)
	scores.append(score)
# summarize the distribution of scores
print('Scores Mean: %.3f, Standard Deviation: %.3f' % (mean(scores), std(scores)))
# histogram of distribution
pyplot.hist(scores, bins=10)
pyplot.show()
# boxplot of distribution
pyplot.boxplot(scores)
pyplot.show()

# 演示 blobs 分类问题上 mlp 模型的高方差

from sklearn.datasets import make_blobs

from keras.utils import to_categorical

from keras.models import Sequential

from keras.layers import Dense

from numpy import mean

from numpy import std

from matplotlib import pyplot

# 在数据集上拟合和评估神经网络模型

def evaluate_model(trainX, trainy, testX, testy):

# 定义模型

model = Sequential()

model.add(Dense(15, input_dim=2, activation='relu'))

model.add(Dense(3, activation='softmax'))

model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])

# 拟合模型

model.fit(trainX, trainy, epochs=200, verbose=0)

# 评估模型

_, test_acc = model.evaluate(testX, testy, verbose=0)

return test_acc

# 生成二维分类数据集

X, y = make_blobs(n_samples=500, centers=3, n_features=2, cluster_std=2, random_state=2)

y = to_categorical(y)

# 分割成训练集和测试集

n_train = int(0.3 * X.shape[0])

trainX, testX = X[:n_train, :], X[n_train:, :]

trainy, testy = y[:n_train], y[n_train:]

# 重复评估

n_repeats = 30

scores = list()

for _ in range(n_repeats):

score = evaluate_model(trainX, trainy, testX, testy)

print('> %.3f' % score)

scores.append(score)

# 总结分数分布

print('Scores Mean: %.3f, Standard Deviation: %.3f' % (mean(scores), std(scores)))

# 分布直方图

pyplot.hist(scores, bins=10)

pyplot.show()

# 分布箱线图

pyplot.boxplot(scores)

pyplot.show()

运行示例首先打印每个模型在测试集上的准确率，最后是准确率分数的样本均值和标准差。

注意：由于算法或评估过程的随机性，或数值精度的差异，您的结果可能会有所不同。考虑多次运行示例并比较平均结果。

在这种情况下，我们可以看到样本平均值是 77%，标准差约为 1.4%。假设是高斯分布，我们预计 99% 的准确率分数将落在约 73% 到 81% 之间（即高于和低于平均值 3 个标准差）。

我们可以将模型在测试集上的准确率的标准差作为模型预测方差的估计值。

> 0.749
> 0.771
> 0.763
> 0.760
> 0.783
> 0.780
> 0.769
> 0.754
> 0.766
> 0.786
> 0.766
> 0.774
> 0.757
> 0.754
> 0.771
> 0.749
> 0.763
> 0.800
> 0.774
> 0.777
> 0.766
> 0.794
> 0.797
> 0.757
> 0.763
> 0.751
> 0.789
> 0.791
> 0.766
> 0.766
Scores Mean: 0.770, Standard Deviation: 0.014

> 0.749

> 0.771

> 0.763

> 0.760

> 0.783

> 0.780

> 0.769

> 0.754

> 0.766

> 0.786

> 0.766

> 0.774

> 0.757

> 0.754

> 0.771

> 0.749

> 0.763

> 0.800

> 0.774

> 0.777

> 0.766

> 0.794

> 0.797

> 0.757

> 0.763

> 0.751

> 0.789

> 0.791

> 0.766

分数均值：0.770，标准差：0.014

还创建了一个准确率分数的直方图，显示了一个非常粗略的高斯形状，可能右侧有一个更长的尾部。

在图上使用更大的样本和不同数量的 bin 可能会更好地揭示分布的真实潜在形状。

Histogram of Model Test Accuracy Over 30 Repeats

模型测试准确率在 30 次重复中的直方图

还创建了一个箱线图，显示中位数线在测试集上约为 76.5% 的准确率，以及四分位数范围或样本中间 50% 在约 78% 到 76% 之间。

Box and Whisker Plot of Model Test Accuracy Over 30 Repeats

模型测试准确率在 30 次重复中的箱线图

对测试分数样本的分析清楚地表明，在相同数据集上训练的相同模型性能存在差异。

在测试集上可能得分的范围约为 8 个百分点（81% – 73%），可以合理地认为是大的，例如高方差结果。

模型平均集成

我们可以使用模型平均来减少模型的方差，并可能减少模型的泛化误差。

具体来说，这将导致保留测试集上的标准差更小，并且训练集上的性能更好。我们可以检查这两个假设。

首先，我们必须开发一个函数来准备并返回训练数据集上的拟合模型。

# fit model on dataset
def fit_model(trainX, trainy):
	# define model
	model = Sequential()
	model.add(Dense(15, input_dim=2, activation='relu'))
	model.add(Dense(3, activation='softmax'))
	model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])
	# fit model
	model.fit(trainX, trainy, epochs=200, verbose=0)
	return model

# 在数据集上拟合模型

def fit_model(trainX, trainy):

# 定义模型

model = Sequential()

model.add(Dense(15, input_dim=2, activation='relu'))

model.add(Dense(3, activation='softmax'))

model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])

# 拟合模型

model.fit(trainX, trainy, epochs=200, verbose=0)

return model

接下来，我们需要一个函数，它可以接受集成成员列表并对样本外数据集进行预测。这可能是一个或多个样本，排列在样本和输入特征的二维数组中。

提示：您可以自己使用此函数来测试集成，并使用集成对新数据进行预测。

# make an ensemble prediction for multi-class classification
def ensemble_predictions(members, testX):
	# make predictions
	yhats = [model.predict(testX) for model in members]
	yhats = array(yhats)
	# sum across ensemble members
	summed = numpy.sum(yhats, axis=0)
	# argmax across classes
	result = argmax(summed, axis=1)
	return result

# 为多类分类进行集成预测

def ensemble_predictions(members, testX):

# 进行预测

yhats = [model.predict(testX) for model in members]

yhats = array(yhats)

# 跨集成成员求和

summed = numpy.sum(yhats, axis=0)

# 跨类求 argmax

result = argmax(summed, axis=1)

return result

我们不知道这个集成需要多少个集成成员。

因此，我们可以对集成成员的数量进行敏感性分析，以及它如何影响测试准确率。这意味着我们需要一个函数，它可以评估指定数量的集成成员，并返回由这些成员组合而成的预测准确率。

# evaluate a specific number of members in an ensemble
def evaluate_n_members(members, n_members, testX, testy):
	# select a subset of members
	subset = members[:n_members]
	print(len(subset))
	# make prediction
	yhat = ensemble_predictions(subset, testX)
	# calculate accuracy
	return accuracy_score(testy, yhat)

# 评估集成中的特定数量成员

def evaluate_n_members(members, n_members, testX, testy):

# 选择成员子集

subset = members[:n_members]

print(len(subset))

# 进行预测

yhat = ensemble_predictions(subset, testX)

# 计算准确率

return accuracy_score(testy, yhat)

最后，我们可以绘制集成成员数量（x 轴）与在该数量成员上平均的预测在测试数据集上的准确率（y 轴）的线图。

# plot score vs number of ensemble members
x_axis = [i for i in range(1, n_members+1)]
pyplot.plot(x_axis, scores)
pyplot.show()

# 绘制分数与集成成员数量的关系

x_axis = [i for i in range(1, n_members+1)]

pyplot.plot(x_axis, scores)

pyplot.show()

完整的示例如下所示。

# model averaging ensemble and a study of ensemble size on test accuracy
from sklearn.datasets import make_blobs
from keras.utils import to_categorical
from keras.models import Sequential
from keras.layers import Dense
import numpy
from numpy import array
from numpy import argmax
from sklearn.metrics import accuracy_score
from matplotlib import pyplot

# fit model on dataset
def fit_model(trainX, trainy):
	# define model
	model = Sequential()
	model.add(Dense(15, input_dim=2, activation='relu'))
	model.add(Dense(3, activation='softmax'))
	model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])
	# fit model
	model.fit(trainX, trainy, epochs=200, verbose=0)
	return model

# make an ensemble prediction for multi-class classification
def ensemble_predictions(members, testX):
	# make predictions
	yhats = [model.predict(testX) for model in members]
	yhats = array(yhats)
	# sum across ensemble members
	summed = numpy.sum(yhats, axis=0)
	# argmax across classes
	result = argmax(summed, axis=1)
	return result

# evaluate a specific number of members in an ensemble
def evaluate_n_members(members, n_members, testX, testy):
	# select a subset of members
	subset = members[:n_members]
	print(len(subset))
	# make prediction
	yhat = ensemble_predictions(subset, testX)
	# calculate accuracy
	return accuracy_score(testy, yhat)

# generate 2d classification dataset
X, y = make_blobs(n_samples=500, centers=3, n_features=2, cluster_std=2, random_state=2)
# split into train and test
n_train = int(0.3 * X.shape[0])
trainX, testX = X[:n_train, :], X[n_train:, :]
trainy, testy = y[:n_train], y[n_train:]
trainy = to_categorical(trainy)
# fit all models
n_members = 20
members = [fit_model(trainX, trainy) for _ in range(n_members)]
# evaluate different numbers of ensembles
scores = list()
for i in range(1, n_members+1):
	score = evaluate_n_members(members, i, testX, testy)
	print('> %.3f' % score)
	scores.append(score)
# plot score vs number of ensemble members
x_axis = [i for i in range(1, n_members+1)]
pyplot.plot(x_axis, scores)
pyplot.show()

# 模型平均集成和集成大小对测试准确率的研究

from sklearn.datasets import make_blobs

from keras.utils import to_categorical

from keras.models import Sequential

from keras.layers import Dense

import numpy

from numpy import array

from numpy import argmax

from sklearn.metrics import accuracy_score

from matplotlib import pyplot

# 在数据集上拟合模型

def fit_model(trainX, trainy):

# 定义模型

model = Sequential()

model.add(Dense(15, input_dim=2, activation='relu'))

model.add(Dense(3, activation='softmax'))

model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])

# 拟合模型

model.fit(trainX, trainy, epochs=200, verbose=0)

return model

# 为多类分类进行集成预测

def ensemble_predictions(members, testX):

# 进行预测

yhats = [model.predict(testX) for model in members]

yhats = array(yhats)

# 跨集成成员求和

summed = numpy.sum(yhats, axis=0)

# 跨类求 argmax

result = argmax(summed, axis=1)

return result

# 评估集成中的特定数量成员

def evaluate_n_members(members, n_members, testX, testy):

# 选择成员子集

subset = members[:n_members]

print(len(subset))

# 进行预测

yhat = ensemble_predictions(subset, testX)

# 计算准确率

return accuracy_score(testy, yhat)

# 生成二维分类数据集

X, y = make_blobs(n_samples=500, centers=3, n_features=2, cluster_std=2, random_state=2)

# 分割成训练集和测试集

n_train = int(0.3 * X.shape[0])

trainX, testX = X[:n_train, :], X[n_train:, :]

trainy, testy = y[:n_train], y[n_train:]

trainy = to_categorical(trainy)

# 拟合所有模型

n_members = 20

members = [fit_model(trainX, trainy) for _ in range(n_members)]

# 评估不同数量的集成

scores = list()

for i in range(1, n_members+1):

score = evaluate_n_members(members, i, testX, testy)

print('> %.3f' % score)

scores.append(score)

# 绘制分数与集成成员数量的关系

x_axis = [i for i in range(1, n_members+1)]

pyplot.plot(x_axis, scores)

pyplot.show()

运行示例首先在相同的训练数据集上拟合 20 个模型，这在现代硬件上可能需要不到一分钟的时间。

注意：由于算法或评估过程的随机性，或数值精度的差异，您的结果可能会有所不同。考虑多次运行示例并比较平均结果。

然后，测试不同大小的集成，从 1 个成员到所有 20 个成员，并为每个集成大小打印测试准确率结果。

> 0.740

> 0.754

> 0.760

> 0.763

> 0.760

> 0.763

> 0.766

> 0.763

> 0.760

> 0.763

> 0.766

> 0.763

最后，创建一条线图，显示集成大小与测试集性能之间的关系。

我们可以看到性能在约五个成员时有所提高，之后性能稳定在约 76% 的准确率。这接近在模型重复评估分析中观察到的平均测试集性能。

Line Plot of Ensemble Size Versus Model Test Accuracy

集成大小与模型测试准确率的线图

最后，我们可以更新重复评估实验，使用五个模型的集成而不是单个模型，并比较分数的分布。

下面列出了 blobs 数据集上五成员集成模型平均的重复评估的完整示例。

# repeated evaluation of model averaging ensemble on blobs dataset
from sklearn.datasets import make_blobs
from keras.utils import to_categorical
from keras.models import Sequential
from keras.layers import Dense
import numpy
from numpy import array
from numpy import argmax
from numpy import mean
from numpy import std
from sklearn.metrics import accuracy_score

# fit model on dataset
def fit_model(trainX, trainy):
	# define model
	model = Sequential()
	model.add(Dense(15, input_dim=2, activation='relu'))
	model.add(Dense(3, activation='softmax'))
	model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])
	# fit model
	model.fit(trainX, trainy, epochs=200, verbose=0)
	return model

# make an ensemble prediction for multi-class classification
def ensemble_predictions(members, testX):
	# make predictions
	yhats = [model.predict(testX) for model in members]
	yhats = array(yhats)
	# sum across ensemble members
	summed = numpy.sum(yhats, axis=0)
	# argmax across classes
	result = argmax(summed, axis=1)
	return result

# evaluate ensemble model
def evaluate_members(members, testX, testy):
	# make prediction
	yhat = ensemble_predictions(members, testX)
	# calculate accuracy
	return accuracy_score(testy, yhat)

# generate 2d classification dataset
X, y = make_blobs(n_samples=500, centers=3, n_features=2, cluster_std=2, random_state=2)
# split into train and test
n_train = int(0.3 * X.shape[0])
trainX, testX = X[:n_train, :], X[n_train:, :]
trainy, testy = y[:n_train], y[n_train:]
trainy = to_categorical(trainy)
# repeated evaluation
n_repeats = 30
n_members = 5
scores = list()
for _ in range(n_repeats):
	# fit all models
	members = [fit_model(trainX, trainy) for _ in range(n_members)]
	# evaluate ensemble
	score = evaluate_members(members, testX, testy)
	print('> %.3f' % score)
	scores.append(score)
# summarize the distribution of scores
print('Scores Mean: %.3f, Standard Deviation: %.3f' % (mean(scores), std(scores)))

# 对 blobs 数据集进行模型平均集成的重复评估

from sklearn.datasets import make_blobs

from keras.utils import to_categorical

from keras.models import Sequential

from keras.layers import Dense

import numpy

from numpy import array

from numpy import argmax

from numpy import mean

from numpy import std

from sklearn.metrics import accuracy_score

# 在数据集上拟合模型

def fit_model(trainX, trainy):

# 定义模型

model = Sequential()

model.add(Dense(15, input_dim=2, activation='relu'))

model.add(Dense(3, activation='softmax'))

model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])

# 拟合模型

model.fit(trainX, trainy, epochs=200, verbose=0)

return model

# 为多类分类进行集成预测

def ensemble_predictions(members, testX):

# 进行预测

yhats = [model.predict(testX) for model in members]

yhats = array(yhats)

# 跨集成成员求和

summed = numpy.sum(yhats, axis=0)

# 跨类求 argmax

result = argmax(summed, axis=1)

return result

# 评估集成模型

def evaluate_members(members, testX, testy):

# 进行预测

yhat = ensemble_predictions(members, testX)

# 计算准确率

return accuracy_score(testy, yhat)

# 生成二维分类数据集

X, y = make_blobs(n_samples=500, centers=3, n_features=2, cluster_std=2, random_state=2)

# 分割成训练集和测试集

n_train = int(0.3 * X.shape[0])

trainX, testX = X[:n_train, :], X[n_train:, :]

trainy, testy = y[:n_train], y[n_train:]

trainy = to_categorical(trainy)

# 重复评估

n_repeats = 30

n_members = 5

scores = list()

for _ in range(n_repeats):

# 拟合所有模型

members = [fit_model(trainX, trainy) for _ in range(n_members)]

# 评估集成

score = evaluate_members(members, testX, testy)

print('> %.3f' % score)

scores.append(score)

# 总结分数分布

print('Scores Mean: %.3f, Standard Deviation: %.3f' % (mean(scores), std(scores)))

运行此示例可能需要几分钟，因为要拟合和评估五个模型，并且此过程重复 30 次。

每个模型在测试集上的性能都会打印出来，以指示进度。

注意：由于算法或评估过程的随机性，或数值精度的差异，您的结果可能会有所不同。考虑多次运行示例并比较平均结果。

模型性能的均值和标准差在运行结束时打印。

> 0.769
> 0.757
> 0.754
> 0.780
> 0.771
> 0.774
> 0.766
> 0.769
> 0.774
> 0.771
> 0.760
> 0.766
> 0.766
> 0.769
> 0.766
> 0.771
> 0.763
> 0.760
> 0.771
> 0.780
> 0.769
> 0.757
> 0.769
> 0.771
> 0.771
> 0.766
> 0.763
> 0.766
> 0.771
> 0.769
Scores Mean: 0.768, Standard Deviation: 0.006

> 0.769

> 0.757

> 0.754

> 0.780

> 0.771

> 0.774

> 0.766

> 0.769

> 0.774

> 0.771

> 0.760

> 0.766

> 0.769

> 0.766

> 0.771

> 0.763

> 0.760

> 0.771

> 0.780

> 0.769

> 0.757

> 0.769

> 0.771

> 0.766

> 0.763

> 0.766

> 0.771

> 0.769

分数均值：0.768，标准差：0.006

在这种情况下，我们可以看到该数据集上五成员集成的平均性能为 76%。这与单个模型的平均 77% 非常接近。

重要的区别是标准差从单个模型的 1.4% 缩小到五模型集成的 0.6%。我们可能会预计，在这个问题上，一个给定的五模型集成在 99% 的可能性下，其性能将介于 74% 到 78% 之间。

对在相同数据集上训练的相同模型进行平均，可以提高可靠性，这是最终模型在实际操作中通常非常需要的属性。

集成中的更多模型将进一步减小测试数据集上集成准确率的标准差，根据大数定律，至少到收益递减点为止。

这表明，对于这个特定的模型和预测问题，一个包含五个成员的模型平均集成足以减少模型的方差。方差的这种减少反过来也意味着在准备最终模型时平均性能更好。

扩展

本节列出了一些您可能希望探索的扩展本教程的想法。

平均类别预测。更新示例，平均类别整数预测而不是类别概率预测并比较结果。
保存和加载模型。更新示例，将集成成员保存到文件，然后从单独的脚本加载它们进行评估。
方差敏感性。创建一个新示例，对集成成员的数量对模型在给定重复次数下的测试集性能标准差进行敏感性分析，并报告收益递减点。

如果您探索了这些扩展中的任何一个，我很想知道。

进一步阅读

如果您想深入了解，本节提供了更多关于该主题的资源。

总结

在本教程中，您学习了如何在 Keras 中开发模型平均集成，以减少最终模型的方差。

具体来说，你学到了：

模型平均是一种集成学习技术，可用于减少深度学习神经网络模型的预期方差。
如何在 Keras 中实现分类和回归预测建模问题的模型平均。
如何解决多类分类问题，并使用模型平均来减少最终模型的方差。

你有什么问题吗？
在下面的评论中提出你的问题，我会尽力回答。

关于此主题的更多信息

深度学习神经网络的集成学习方法

如何在 Keras 中创建深度学习模型的 Bagging 集成