如何使用 Python 开发 Bagging 集成算法

Bagging 是一种集成机器学习算法,它结合了多个决策树的预测结果。

它也很容易实现,因为它只有少数几个关键的超参数,并且为这些超参数的配置提供了合理的启发式方法。

Bagging 通常表现良好,并为整个决策树集成算法领域提供了基础,例如流行的随机森林和极端随机树集成算法,以及鲜为人知的粘贴集成(Pasting)、随机子空间(Random Subspaces)和随机补丁(Random Patches)集成算法。

在本教程中,您将学习如何开发用于分类和回归的 Bagging 集成算法。

完成本教程后,您将了解:

  • Bagging 集成算法是一种由在数据集不同样本上训练的决策树创建的集成算法。
  • 如何使用 scikit-learn 进行分类和回归的 Bagging 集成。
  • 如何探索 Bagging 模型超参数对模型性能的影响。

通过我的新书《使用 Python 的集成学习算法启动您的项目,其中包括逐步教程和所有示例的 Python 源代码文件。

让我们开始吧。

  • 2020 年 8 月更新:增加了常见问题部分。
How to Develop a Bagging Ensemble in Python

如何在 Python 中开发 Bagging 集成算法
图片来源:daveynin,保留部分权利。

教程概述

本教程分为五个部分;它们是:

  1. Bagging 集成算法
  2. Bagging Scikit-Learn API
    1. Bagging 用于分类
    2. Bagging 用于回归
  3. Bagging 超参数
    1. 探索树的数量
    2. 探索样本数量
    3. 探索替代算法
  4. Bagging 扩展
    1. 粘贴集成(Pasting Ensemble)
    2. 随机子空间集成(Random Subspaces Ensemble)
    3. 随机补丁集成(Random Patches Ensemble)
  5. 常见问题

Bagging 集成算法

Bootstrap Aggregation,简称 Bagging,是一种集成机器学习算法。

具体来说,它是一个决策树模型的集成,尽管 Bagging 技术也可以用于结合其他类型模型的预测。

顾名思义,bootstrap aggregation 基于“bootstrap”样本的概念。

自助采样”是指从数据集中有放回地抽取样本。有放回地抽取意味着从数据集中抽取的样本会被放回,允许它在新的样本中再次被选中,甚至多次被选中。这意味着样本可能包含原始数据集中的重复示例。

自助采样技术用于从少量数据样本中估计总体统计量。这是通过抽取多个自助样本,在每个样本上计算统计量,并报告所有样本的平均统计量来实现的。

使用自助采样的一个例子是从小数据集中估计总体均值。从数据集中抽取多个自助样本,在每个样本上计算均值,然后将估计均值的均值报告为总体的估计值。

令人惊讶的是,与对原始数据集进行单一估计相比,自助法提供了一种稳健且准确的方法来估计统计量。

同样的方法也可以用于创建决策树模型集成。

这是通过从训练数据集中抽取多个自助样本,并在每个样本上拟合一个决策树来实现的。然后将决策树的预测结果结合起来,以提供比单一决策树更稳健和准确的预测(通常如此,但并非总是如此)。

Bagging 预测器是一种生成预测器多个版本并利用这些版本获得聚合预测器的方法。[…] 多个版本是通过对学习集进行自助抽样复制并将其用作新的学习集来形成的。

Bagging 预测器, 1996。

对于回归问题,通过对所有决策树的预测进行平均来得出预测结果。对于分类问题,通过对所有决策树的预测结果进行多数投票来得出类别预测。

Bagging 决策树之所以有效,是因为每个决策树都在略微不同的训练数据集上进行拟合,这反过来又使得每个树都有细微的差异并做出略微不同的有技巧的预测。

从技术上讲,我们说这种方法是有效的,因为树之间的预测相关性较低,进而预测误差也较低。

决策树,特别是未剪枝的决策树,被用来稍微过度拟合训练数据并具有高方差。其他高方差机器学习算法也可以使用,例如低 k 值的 k-近邻算法,尽管决策树已被证明是最有效的。

如果扰动学习集会导致构建的预测器发生显著变化,那么 Bagging 可以提高准确性。

Bagging 预测器, 1996。

Bagging 并非总是能带来改进。对于已经表现良好的低方差模型,Bagging 可能会导致模型性能下降。

实验和理论证据都表明,Bagging 可以使一个良好但不稳定的过程向最优性迈进一大步。另一方面,它可能会略微降低稳定过程的性能。

Bagging 预测器, 1996。

想开始学习集成学习吗?

立即参加我为期7天的免费电子邮件速成课程(附示例代码)。

点击注册,同时获得该课程的免费PDF电子书版本。

Bagging Scikit-Learn API

Bagging 集成算法可以从头开始实现,尽管这对于初学者来说可能具有挑战性。

例如,请参阅教程

scikit-learn Python 机器学习库提供了机器学习 Bagging 集成算法的实现。

它在库的现代版本中可用。

首先,通过运行以下脚本确认您正在使用该库的现代版本

运行脚本将打印您的 scikit-learn 版本。

您的版本应该相同或更高。如果不是,您必须升级您的 scikit-learn 库版本。

Bagging 通过 BaggingRegressorBaggingClassifier 类提供。

这两个模型的操作方式相同,并接受影响决策树创建方式的相同参数。

模型构建中使用了随机性。这意味着每次在相同数据上运行算法时,它都会生成一个略有不同的模型。

当使用具有随机学习算法的机器学习算法时,通过对多次运行或重复交叉验证的性能取平均值来评估它们是一种很好的做法。在拟合最终模型时,可能需要增加树的数量,直到模型的方差在重复评估中减小,或者拟合多个最终模型并对其预测进行平均。

让我们看看如何为分类和回归开发 Bagging 集成算法。

Bagging 用于分类

在本节中,我们将探讨在分类问题中使用 Bagging。

首先,我们可以使用 make_classification() 函数 创建一个包含 1,000 个示例和 20 个输入特征的合成二元分类问题。

完整的示例如下所示。

运行示例会创建数据集并总结输入和输出组件的形状。

接下来,我们可以在此数据集上评估 Bagging 算法。

我们将使用重复分层 k 折交叉验证来评估模型,其中包含三次重复和 10 折。我们将报告模型在所有重复和折叠中的准确率的均值和标准差。

运行示例报告了模型的平均准确度和标准差。

注意:由于算法或评估过程的随机性,或数值精度的差异,您的结果可能会有所不同。请考虑运行示例几次并比较平均结果。

在这种情况下,我们可以看到具有默认超参数的 Bagging 集成在此测试数据集上实现了约 85% 的分类准确率。

我们还可以将 Bagging 模型用作最终模型,并进行分类预测。

首先,Bagging 集成在所有可用数据上进行拟合,然后可以调用 predict() 函数对新数据进行预测。

以下示例在我们的二元分类数据集上演示了这一点。

运行示例会拟合 Bagging 集成模型到整个数据集,然后用于对新数据行进行预测,就像我们在应用程序中使用模型时一样。

现在我们熟悉了 Bagging 用于分类,接下来我们看看用于回归的 API。

Bagging 用于回归

在本节中,我们将探讨在回归问题中使用 Bagging。

首先,我们可以使用 make_regression() 函数 创建一个包含 1,000 个示例和 20 个输入特征的合成回归问题。

完整的示例如下所示。

运行示例会创建数据集并总结输入和输出组件的形状。

接下来,我们可以在此数据集上评估 Bagging 算法。

与上一节一样,我们将使用重复的 k 折交叉验证来评估模型,其中包含三次重复和 10 折。我们将报告模型在所有重复和折叠中的平均绝对误差 (MAE)。scikit-learn 库将 MAE 设为负值,以便将其最大化而不是最小化。这意味着负值越大越好,完美模型的 MAE 为 0。

完整的示例如下所示。

运行示例报告了模型的平均准确度和标准差。

注意:由于算法或评估过程的随机性,或数值精度的差异,您的结果可能会有所不同。请考虑运行示例几次并比较平均结果。

在这种情况下,我们可以看到具有默认超参数的 Bagging 集成实现了约 100 的 MAE。

我们还可以将 Bagging 模型用作最终模型并进行回归预测。

首先,Bagging 集成在所有可用数据上进行拟合,然后可以调用 predict() 函数对新数据进行预测。

以下示例在我们的回归数据集上演示了这一点。

运行示例会拟合 Bagging 集成模型到整个数据集,然后用于对新数据行进行预测,就像我们在应用程序中使用模型时一样。

既然我们已经熟悉了如何使用 scikit-learn API 来评估和使用 Bagging 集成算法,接下来让我们看看如何配置模型。

Bagging 超参数

在本节中,我们将更深入地探讨 Bagging 集成算法的一些超参数,您应该考虑对它们进行调优,以及它们对模型性能的影响。

探索树的数量

Bagging 算法的一个重要超参数是集成中使用的决策树数量。

通常,会增加树的数量,直到模型性能稳定。直觉可能认为更多的树会导致过拟合,但情况并非如此。Bagging 和相关的决策树集成算法(如随机森林)由于学习算法的随机性,似乎对训练数据集的过拟合具有一定的免疫力。

树的数量可以通过“n_estimators”参数设置,默认为 100。

下面的示例探讨了树的数量在 10 到 5,000 之间对性能的影响。

运行示例首先报告每个配置的决策树数量的平均准确率。

注意:由于算法或评估过程的随机性,或数值精度的差异,您的结果可能会有所不同。请考虑运行示例几次并比较平均结果。

在这种情况下,我们可以看到该数据集上的性能提高到大约 100 棵树之后趋于稳定。

为每个配置的树数量创建了准确率分数的箱线图。

我们看到在超过大约 100 棵树之后,性能没有进一步改善的普遍趋势。

Box Plot of Bagging Ensemble Size vs. Classification Accuracy

Bagging 集成规模与分类准确率的箱线图

探索样本数量

自助样本的大小也可以改变。

默认是创建一个与原始数据集大小相同的自助样本。使用较小的数据集可以增加生成的决策树的方差,并可能导致更好的整体性能。

用于拟合每个决策树的样本数量通过“max_samples”参数设置。

下面的示例探讨了不同大小的样本作为原始数据集的比例,从 10% 到 100%(默认)。

运行示例首先报告每个样本集大小的平均准确率。

注意:由于算法或评估过程的随机性,或数值精度的差异,您的结果可能会有所不同。请考虑运行示例几次并比较平均结果。

在这种情况下,结果表明性能通常随样本大小的增加而提高,这突出表明默认值 100% 的训练数据集大小是合理的。

探索更小的样本量并相应增加树的数量,以减少单个模型的方差,也可能很有趣。

为每个样本大小创建了准确率分数的箱线图。

我们看到准确率随样本大小增加的普遍趋势。

Box Plot of Bagging Sample Size vs. Classification Accuracy

Bagging 样本大小与分类准确率的箱线图

探索替代算法

决策树是 Bagging 集成中最常用的算法。

其原因在于,它们很容易配置成高方差,并且通常表现良好。

其他算法也可以与 Bagging 一起使用,并且必须配置为具有适度高方差。一个例子是 k-近邻算法,其中 k 值可以设置为较低的值。

集成中使用的算法通过“base_estimator”参数指定,并且必须设置为要使用的算法实例和算法配置。

下面的示例演示了使用 KNeighborsClassifier 作为 Bagging 集成中使用的基础算法。这里,该算法使用默认超参数,其中 k 设置为 5。

运行示例报告了模型的平均准确度和标准差。

注意:由于算法或评估过程的随机性,或数值精度的差异,您的结果可能会有所不同。请考虑运行示例几次并比较平均结果。

在这种情况下,我们可以看到具有 KNN 和默认超参数的 Bagging 集成在此测试数据集上实现了约 88% 的分类准确率。

我们可以测试不同的 k 值,以找到模型方差的正确平衡,从而实现 Bagging 集成的良好性能。

下面的示例测试了 k 值介于 1 到 20 之间的 Bagging KNN 模型。

运行示例首先报告每个 k 值的平均准确率。

注意:由于算法或评估过程的随机性,或数值精度的差异,您的结果可能会有所不同。请考虑运行示例几次并比较平均结果。

在这种情况下,结果表明,当在 Bagging 集成中使用时,小的 k 值(例如 2 到 4)会带来最佳的平均准确率。

为每个 k 值的准确率分布创建了箱线图。

我们看到准确率一开始随样本大小增加的普遍趋势,然后随着集成中使用的单个 KNN 模型的方差随 k 值增大而增加,性能适度下降。

Box Plot of Bagging KNN Number of Neighbors vs. Classification Accuracy

Bagging KNN 邻居数量与分类准确率的箱线图

Bagging 扩展

Bagging 算法有许多修改和扩展,旨在提高该方法的性能。

其中最著名的可能是随机森林算法

还有一些不那么著名但仍然有效的 Bagging 扩展,可能值得研究。

本节演示了其中一些方法,例如粘贴集成(pasting ensemble)、随机子空间集成(random subspace ensemble)和随机补丁集成(random patches ensemble)。

我们不会在数据集上对这些扩展进行竞赛,而是提供如何使用每种技术的实际示例,您可以复制粘贴并在自己的数据集上尝试。

粘贴集成(Pasting Ensemble)

粘贴集成是 Bagging 的一个扩展,它涉及基于训练数据集的随机样本而不是自助样本来拟合集成成员。

该方法旨在在训练数据集不适合内存的情况下,使用比训练数据集更小的样本量。

该过程将数据分成小块,在每个小块上训练一个预测器,然后将这些预测器组合起来。其中一个版本可以扩展到 TB 级数据集。这些方法也适用于在线学习。

Pasting Small Votes for Classification in Large Databases and On-Line, 1999。

下面的示例演示了粘贴集成,通过将“bootstrap”参数设置为“False”,并将通过“max_samples”在训练数据集中使用的样本数量设置为一个适度值,在本例中为训练数据集大小的 50%。

运行示例报告了模型的平均准确度和标准差。

注意:由于算法或评估过程的随机性,或数值精度的差异,您的结果可能会有所不同。请考虑运行示例几次并比较平均结果。

在这种情况下,我们可以看到粘贴集成在此数据集上实现了约 84% 的分类准确率。

随机子空间集成(Random Subspaces Ensemble)

随机子空间集成是 Bagging 的一个扩展,它涉及基于从训练数据集特征的随机子集中构建的数据集来拟合集成成员。

它类似于随机森林,只是数据样本是随机的而不是自助样本,并且特征子集是为整个决策树选择的,而不是在树的每个分裂点选择。

该分类器由多个树组成,这些树通过伪随机选择特征向量组件的子集系统地构建,也就是说,树在随机选择的子空间中构建。

随机子空间方法用于构建决策森林, 1998。

下面的示例演示了随机子空间集成,通过将“bootstrap”参数设置为“False”,并将通过“max_features”在训练数据集中使用的特征数量设置为一个适度值,在本例中为 10。

运行示例报告了模型的平均准确度和标准差。

注意:由于算法或评估过程的随机性,或数值精度的差异,您的结果可能会有所不同。请考虑运行示例几次并比较平均结果。

在这种情况下,我们可以看到随机子空间集成在此数据集上实现了约 86% 的分类准确率。

我们预计随机子空间中的特征数量将提供模型方差和模型技能的适当平衡。

下面的示例演示了在随机子空间集成中使用不同数量特征(从 1 到 20)的效果。

运行示例首先报告每个特征数量的平均准确率。

在这种情况下,结果表明,在该数据集上,随机子空间集成使用大约一半的特征数量(例如 9 到 13 个)可能会获得最佳结果。

为每个随机子空间大小的准确率分数分布创建了箱线图。

我们看到准确率随着特征数量的增加而普遍增加,直到大约 10 到 13 个特征时趋于平稳,然后性能在此之后呈现适度下降的趋势。

Box Plot of Random Subspace Ensemble Number of Features vs. Classification Accuracy

随机子空间集成特征数量与分类准确率的箱线图

随机补丁集成(Random Patches Ensemble)

随机补丁集成是 Bagging 的一个扩展,它涉及基于从训练数据集的行(样本)和列(特征)的随机子集中构建的数据集来拟合集成成员。

它不使用自助样本,可以被认为是一个结合了粘贴集成的随机样本和随机子空间集成的随机特征样本的集成。

我们研究了一个非常简单但有效的集成框架,该框架通过从整个数据集的实例和特征中抽取随机子集,从数据的随机补丁构建集成的每个单独模型。

随机补丁上的集成, 2012。

下面的示例演示了随机补丁集成,其中决策树由训练数据集的随机样本创建,限制为训练数据集大小的 50%,并具有 10 个随机特征子集。

运行示例报告了模型的平均准确度和标准差。

注意:由于算法或评估过程的随机性,或数值精度的差异,您的结果可能会有所不同。请考虑运行示例几次并比较平均结果。

在这种情况下,我们可以看到随机补丁集成在此数据集上实现了约 84% 的分类准确率。

常见问题

在本节中,我们将更深入地探讨 Bagging 集成过程中您可能遇到的一些常见难点。

问:集成中应该使用什么算法?

该算法应具有适度方差,这意味着它适度依赖于特定的训练数据。

决策树是默认使用的模型,因为它在实践中效果很好。只要其他算法配置为具有适度方差,也可以使用。

所选择的算法应该适度稳定,不像决策桩那样不稳定,也不像剪枝决策树那样非常稳定,通常使用未剪枝的决策树。

…众所周知,Bagging 应该与不稳定的学习器一起使用,通常,学习器越不稳定,性能提升越大。

— 第 52 页,《集成方法》,2012。

问:应该使用多少个集成成员?

模型的性能将随着决策树数量的增加而收敛到某个点,然后保持不变。

… Bagging 的性能随着集成规模(即基础学习器数量)的增大而收敛…

— 第 52 页,《集成方法》,2012。

因此,请持续增加树的数量,直到模型性能在您的数据集上稳定下来。

问:集成树太多会不会过拟合?

不会。Bagging 集成(通常)不太可能过拟合。

问:自助样本应该有多大?

通常情况下,将自助样本大小设置为与原始数据集大小相同是很好的做法。

即 100% 的大小或与原始数据集行数相等。

问:哪些问题适合 Bagging?

通常,Bagging 适用于小型或中等大小数据集的问题。但这只是一个粗略的指导。

Bagging 最适合于训练数据集相对较小的问题。

— 第 12 页,《集成机器学习》,2012。

试试看吧。

进一步阅读

如果您想深入了解,本节提供了更多关于该主题的资源。

教程

论文

API

文章

总结

在本教程中,您学习了如何开发用于分类和回归的 Bagging 集成算法。

具体来说,你学到了:

  • Bagging 集成算法是一种由在数据集不同样本上训练的决策树创建的集成算法。
  • 如何使用 scikit-learn 进行分类和回归的 Bagging 集成。
  • 如何探索 Bagging 模型超参数对模型性能的影响。

你有什么问题吗?
在下面的评论中提出你的问题,我会尽力回答。

掌握现代集成学习!

Ensemble Learning Algorithms With Python

在几分钟内改进您的预测

...只需几行python代码

在我的新电子书中探索如何实现
使用 Python 实现集成学习算法

它提供**自学教程**,并附有关于以下内容的**完整工作代码**:
堆叠、投票、提升、装袋、混合、超级学习器等等……

将现代集成学习技术带入
您的机器学习项目


查看内容

对《如何使用 Python 开发 Bagging 集成算法》的 16 条回复

  1. Christina 2020 年 5 月 28 日 晚上 7:37 #

    谢谢您的教程!!它们都很有价值:))
    请问,我们不应该只在训练集上使用 fit 方法吗?为什么您在所有数据集(X,y)上使用它呢?

    • Jason Brownlee 2020 年 5 月 29 日 早上 6:29 #

      不客气。

      是的,模型只在训练数据集上进行拟合。

      • Gustavo 2020 年 6 月 20 日 早上 4:43 #

        为了澄清我的理解,您在“机器学习评估阶段”处理可用数据中的训练/测试集。但是,当考虑部署最佳算法(在前一“阶段”中找到)时,您会创建一个用所有可用数据训练的模型,并在事后评估新的/未见过的示例,对吗?

        • Jason Brownlee 2020 年 6 月 20 日 早上 6:18 #

          不太对。

          我们使用类似交叉验证的方法来估计每个模型/管道的性能,然后选择一个。现在我们知道它在新数据上的平均表现如何。

          然后我们用所有数据拟合这个模型并开始使用它。无需再次评估。

  2. Asha 2020 年 10 月 25 日 晚上 8:28 #

    Breiman 在他的文章中提到了两种粘贴:Rvote 和 Ivote。
    我假设您使用 bootstrap=False 和 'max_samples=0.5' 实现了 Ivote Pasting
    但我如何实现 Rvote Pasting 呢?

    • Jason Brownlee 2020 年 10 月 26 日 早上 6:48 #

      也许您可以根据自己的需要修改上面的示例。

  3. Ron 2021 年 2 月 21 日 晚上 11:47 #

    嗨,Jason,

    还可以使用 scores.mean() 和 scores.std() 来计算分数的平均值和标准差,而无需调用 numpy 的 mean 和 std 函数。

    罗恩

    • Jason Brownlee 2021 年 2 月 22 日 早上 5:01 #

      是的,我通常会忘记这一点。感谢您的提醒!

  4. Mehdi 2021 年 4 月 26 日 下午 2:11 #

    谢谢您的教程。
    我尝试对回归问题的样本数量进行超参数调优,但我遇到了这个错误:“支持的目标类型为:('binary', 'multiclass')。反而得到了 'continuous'。”

    我不知道为什么,我正在使用 randomforestregressor 函数,当代码想要评估模型并从定义的字典中获取模型时,就会出现这个错误。
    如果您能给我一些建议,我将不胜感激。

    • Jason Brownlee 2021 年 4 月 27 日 早上 5:13 #

      也许上述模型不支持回归。我预计就是这种情况。

  5. Sheryl 2021 年 8 月 29 日 下午 2:29 #

    嗨,为什么 n_informative=15 和 n_redundant=5 呢? 🙂

    • Adrian Tam
      Adrian Tam 2021 年 9 月 1 日 早上 7:04 #

      这些参数只是一个示例。您可能需要根据您的具体问题进行更改。

  6. lika 2021 年 8 月 29 日 晚上 9:07 #

    我们可以将随机森林作为 Bagging 分类器的参数吗?

    • Adrian Tam
      Adrian Tam 2021 年 9 月 1 日 早上 7:19 #

      是的,将“base_estimator=RandomForestClassifier()”添加到 BaggingClassier() 调用中即可实现。但这会非常慢,因为您现在需要拟合很多决策树。

  7. Jane Delaney 2021 年 11 月 15 日 晚上 11:34 #

    您不需要对数据进行缩放来使用 KNN 吗?

    • Adrian Tam
      Adrian Tam 2021 年 11 月 16 日 凌晨 2:31 #

      是的,那样会更好,特别是当每个特征的量级不同时。

发表评论

Machine Learning Mastery 是 Guiding Tech Media 的一部分,Guiding Tech Media 是一家领先的数字媒体出版商,专注于帮助人们了解技术。访问我们的公司网站以了解更多关于我们的使命和团队的信息。