使用成人收入数据集进行不平衡分类

许多二元分类任务的每种类别的样本数量并不相等,例如类别分布是倾斜或不平衡的。

一个流行的例子是成人收入数据集,该数据集涉及根据个人详细信息(如关系和教育程度)来预测个人收入水平是高于还是低于50,000美元/年。收入低于50,000美元的案例比收入高于50,000美元的案例要多得多,尽管倾斜程度并不严重。

这意味着不平衡分类技术可以被使用,同时模型性能仍然可以使用分类准确率来报告,正如在平衡分类问题中所使用的那样。

在本教程中,您将了解如何开发和评估用于不平衡成人收入分类数据集的模型。

完成本教程后,您将了解:

  • 如何加载和探索数据集,并为数据准备和模型选择提供思路。
  • 如何使用稳健的测试框架系统地评估一套机器学习模型。
  • 如何拟合最终模型并使用它来预测特定案例的类别标签。

通过我的新书 Python 中的不平衡分类 开启您的项目,其中包括分步教程和所有示例的Python源代码文件。

让我们开始吧。

Develop an Imbalanced Classification Model to Predict Income

开发用于预测收入的不平衡分类模型
照片由 Kirt Edblom 拍摄,部分权利保留。

教程概述

本教程分为五个部分;它们是:

  1. 成人收入数据集
  2. 探索数据集
  3. 模型测试和基线结果
  4. 评估模型
  5. 对新数据进行预测

成人收入数据集

在这个项目中,我们将使用一个标准的机器学习数据集,称为“成人收入”或简称为“adult”数据集。

该数据集归功于 Ronny Kohavi 和 Barry Becker,摘自 1994 年 美国人口普查局的数据,涉及使用教育程度等个人详细信息来预测个人年收入是高于还是低于 50,000 美元。

成人数据集来自人口普查局,任务是根据教育、每周工作时间等属性来预测给定成年人年收入是否超过 50,000 美元。

Scaling Up The Accuracy Of Naive-bayes Classifiers: A Decision-tree Hybrid, 1996。

该数据集提供了 14 个输入变量,它们是分类、有序和数值数据类型的混合。变量的完整列表如下

  • 年龄。
  • 工作类别。
  • 最终权重。
  • 教育。
  • 教育年限。
  • 婚姻状况。
  • 职业。
  • 关系。
  • 种族。
  • 性别。
  • 资本收益。
  • 资本损失。
  • 每周工作时间。
  • 国籍。

数据集中包含用问号字符(?)标记的缺失值。

数据共有 48,842 行,其中 3,620 行包含缺失值,留下 45,222 行完整。

有两个类值“>50K”和“<=50K”,这意味着这是一个二元分类任务。类别是不平衡的,偏向于“<=50K”类别标签。

  • “>50K”:多数类,约占 25%。
  • “<=50K”:少数类,约占 75%。

鉴于类别不平衡并不严重,并且两个类别标签同样重要,因此通常使用分类准确率或分类错误来报告此数据集上的模型性能。

使用预定义的训练集和测试集,报告的良好分类错误约为 14%,即分类准确率约为 86%。在处理此数据集时,这可以作为目标。

接下来,我们仔细看看数据。

想要开始学习不平衡分类吗?

立即参加我为期7天的免费电子邮件速成课程(附示例代码)。

点击注册,同时获得该课程的免费PDF电子书版本。

探索数据集

成人数据集是一个广泛使用的标准机器学习数据集,用于探索和演示许多机器学习算法,包括一般算法和专门为不平衡分类设计的算法。

首先,下载数据集并将其保存在当前工作目录中,文件名为“adult-all.csv”。

查看文件内容。

文件的前几行应如下所示

我们可以看到输入变量是数值和分类或有序数据类型的混合,其中非数值列用字符串表示。至少,分类变量需要进行顺序编码或独热编码。

我们还可以看到目标变量是用字符串表示的。此列需要进行标签编码,将多数类编码为 0,将少数类编码为 1,这对于二元不平衡分类任务是惯例。

缺失值用“?”字符标记。这些值需要被插补,或者考虑到样本数量较少,这些行可以从数据集中删除。

可以使用 read_csv() Pandas 函数将数据集加载为 DataFrame,指定文件名、没有标题行,并且像‘ ?‘ 这样的字符串应被解析为 NaN(缺失)值。

加载后,我们可以删除包含一个或多个缺失值的行。

我们可以通过打印 DataFrame 的形状来总结行数和列数。

我们还可以使用 Counter 对象来总结每个类别的示例数量。

总而言之,下面列出了加载和汇总数据集的完整示例。

运行该示例首先加载数据集并确认行数和列数,即 45,222 行无缺失值,14 个输入变量和一个目标变量。

然后总结类别分布,确认中等程度的类别不平衡,多数类(<=50K)约为 75%,少数类(>50K)约为 25%。

我们还可以通过为每个数值输入变量创建直方图来查看其分布。

首先,我们可以通过在 DataFrame 上调用 select_dtypes() 函数来选择具有数值数据类型的列。然后,我们可以仅从 DataFrame 中选择这些列。

然后,我们可以为每个数值输入变量创建直方图。完整的示例列在下方。

运行该示例会创建图形,其中包含数据集中每个数值输入变量的一个直方图子图。每个子图的标题表示 DataFrame 中的列号(例如,零偏移)。

我们可以看到许多不同的分布,有些呈高斯状分布,有些呈指数状或离散状分布。我们还可以看到它们似乎都具有非常不同的尺度。

根据建模算法的选择,我们预计将分布缩放到相同的范围将是有用的,并且可能需要使用一些幂变换。

Histogram of Numeric Variables in the Adult Imbalanced Classification Dataset

成人不平衡分类数据集中的数值变量直方图

现在我们已经审阅了数据集,接下来我们将开发一个测试工具来评估候选模型。

模型测试和基线结果

我们将使用重复分层 k 折交叉验证来评估候选模型。

k 折交叉验证过程提供了模型性能的良好通用估计,该估计不太可能过于乐观地倾向,至少与单一的训练-测试拆分相比是如此。我们将使用 k=10,这意味着每个折叠将包含约 45,222/10,即约 4,522 个示例。

分层意味着每个折叠将包含相同的类别示例混合,即多数类和少数类分别约占 75% 和 25%。重复意味着将多次执行评估过程,以帮助避免偶然结果并更好地捕捉所选模型的方差。我们将使用三次重复。

这意味着一个模型将被拟合和评估10 * 3或30次,并将报告这些运行的均值和标准差。

这可以使用 scikit-learn 的 RepeatedStratifiedKFold 类来实现。

我们将为每个示例预测一个类别标签,并使用分类准确率来衡量模型性能。

下面的 `evaluate_model()` 函数将接受加载的数据集和定义的模型,并使用重复分层 k 折交叉验证对其进行评估,然后返回准确率分数列表,稍后可以对其进行汇总。

我们可以定义一个函数来加载数据集并对目标列进行标签编码。

我们还将返回一个类别列和数值列的列表,以防我们稍后在拟合模型时决定转换它们。

最后,我们可以使用这个测试工具评估数据集上的基线模型。

在使用分类准确率时,一个朴素的模型将为所有案例预测多数类。这提供了一个模型性能基线,所有其他模型都可以与之比较。

这可以通过 scikit-learn 库中的 DummyClassifier 类来实现,并将“strategy”参数设置为“most_frequent”。

模型评估完成后,我们可以直接报告准确率分数的平均值和标准差。

综合来看,加载成人数据集、评估基线模型并报告性能的完整示例将在下面列出。

运行示例首先加载并总结数据集。

我们可以看到已加载正确的行数。重要的是,我们可以看到类别标签已正确映射到整数,其中 0 代表多数类,1 代表少数类,这是不平衡二元分类数据集的惯例。

接下来,报告平均分类准确率分数。

在这种情况下,我们可以看到基线算法的准确率为 75.2% 左右。该分数提供了模型技能的下限;任何平均准确率高于 75.2% 的模型都具有技能,而分数低于此值的模型在此数据集上不具备技能。

现在我们有了测试工具和性能基线,我们可以开始评估该数据集上的一些模型。

评估模型

在本节中,我们将使用上一节中开发的测试工具,评估数据集上的一系列不同技术。

目标是演示如何系统地解决问题,并展示一些针对不平衡分类问题设计的技术的能力。

报告的性能良好,但尚未高度优化(例如,超参数未进行调整)。

你能做得更好吗? 如果您可以使用相同的测试框架获得更好的分类准确率性能,我很乐意听到。请在下面的评论中告诉我。

评估机器学习算法

让我们开始在数据集上评估一系列机器学习模型。

在数据集上尝试一系列不同的非线性算法是一个好主意,这样可以快速找出哪些有效并值得进一步关注,哪些无效。

我们将评估成人数据集上的以下机器学习模型

  • 决策树 (CART)
  • 支持向量机 (SVM)
  • 装袋决策树(BAG)
  • 随机森林 (RF)
  • 梯度提升机 (GBM)

我们将使用大部分默认模型超参数,除了集成算法中的树的数量,我们将将其设置为合理的默认值 100。

我们将依次定义每个模型并将它们添加到一个列表中,以便我们可以按顺序评估它们。下面的 get_models() 函数定义了要评估的模型列表,以及用于稍后绘制结果的模型简称列表。

然后我们可以依次枚举模型列表并评估每个模型,存储分数以供后续评估。

我们将使用 OneHotEncoder 对分类输入变量进行独热编码,并使用 MinMaxScaler 对数值输入变量进行标准化。这些操作必须在交叉验证过程中的每个训练/测试拆分中执行,其中编码和缩放操作在训练集上拟合,并应用于训练集和测试集。

实现这一点的简单方法是使用 Pipeline,其中第一个步骤是 ColumnTransformer,它仅将 OneHotEncoder 应用于分类变量,将 MinMaxScaler 应用于数值输入变量。要实现这一点,我们需要分类和数值输入变量的列索引列表。

我们在上一节中定义的 `load_dataset()` 函数加载并返回数据集以及具有分类和数值数据类型的列列表。这可以用于准备一个 Pipeline 来包装每个模型,然后再进行评估。首先,定义 `ColumnTransformer`,它指定要应用于每种列类型的转换,然后将其用作 `Pipeline` 的第一步,最后是需要拟合和评估的特定模型。

我们可以为每个算法总结平均分类准确率,这将有助于直接比较算法。

在运行结束时,我们将为每个算法的采样结果创建单独的箱线图。这些图将使用相同的 y 轴比例,以便我们可以直接比较结果的分布。

综合起来,在成人不平衡数据集上评估一系列机器学习算法的完整示例将在下面列出。

运行该示例将依次评估每个算法,并报告分类准确率的平均值和标准差。

注意:鉴于算法或评估程序的随机性质,或数值精度的差异,您的结果可能有所不同。请考虑多次运行示例并比较平均结果。

您得到了什么分数?
请在下方评论区发布你的结果。

在这种情况下,我们可以看到所有选定的算法都很有技巧,分类准确率均高于 75.2%。我们可以看到集成决策树算法表现最好,其中随机梯度增强的分类准确率约为 86.3%。

这略好于原始论文中报道的结果,尽管使用了不同的模型评估程序。

创建一个图,显示每个算法结果样本的一个箱须图。箱子显示数据的前 50%,每个箱子中间的橙色线显示样本的中位数,每个箱子中的绿色三角形显示样本的平均值。

我们可以看到,每个算法的分数分布似乎都高于大约 75% 的基线,可能有一些异常值(图上的圆圈)。每个算法的分布似乎都很紧凑,中位数和平均值对齐,这表明模型在此数据集上相当稳定,分数不会形成倾斜分布。

这突显了模型性能的中心趋势、分布和最坏情况的结果都很重要,尤其是在少数类样本数量有限的情况下。

Box and Whisker Plot of Machine Learning Models on the Imbalanced Adult Dataset

不平衡成人数据集上机器学习模型箱须图

对新数据进行预测

在本节中,我们可以拟合最终模型并使用它来预测单行数据。

我们将使用分类准确率约为 86.3% 的GradientBoostingClassifier模型作为我们的最终模型。拟合最终模型涉及定义ColumnTransformer来对分类变量进行编码并对数值变量进行缩放,然后构建一个Pipeline以在拟合模型之前对训练集执行这些转换。

然后,可以使用该Pipeline直接在新数据上进行预测,并会自动使用与训练数据集相同的操作来编码和缩放新数据。

首先,我们可以将模型定义为管道。

定义好后,我们就可以在整个训练数据集上对其进行拟合。

拟合后,我们可以通过调用predict()函数来使用它对新数据进行预测。这将返回“<=50K”的类别标签 0,或“>50K”的类别标签 1。

重要的是,我们必须在Pipeline中使用ColumnTransformer来使用相同的转换正确准备新数据。

例如

为了演示这一点,我们可以使用已训练好的模型来预测一些已知结果的案例的标签。

完整的示例如下所示。

首先运行示例,在整个训练数据集上拟合模型。

然后,使用从数据集中选择的用于预测 <=50K 案例标签的拟合模型。我们可以看到所有案例都得到了正确预测。然后,将一些 >50K 案例作为输入提供给模型并预测标签。正如我们所希望的,预测结果是正确的标签。

进一步阅读

如果您想深入了解,本节提供了更多关于该主题的资源。

论文

API

数据集 (Dataset)

总结

在本教程中,您学习了如何开发和评估用于不平衡成人收入分类数据集的模型。

具体来说,你学到了:

  • 如何加载和探索数据集,并为数据准备和模型选择提供思路。
  • 如何使用稳健的测试框架系统地评估一套机器学习模型。
  • 如何拟合最终模型并使用它来预测特定案例的类别标签。

你有什么问题吗?
在下面的评论中提出你的问题,我会尽力回答。

掌控不平衡分类!

Imbalanced Classification with Python

在几分钟内开发不平衡学习模型

...只需几行python代码

在我的新电子书中探索如何实现
使用 Python 处理不平衡分类问题

它提供了关于以下内容的自学教程端到端项目
性能指标欠采样方法SMOTE阈值移动概率校准成本敏感算法
以及更多...

将不平衡分类方法引入您的机器学习项目

查看内容

不平衡分类与成人收入数据集的 34 条回复

  1. Anwar Arakkal 2020 年 3 月 15 日上午 5:33 #

    你好,

    当我运行模型评估代码时,我收到“ValueError: could not convert string to float: ‘United-States'”错误。找不到解决方案。您能帮忙吗?

    ANwar

    • Jason Brownlee 2020 年 3 月 15 日上午 6:21 #

      很抱歉听到这个消息,这可能会有所帮助。
      https://machinelearning.org.cn/faq/single-faq/why-does-the-code-in-the-tutorial-not-work-for-me

      • OI 2020 年 7 月 1 日上午 8:23 #

        嗨,Jason,
        感谢本教程。我遇到了和 Anwar 一样的问题,我认为这是因为您没有对分类变量进行编码。因此,您直接将 cat_ix 列输入到您的模型中。
        希望您能对此进行研究并加以澄清。
        谢谢。

        • Jason Brownlee 2020 年 7 月 1 日上午 11:19 #

          很抱歉听到您遇到了麻烦。

          我们确实准备了两种变量类型,请参阅“评估机器学习算法”部分,我们在那里第一次这样做了。

          也许这会有帮助。
          https://machinelearning.org.cn/faq/single-faq/why-does-the-code-in-the-tutorial-not-work-for-me

          • OI 2020 年 7 月 2 日凌晨 1:10 #

            哦,明白了,谢谢!

            显然,在“评估机器学习算法”之前的代码块会引发错误。因此,使用那里的代码,我们无法获得基线性能,因为那时还没有进行准备。

          • Jason Brownlee 2020 年 7 月 2 日上午 6:24 #

            它前面的块使用了一个不查看输入的虚拟模型。

            在这种情况下,不需要数据准备,代码会直接执行。也许请确认您使用的是最新版本的 scikit-learn。

          • OI 2020 年 7 月 2 日凌晨 1:40 #

            请忽略我上一条消息。

            我刷新了我的内核并在新笔记本中运行,它奏效了。

            感谢您所做的一切,Jason

          • Jason Brownlee 2020 年 7 月 2 日上午 6:25 #

            没问题。很高兴听到这个消息,干得好!

  2. JL 2020 年 3 月 26 日下午 5:33 #

    嗨 Jason

    非常棒的成人数据集教程,实际上是数据科学项目的好例子,尤其是您干净的代码。但我有一个困惑之处。

    与大多数在线数据科学教程不同,您的示例没有太多特征工程。老实说,有时阅读其他数据科学家的特征工程部分教程确实令人头疼,他们会玩弄每个特征与目标之间的相关性,他们还会通过一些数学转换创建一些虚构的特征。

    您对特征工程有何看法?您是否介意分享一些您的经验?样本或教程?

  3. JC 2020 年 4 月 3 日上午 4:31 #

    嗨,伙计,谢谢分享。

    在浏览 sklearn 的 RepeatedStratifiedKFold 文档时有点困惑,想知道您的技术是否包含任何形式的训练和测试分割?还是训练在前 9 折中完成,最后 1 折用于获取指标?

    否则,您如何确保模型没有仅仅完美地学习表示?

  4. Dina 2020 年 6 月 1 日上午 5:12 #

    你好,
    您能否解释一下为什么选择“最频繁”作为虚拟分类器的策略?我们应该根据什么来选择策略?

  5. Lukasz Wojtow 2020 年 8 月 28 日上午 4:51 #

    我为这个数据集获得了 0.9 的中位数 AUC。我使用了 Primeclue,一个开源数据挖掘工具(可在 github 上找到)。

  6. Giuliano Forghieri 2020 年 10 月 27 日凌晨 2:57 #

    嗨,Jason,

    您在上面的代码中提到您正在过采样,但我看不出您是如何做到的。您能解释一下吗?

    谢谢!

    • Jason Brownlee 2020 年 10 月 27 日上午 6:47 #

      看起来像一个笔误,谢谢。已修复。

      • Giuliano Forghieri 2020 年 10 月 27 日上午 8:42 #

        感谢您的快速回复。

        在您看来,过采样少数类会有什么改进吗?

        此外,是否需要处理一些倾斜的特征,例如种族和国籍(可能还有其他),其中白种人和美国在样本总数中所占的比例占主导地位?

        谢谢!

        • Jason Brownlee 2020 年 10 月 27 日下午 1:00 #

          我认为我尝试过,但没有看到任何好处。也许您自己试试确认一下。

  7. Saumya 2021 年 2 月 6 日下午 12:05 #

    嗨,我正在尝试您的代码,但不知何故,在评估部分,我对不同模型的均值和标准差得到 NaN。您能建议我可能做错了什么吗?
    谢谢你

  8. Marlon 2021 年 3 月 14 日晚上 10:48 #

    嗨,Jason,

    谢谢(一如既往)的快速分析。我为一次面试得到了完全相同的数据集作为案例研究,并且有一个问题。在评估部分,当我想检测模型是否过拟合时,仅仅绘制 Logloss 曲线和 Error 曲线是否足够?您会如何进行?提前感谢!

    马龙

  9. tia 2021 年 9 月 29 日凌晨 2:33 #

    嗨,Jason

    我尝试了上面的代码,直到尝试不同分类模型的部分。出于某种原因,我的计算机只显示 CART 结果。我已经等待了大约 15 分钟,但其他模型的结果还没有出来。
    您是否知道原因?我不认为这是由于繁重的编程,您的代码看起来很轻量

    在此先感谢您

    • tia 2021 年 9 月 29 日下午 4:16 #

      嗨,又是我

      最终结果出来了,我得到了

      CART 0.811 (0.006)
      SVM 0.837 (0.005)
      BAG 0.853 (0.005)
      RF 0.850 (0.005)
      GBM 0.863 (0.005)

      我的电脑花了大约 2 小时才运行完成。我使用的是 Anaconda 的 Spyder,我的配置是:Win 10 64 位,Intel(R) Core(TM) i3-6006U CPU @ 2.00GHz 2.00 GHz,RAM 4GB

      • Adrian Tam
        Adrian Tam 2021 年 9 月 30 日凌晨 1:27 #

        我不能确定原因,但我听说有人抱怨 Spyder 拖慢了执行速度。

    • Adrian Tam
      Adrian Tam 2021 年 9 月 30 日凌晨 1:03 #

      如果您尝试在控制台(即非 jupyter notebook)中运行它,请按 Ctrl-C 终止它。它会告诉您它在哪里停止。不过,我看不出为什么需要这么长时间才能运行。如果您仍然不确定,请尝试在代码中添加一些 print() 语句来跟踪程序去了哪里。这些只是学习更多关于正在发生的事情的初步步骤。

发表评论

Machine Learning Mastery 是 Guiding Tech Media 的一部分,Guiding Tech Media 是一家领先的数字媒体出版商,专注于帮助人们了解技术。访问我们的公司网站以了解更多关于我们的使命和团队的信息。