使用大肠杆菌数据集进行不平衡多类别分类

多类别分类问题是指需要预测一个标签,但该标签可能存在两个以上的选项。

这些是具有挑战性的预测建模问题,因为模型需要足够有代表性的每个类别的示例才能学习问题。当每个类别的示例数量不平衡,或者偏向于少数几个类别而其他类别示例很少时,问题会变得更具挑战性。

这类问题被称为不平衡多类别分类问题,它们需要仔细设计评估指标、测试框架以及选择机器学习模型。E.coli 蛋白质定位位点数据集是用于探索不平衡多类别分类挑战的标准数据集。

在本教程中,您将了解如何为不平衡多类别的 E.coli 数据集开发和评估模型。

完成本教程后,您将了解:

  • 如何加载和探索数据集,并为数据准备和模型选择提供思路。
  • 如何使用稳健的测试框架系统地评估一套机器学习模型。
  • 如何拟合最终模型并使用它来预测特定示例的类别标签。

立即开始您的项目,阅读我的新书 《Python 不平衡分类》,其中包含分步教程和所有示例的Python 源代码文件。

让我们开始吧。

  • 2021 年 1 月更新:更新了 API 文档链接。
Imbalanced Multiclass Classification with the E.coli Dataset

使用大肠杆菌数据集进行不平衡多类别分类
照片来自 Marcus,部分权利保留。

教程概述

本教程分为五个部分;它们是:

  1. E.coli 数据集
  2. 探索数据集
  3. 模型测试和基线结果
  4. 评估模型
    1. 评估机器学习算法
    2. 评估数据过采样
  5. 在新数据上进行预测

E.coli 数据集

在此项目中,我们将使用一个标准的不平衡机器学习数据集,称为“E.coli”数据集,也称为“蛋白质定位位点”数据集。

该数据集描述了使用 E.coli 蛋白质的氨基酸序列在其细胞定位位点进行分类的问题。也就是说,根据蛋白质折叠前的化学成分来预测蛋白质如何与细胞结合。

该数据集的功劳归于 Kenta Nakai,并由 Paul HortonKenta Nakai 在他们 1996 年的论文《用于预测蛋白质细胞定位位点的概率分类系统》中发展成现在的形式。在其中,他们取得了 81% 的分类准确率。

336 个 E.coli 蛋白质被分为 8 类,准确率为 81%……

《用于预测蛋白质细胞定位位点的概率分类系统》,1996 年。

该数据集包含 336 个 E.coli 蛋白质示例,每个示例都使用从蛋白质氨基酸序列计算出的七个输入变量来描述。

忽略序列名称,输入特征描述如下:

  • mcg:McGeoch 的信号序列识别方法。
  • gvh:von Heijne 的信号序列识别方法。
  • lip:von Heijne 的信号肽 II 共有序列评分。
  • chg:预测的脂蛋白 N-末端的电荷存在性。
  • aac:外膜和周质蛋白氨基酸含量判别分析得分。
  • alm1:ALOM 跨膜区域预测程序的得分。
  • alm2:ALOM 程序在排除序列中的推测切割信号区域后的得分。

有八类,描述如下:

  • cp:细胞质
  • im:无信号序列的内膜
  • pp:周质
  • imU:内膜,不可切割信号序列
  • om:外膜
  • omL:外膜脂蛋白
  • imL:内膜脂蛋白
  • imS:内膜,可切割信号序列

类别之间的示例分布不均,在某些情况下甚至严重不平衡。

例如,“cp”类别有 143 个示例,而“imL”和“imS”类别每个只有两个示例。

接下来,我们仔细看看数据。

想要开始学习不平衡分类吗?

立即参加我为期7天的免费电子邮件速成课程(附示例代码)。

点击注册,同时获得该课程的免费PDF电子书版本。

探索数据集

首先,下载并解压缩数据集,将其保存在当前工作目录中,文件名为“ecoli.csv”。

请注意,此版本的数据集已删除第一列(序列名称),因为它不包含可泛化的建模信息。

查看文件内容。

文件的前几行应如下所示

我们可以看到,输入变量都是数值型,类别标签是字符串值,在建模之前需要进行标签编码。

可以使用 read_csv() Pandas 函数将数据集加载为 DataFrame,指定文件位置并说明没有标题行。

加载后,我们可以通过打印DataFrame的形状来总结行数和列数。

接下来,我们可以计算每个输入变量的五数概括。

最后,我们还可以使用 Counter 对象来汇总每个类别的示例数量。

总而言之,下面列出了加载和汇总数据集的完整示例。

运行示例首先加载数据集,并确认行数和列数,为 336 行,7 个输入变量和 1 个目标变量。

回顾每个变量的摘要,似乎变量已经过中心化,即移动以使均值为 0.5。变量似乎也已归一化,意味着所有值都在 0 到 1 之间;至少没有变量的值超出此范围。

然后汇总类别分布,证实了每个类别观察值的严重倾斜。我们可以看到,“cp”类别占主导地位,占示例的约 42%,而“imS”、“imL”和“omL”等少数类别仅占数据集的 1% 或更少。

这些少数类别可能没有足够的数据进行泛化。一种方法可能是简单地删除这些类别的示例。

我们还可以通过为每个变量创建直方图来查看输入变量的分布。

下面列出了创建所有输入变量直方图的完整示例。

我们可以看到,像 0、5 和 6 这样的变量可能具有多峰分布。变量 2 和 3 可能具有二元分布,而变量 1 和 4 可能具有 类高斯分布

根据模型的选择,数据集可能需要标准化、归一化,甚至幂变换。

Histogram of Variables in the E.coli Dataset

E.coli 数据集变量的直方图

现在我们已经审阅了数据集,接下来我们将开发一个测试工具来评估候选模型。

模型测试和基线结果

k 折交叉验证程序提供了对模型性能的良好通用估计,至少与单次训练-测试划分相比,它不太可能过于乐观地产生偏差。我们将使用k=5,这意味着每折包含约 336/5 或约 67 个示例。

分层表示每折都将尝试包含与整个训练数据集相同的类别示例混合。重复表示将执行多次评估过程,以帮助避免偶然结果并更好地捕捉所选模型的方差。我们将使用三次重复。

这意味着将对单个模型进行 5 * 3 = 15 次拟合和评估,并报告这些运行的平均值和标准差。

这可以使用 scikit-learn 的 RepeatedStratifiedKFold 类来实现。

所有类别都同样重要。因此,在这种情况下,我们将使用分类准确率来评估模型。

首先,我们可以定义一个函数来加载数据集,将输入变量分割为输入和输出变量,并使用标签编码器确保类别标签按顺序编号。

我们可以定义一个函数来使用分层重复 5 折交叉验证来评估候选模型,然后返回模型在每次折叠和重复中计算出的得分列表。

下面的evaluate_model()函数实现了这一点。

然后我们可以调用load_dataset()函数来加载并确认 E.coli 数据集。

在这种情况下,我们将评估在所有情况下都预测多数类别的基线策略。

这可以使用DummyClassifier类并通过将“strategy”设置为“most_frequent”来自动实现,该类将预测训练数据集中最常见的类别(例如,类别‘cp’)。因此,考虑到训练数据集中最常见类别的分布,我们预计此模型将获得约 42% 的分类准确率。

然后,我们可以通过调用我们的 evaluate_model() 函数来评估模型,并报告结果的平均值和标准差。

将所有这些内容结合起来,下面列出了在 E.coli 数据集上评估基线模型的完整示例。

运行示例首先加载数据集,并如预期的那样将案例数量报告为 336,并将类别标签分布报告出来。

然后使用重复分层 k 折交叉验证评估具有默认策略的DummyClassifier,报告的分类准确率平均值和标准差约为 42.6%。

在模型评估过程中会报告警告;例如

这是因为某些类别没有足够的示例进行 5 折交叉验证,例如“imS”和“imL”类别。

在这种情况下,我们将从数据集中删除这些示例。这可以通过更新load_dataset()来删除具有这些类别的行来实现,例如四行。

然后我们可以重新运行示例以建立分类准确率的基线。

完整的示例如下所示。

运行示例确认示例数量从 336 减少到 332。

我们还可以看到类别数量从八个减少到六个(类别 0 到类别 5)。

性能基线已确定为 43.1%。此分数提供了此数据集的基线,所有其他分类算法都可以与之比较。达到高于约 43.1% 的分数表示模型在此数据集上具有技能,而达到此值或更低的分数表示模型在此数据集上没有技能。

现在我们有了测试工具和性能基线,我们可以开始评估该数据集上的一些模型。

评估模型

在本节中,我们将使用上一节中开发的测试工具,评估数据集上的一系列不同技术。

报告的性能良好,但尚未高度优化(例如,超参数未进行调整)。

你能做得更好吗?如果你能使用相同的测试框架获得更好的分类准确率,我很想听听。请在下面的评论中告诉我。

评估机器学习算法

让我们开始在数据集上评估一系列机器学习模型。

在数据集上快速检查一套不同的非线性算法是一个好主意,这样可以快速找出哪些有效并值得进一步关注,哪些无效。

我们将评估以下机器学习模型在 E.coli 数据集上的表现:

  • 线性判别分析 (LDA)
  • 支持向量机 (SVM)
  • 装袋决策树(BAG)
  • 随机森林 (RF)
  • 极端随机树(ET)

我们将使用大多数默认模型超参数,除了集成算法中的树的数量,我们将将其设置为合理的默认值1000。

我们将依次定义每个模型并将它们添加到一个列表中,以便我们可以按顺序评估它们。下面的 get_models() 函数定义了要评估的模型列表,以及用于稍后绘制结果的模型简称列表。

然后我们可以依次枚举模型列表并评估每个模型,存储分数以供后续评估。

在运行结束时,我们可以将每个样本的分数绘制成箱须图,并具有相同的比例,以便直接比较其分布。

将所有这些内容结合起来,下面列出了在 E.coli 数据集上评估一系列机器学习算法的完整示例。

运行该示例将依次评估每个算法,并报告分类准确率的平均值和标准差。

注意:由于算法或评估程序的随机性,或数值精度的差异,您的结果可能会有所不同。请考虑运行示例几次并比较平均结果。

在这种情况下,我们可以看到所有测试的算法都具有技能,其准确率均高于默认的 43.1%。

结果表明,大多数算法在此数据集上表现良好,并且可能是树决策的集成算法表现最好,其中 Extra Trees 达到 88% 的准确率,Random Forest 达到 89.5% 的准确率。

会创建一个图表,显示每个算法样本结果的一个箱线图。箱体显示数据中间的 50%,每个箱体中间的橙色线显示样本的中位数,每个箱体中的绿色三角形显示样本的平均值。

我们可以看到,树决策集成算法的得分分布聚集在一起,与其他测试的算法分开。在大多数情况下,均值和中位数在图中很接近,这表明得分分布具有一定程度的对称性,可能表明模型是稳定的。

Box and Whisker Plot of Machine Learning Models on the Imbalanced E.coli Dataset

在不平衡的 E.coli 数据集上机器学习模型的箱线图

评估数据过采样

由于类别众多,许多类别中的示例很少,该数据集可能受益于过采样。

我们可以测试 SMOTE 算法应用于除多数类别(cp)之外的所有类别,这可以提高性能。

通常,SMOTE 对树决策集成似乎没有帮助,因此我们将测试的算法集更改为以下内容:

  • 多项逻辑回归 (LR)
  • 线性判别分析 (LDA)
  • 支持向量机 (SVM)
  • k-近邻(KNN)
  • 高斯过程 (GP)

下面列出了更新的get_models()函数版本,用于定义这些模型。

我们可以使用 imbalanced-learn 库中的 SMOTE 实现,以及来自同一库的 Pipeline,首先将 SMOTE 应用于训练数据集,然后在交叉验证过程中拟合给定的模型。

SMOTE 将使用训练数据集中的 k-近邻来合成新示例,默认情况下,k 设置为 5。

这对于我们数据集中的一些类别来说太大了。因此,我们将尝试将k值设为 2。

将这一切结合起来,下面列出了在 E.coli 数据集上使用 SMOTE 过采样处理的完整示例。

运行该示例将依次评估每个算法,并报告分类准确率的平均值和标准差。

注意:由于算法或评估程序的随机性,或数值精度的差异,您的结果可能会有所不同。请考虑运行示例几次并比较平均结果。

在这种情况下,我们可以看到,SMOTE 带来的 LDA 准确率从 88.6% 下降到约 87.9%,而 SVM 结合 SMOTE 的准确率则从约 88.3% 小幅提高到约 88.8%。

在这种情况下,SVM 似乎也是最佳表现方法,尽管它没有像前一节中的随机森林那样取得改进。

创建每个算法分类准确率分数的箱线图。

我们可以看到 LDA 在 90% 以上的性能上有许多异常值,这非常有趣。这可能表明,如果 LDA 专注于数量丰富的类别,它的表现可能会更好。

Box and Whisker Plot of SMOTE With Machine Learning Models on the Imbalanced E.coli Dataset

SMOTE 与机器学习模型在不平衡的 E.coli 数据集上的箱线图

现在我们已经了解了如何在此数据集上评估模型,接下来看看如何使用最终模型进行预测。

在新数据上进行预测

在本节中,我们可以拟合最终模型并使用它来预测单行数据。

我们将使用随机森林模型作为我们的最终模型,该模型实现了约 89.5% 的分类准确率。

首先,我们可以定义模型。

定义好后,我们就可以在整个训练数据集上对其进行拟合。

拟合后,我们可以通过调用 predict() 函数来使用它为新数据进行预测。这将返回每个示例的编码类别标签。

然后,我们可以使用标签编码器进行反向转换,以获得字符串类别标签。

例如

为了演示这一点,我们可以使用已训练好的模型来预测一些已知结果的案例的标签。

完整的示例如下所示。

首先运行示例,在整个训练数据集上拟合模型。

然后,将拟合后的模型用于预测来自六个类别中每个类别的示例的标签。

我们可以看到,为每个选定的示例都正确预测了类别标签。尽管如此,平均而言,我们预计 10 次预测中会有 1 次是错误的,而这些错误在不同类别之间可能不均等。

进一步阅读

如果您想深入了解,本节提供了更多关于该主题的资源。

论文

API

数据集 (Dataset)

总结

在本教程中,您将学习如何为不平衡的多类别 E.coli 数据集开发和评估模型。

具体来说,你学到了:

  • 如何加载和探索数据集,并为数据准备和模型选择提供思路。
  • 如何使用稳健的测试框架系统地评估一套机器学习模型。
  • 如何拟合最终模型并使用它来预测特定示例的类别标签。

你有什么问题吗?
在下面的评论中提出你的问题,我会尽力回答。

掌控不平衡分类!

Imbalanced Classification with Python

在几分钟内开发不平衡学习模型

...只需几行python代码

在我的新电子书中探索如何实现
使用 Python 处理不平衡分类问题

它提供了关于以下内容的自学教程端到端项目
性能指标欠采样方法SMOTE阈值移动概率校准成本敏感算法
以及更多...

将不平衡分类方法引入您的机器学习项目

查看内容

E.coli 数据集不平衡多类别分类 的 14 条回复

  1. Aned Esquerra Arguelles 2020 年 3 月 19 日下午 4:13 #

    好的,Jason!很棒的代码!
    我有几个问题,希望您能 kindly 回答。

    SVM 和 KNN 分类器的性能比随机森林分类器更好,速度快约 17 倍,准确率只差 1%,为什么不使用这些算法而不是随机森林来进行最终预测呢?我想这些性能(执行时间)在处理海量数据时会产生巨大的影响。

    您能否在您的博客中包含一个教程,例如“如何在 KFold 验证中使用管道:优缺点?管道与 KFolding 从零开始?”

    是否有其他关于 E.coli 的数据集可以运行先前训练好的模型来预测未知目标?

    干杯!!!

  2. domenico 2020 年 3 月 30 日凌晨 1:53 #

    你好 Jason,

    我能否从您提供的分类示例中受益于功能强大的 Nvidia GPU,如 GTX 2080?

    此致

    Dom

  3. Domenico Arena 2020 年 3 月 30 日上午 3:28 #

    哈喽 杰森,
    首先,感谢您通过您的杰出工作邀请我们进入这个精彩的世界!

    我想请您评论一下这个结果(10000 个训练向量,每个向量是 60 个估计器)

    使用您的 Python 代码和 evaluate_model 在 ExtraTreesClassifier 上
    我得到的准确率是 83.3%

    而在验证(即在训练数据上使用 model.fit 函数,在未见过的数据上使用 model.predict)时,我的准确率是 53%。

    我该如何解释这些结果?
    模型是否没有泛化到从未见过的数据?

    提前感谢

    Dom

    • Jason Brownlee 2020 年 3 月 30 日上午 5:38 #

      模型在训练集上表现良好,在测试集上表现不佳。

      它没有很好地泛化,或者测试数据集不具代表性。

  4. Domenico Arena 2020 年 3 月 30 日晚上 7:53 #

    嗨,Jason,
    感谢您的回复……

    所以模型没有泛化……好的……这很清楚……

    但我不明白的是

    为什么使用 evaluate_model 在 ExtraTreesClassifier 上可以得到 83.3% 的准确率
    而在测试数据上实际准确率是 53%?

    我不明白。

    在验证期间,我有

    训练数据:Train_X,Train_y
    model.fit(Train_X,Train_y)
    print(‘model.score=’,model.score(Train_X,Train_y)) -> 100%

    验证数据:Valid_X,Valid_y
    print(‘model.score=’,model.score(Valid_X,Valid_y)) -> 53%

    我不明白……我是不是做错了什么?

    提前感谢

    Dom

    • Jason Brownlee 2020 年 3 月 31 日上午 8:05 #

      通过训练集评估模型是模型性能的无效估计。

      这就是为什么我们使用留出集或交叉验证。

      在您的情况下,唯一的评估是估计的 val 集合性能,即 53%。

  5. Mahsa 2020 年 7 月 3 日下午 1:33 #

    非常感谢分享,Jason!一如既往地富有启发性。

    我有一个关于选择“准确率”作为度量标准的问题。考虑到类别不平衡,您会推荐其他分数吗?我知道对于不平衡的二分类问题可以选择 G-mean、balanced accuracy 等,但它们也适用于多分类问题吗?

    提前表示感谢!

  6. David B Rosen (PhD) 2021 年 8 月 19 日上午 10:25 #

    您好 Jason!由于过采样没有提高准确率,我们是否可以得出结论,数据不平衡在这里不是一个“问题”?为什么它不是一个问题?是因为我们查看了准确率,但没有关注每个类别的召回率和精确率(或标准化混淆矩阵的对角线)吗?是因为特征足够预测目标,所以我们能够做得比基线准确率好得多吗?

    • Adrian Tam
      Adrian Tam 2021 年 8 月 20 日凌晨 1:13 #

      是的。您需要查看召回率、精确率以及特征与结果的关系。考虑一些夸张的例子:如果失衡是十亿比一,即使我过采样了一百次,如果我总是预测出现次数最多的结果,我仍然能获得相同的准确率。如果结果是与特征无关的随机数,那么无论使用什么技术,模型都无法提高。想想您的准确率是过高还是过低。然后您就可以大致了解是什么问题了。

  7. MaMo 2022 年 2 月 26 日下午 5:47 #

    以下代码片段在 y 中返回一个值为 ‘0’,从而导致类似以下的错误:“ValueError: y 中最不常见的类只有一个成员,太少了。任何类的最小组数不能少于 2。”

    X, y = data[:, :-1], data[:, -1]
    # 对目标变量进行标签编码,使其具有类别 0 和 1
    y = LabelEncoder().fit_transform(y)

    • James Carmichael 2022 年 2 月 27 日下午 12:30 #

      您好 MaMo……感谢提问。

      我很想帮忙,但我实在没有能力为您调试代码。

      我很乐意提出一些建议

      考虑将代码积极削减到最低要求。这将帮助您隔离问题并专注于它。
      考虑将问题简化为一个或几个简单的例子。
      考虑寻找其他可行的类似代码示例,并慢慢修改它们以满足您的需求。这可能会暴露您的失误。
      考虑在 StackOverflow 上发布您的问题和代码。

撰写回复

Machine Learning Mastery 是 Guiding Tech Media 的一部分,Guiding Tech Media 是一家领先的数字媒体出版商,专注于帮助人们了解技术。访问我们的公司网站以了解更多关于我们的使命和团队的信息。