标准不平衡分类机器学习数据集

不平衡分类问题是指在训练数据集中,类别标签的分布存在倾斜的分类预测问题。

许多现实世界的分类问题都存在类别分布不平衡的情况,因此机器学习从业者熟悉处理这类问题非常重要。

在本教程中,您将发现一套用于不平衡分类的标准机器学习数据集。

完成本教程后,您将了解:

  • 具有两个类别不平衡的标准机器学习数据集。
  • 类别分布倾斜的多类别分类标准数据集。
  • 用于机器学习竞赛的流行不平衡分类数据集。

开始您的项目,阅读我的新书 《Python不平衡分类》,其中包含分步教程和所有示例的Python源代码文件。

让我们开始吧。

  • 2021 年 1 月更新:更新了 API 文档链接。
Standard Machine Learning Datasets for Imbalanced Classification

标准不平衡分类机器学习数据集
照片作者: Graeme Churchard,部分权利保留。

教程概述

本教程分为三个部分;它们是:

  1. 二元分类数据集
  2. 多类别分类数据集
  3. 竞赛及其他数据集

二元分类数据集

二元分类预测建模问题是指具有两个类别的分类问题。

通常,不平衡的二元分类问题描述一种正常状态(类别 0)和一种异常状态(类别 1),例如欺诈、诊断或故障。

在本节中,我们将详细介绍三个具有类别不平衡的标准二元分类机器学习数据集。这些数据集足够小,可以放入内存中,并且经过充分研究,为许多研究论文的调查提供了基础。

这些数据集的名称如下:

  • 皮马印第安人糖尿病数据集 (Pima)
  • 哈伯曼乳腺癌数据集 (Haberman)
  • 德国信用数据集 (German)

我们将加载每个数据集并总结其类别不平衡的性质。

皮马印第安人糖尿病数据集 (Pima)

每条记录描述一位女性的医疗详细信息,预测是五年内是否会患上糖尿病。

下面提供了该数据集前五行的样本。

下面的示例加载并总结了该数据集的类别分布。

运行该示例将提供以下输出。

想要开始学习不平衡分类吗?

立即参加我为期7天的免费电子邮件速成课程(附示例代码)。

点击注册,同时获得该课程的免费PDF电子书版本。

哈伯曼乳腺癌数据集 (Haberman)

每条记录描述患者的医疗细节,预测是患者五年后是否存活。

下面提供了该数据集前五行的样本。

下面的示例加载并总结了该数据集的类别分布。

运行该示例将提供以下输出。

德国信用数据集 (German)

每条记录描述一个人的财务细节,预测是该人是否是良好的信用风险。

下面提供了该数据集前五行的样本。

下面的示例加载并总结了该数据集的类别分布。

运行该示例将提供以下输出。

多类别分类数据集

多类别分类预测建模问题是指具有两个以上类别的分类问题。

通常,不平衡的多类别分类问题描述了多种不同的事件,其中一些事件比其他事件常见得多。

在本节中,我们将详细介绍三个具有类别不平衡的标准多类别分类机器学习数据集。这些数据集足够小,可以放入内存中,并且经过充分研究,为许多研究论文的调查提供了基础。

这些数据集的名称如下:

  • 玻璃识别 (Glass)
  • 大肠杆菌 (Ecoli)
  • 甲状腺 (Thyroid)

注意:在研究论文中,通常将不平衡的多类别分类问题转化为不平衡的二元分类问题,方法是将所有多数类别合并为一个类别,而保留最小的少数类别。

我们将加载每个数据集并总结其类别不平衡的性质。

玻璃识别 (Glass)

每条记录描述玻璃的化学成分,预测涉及玻璃的类型。

下面提供了该数据集前五行的样本。

第一列代表行标识符,可以移除。

下面的示例加载并总结了该数据集的类别分布。

运行该示例将提供以下输出。

大肠杆菌 (Ecoli)

每条记录描述不同测试的结果,预测涉及蛋白质定位位点名称。

下面提供了该数据集前五行的样本。

第一列代表行标识符或名称,可以移除。

下面的示例加载并总结了该数据集的类别分布。

运行该示例将提供以下输出。

甲状腺 (Thyroid)

每条记录描述甲状腺的测试结果,预测涉及甲状腺的医疗诊断。

下面提供了该数据集前五行的样本。

下面的示例加载并总结了该数据集的类别分布。

运行该示例将提供以下输出。

竞赛及其他数据集

本节列出了研究论文中使用的一些附加数据集,这些数据集使用较少、规模更大,或是机器学习竞赛的基础数据集。

这些数据集的名称如下:

  • 信用卡欺诈 (Credit)
  • Porto Seguro 汽车保险索赔 (Porto Seguro)

我们将加载每个数据集并总结其类别不平衡的性质。

信用卡欺诈 (Credit)

每条记录描述一笔信用卡交易,并将其归类为欺诈。

此数据未压缩时约为 144MB,压缩后约为 66MB。

下载数据集并将其解压缩到您当前的目录中。

下面提供了该数据集前五行的样本。

下面的示例加载并总结了该数据集的类别分布。

运行该示例将提供以下输出。

Porto Seguro 汽车保险索赔 (Porto Seguro)

每条记录描述人们的汽车保险详情,预测是该人是否会提出保险索赔。

此数据压缩后约为 42MB。

下载数据集并将其解压缩到您当前的目录中。

下面提供了该数据集前五行的样本。

下面的示例加载并总结了该数据集的类别分布。

运行该示例将提供以下输出。

进一步阅读

如果您想深入了解,本节提供了更多关于该主题的资源。

论文

文章

总结

在本教程中,您发现了用于不平衡分类的一系列标准机器学习数据集。

具体来说,你学到了:

  • 具有两个类别不平衡的标准机器学习数据集。
  • 类别分布倾斜的多类别分类标准数据集。
  • 用于机器学习竞赛的流行不平衡分类数据集。

你有什么问题吗?
在下面的评论中提出你的问题,我会尽力回答。

掌控不平衡分类!

Imbalanced Classification with Python

在几分钟内开发不平衡学习模型

...只需几行python代码

在我的新电子书中探索如何实现
使用 Python 处理不平衡分类问题

它提供了关于以下内容的自学教程端到端项目
性能指标欠采样方法SMOTE阈值移动概率校准成本敏感算法
以及更多...

将不平衡分类方法引入您的机器学习项目

查看内容

标准不平衡分类机器学习数据集 的 14 条回复

  1. Ram pavan 2019年12月30日 10:23 #

    非常有用的信息,先生。我是一名研究员,我的研究领域是结肠癌检测,我需要结肠癌数据集,先生。

  2. Pekos 2020年1月2日 16:28 #

    我们是否应该总是对不平衡类别进行重采样?

    • Jason Brownlee 2020年1月3日 07:15 #

      不,尝试一系列方法,并使用满足项目目标并给出最佳结果的方法。

  3. anup kumar 2020年1月2日 18:49 #

    很棒的文章,Jason。我喜欢你的博客,继续这样写下去。

  4. Anthony 2020年1月3日 18:07 #

    您在哪里教授如何处理不平衡数据集(例如 SMOTE 技术)?

  5. fawaz 2020年1月3日 21:36 #

    非常有益的帖子。
    谢谢

    • Jason Brownlee 2020年1月4日 08:31 #

      不客气。

      • Meghana 2020年1月5日 05:56 #

        你好,Jason先生,您的帖子信息量很大,很有帮助。谢谢您发布它。我有一个关于洗钱的数据集。我需要构建一个分类模型。由于我是一名学生,刚开始接触机器学习,一直没做出来。有什么可以指导我的吗?

  6. Anthony The Koala 2020年1月13日 08:55 #

    尊敬的Jason博士,
    关于 zip 文件“creditcardfraud.zip”,位于 https://raw.githubusercontent.com/jbrownlee/Datasets/master/creditcardfraud.zip,该文件不存在。

    您能否推荐其他下载地点?

    谢谢你
    悉尼的Anthony

留下回复

Machine Learning Mastery 是 Guiding Tech Media 的一部分,Guiding Tech Media 是一家领先的数字媒体出版商,专注于帮助人们了解技术。访问我们的公司网站以了解更多关于我们的使命和团队的信息。