不平衡分类简明介绍

分类预测建模涉及为给定的观察结果预测一个类别标签。

不平衡分类问题是分类问题的一个例子,其中已知类别中的样本分布存在偏差或倾斜。这种分布可以从轻微的偏差到严重的失衡,例如少数类别中只有一个样本,而多数类别中却有数百、数千甚至数百万个样本。

不平衡分类对预测建模构成了挑战,因为大多数用于分类的机器学习算法都是围绕每个类别具有相等数量样本的假设设计的。这导致模型预测性能不佳,特别是对于少数类别。这是一个问题,因为通常情况下,少数类别更重要,因此问题对少数类别的分类错误比对多数类别的分类错误更敏感。

在本教程中,您将了解不平衡分类预测建模。

完成本教程后,您将了解:

  • 不平衡分类是指训练数据集中类别分布不均衡的分类问题。
  • 类别分布的不平衡程度可能有所不同,但严重的失衡更具挑战性,可能需要专门的技术。
  • 许多现实世界中的分类问题都存在不平衡的类别分布,例如欺诈检测、垃圾邮件检测和客户流失预测。

通过我的新书《使用Python进行不平衡分类》**启动您的项目**,其中包括**逐步教程**和所有示例的**Python源代码文件**。

让我们开始吧。

A Gentle Introduction to Imbalanced Classification

不平衡分类简明介绍
图片由John Mason拍摄,保留部分权利。

教程概述

本教程分为五个部分;它们是:

  1. 分类预测建模
  2. 不平衡分类问题
  3. 类别不平衡的原因
  4. 不平衡分类的挑战
  5. 不平衡分类的例子

分类预测建模

分类是一种预测建模问题,涉及为每个观测值分配一个类别标签。

…分类模型生成一个预测类别,其形式为离散类别。对于大多数实际应用,需要离散类别预测才能做出决策。

— 第248页,《应用预测建模》,2013年。

每个示例都包含观察结果和类别标签。

  • 示例:来自领域(输入)的观察结果和相关的类别标签(输出)。

例如,我们可以收集花的测量值并根据测量值对花的物种(标签)进行分类。预测建模问题的类别数量通常在问题构建或描述时固定下来,并且通常类别数量不会改变。

我们可以选择预测类别成员的概率,而不是一个明确的类别标签。

这允许预测模型在多种选项中共享预测的不确定性,并允许用户根据问题的背景解释结果。

与回归模型类似,分类模型产生一个连续值的预测,通常以概率形式表示(即,任何单个样本的类别成员预测值在0到1之间,并且总和为1)。

— 第248页,《应用预测建模》,2013年。

例如,给定花的测量值(观测值),我们可以预测该花属于二十种不同花种中每一种的可能性(概率)。

预测建模问题的类别数量通常在问题被构思或描述时就已经确定,并且通常类别数量不会改变。

分类预测建模问题可能有两个类别标签。这是最简单的分类问题类型,被称为二类分类或二元分类。另外,问题可能有超过两个类别,例如三个、10个甚至数百个类别。这些类型的问题被称为多类分类问题。

  • 二元分类问题:一种分类预测建模问题,其中所有示例都属于两个类别之一。
  • 多类分类问题:一种分类预测建模问题,其中所有示例都属于三个或更多类别之一。

在处理分类预测建模问题时,我们必须收集一个训练数据集。

训练数据集是从领域中收集的若干示例,其中包括输入数据(例如测量值)和输出数据(例如类别标签)。

  • 训练数据集:从问题领域收集的若干示例,包括输入观测值和输出类别标签。

根据问题的复杂性和我们可能选择使用的模型类型,我们可能需要数十、数百、数千甚至数百万个来自该领域的示例来构成一个训练数据集。

训练数据集用于更好地理解输入数据,以帮助最好地为建模做准备。它也用于评估一系列不同的建模算法。它用于调整所选模型的超参数。最后,训练数据集用于在所有可用数据上训练最终模型,我们可以在将来使用该模型对问题领域中的新示例进行预测。

现在我们熟悉了分类预测建模,让我们考虑训练数据集中类别的不平衡情况。

想要开始学习不平衡分类吗?

立即参加我为期7天的免费电子邮件速成课程(附示例代码)。

点击注册,同时获得该课程的免费PDF电子书版本。

不平衡分类问题

每个类别所属的样本数量可称为类别分布。

不平衡分类指的是一种分类预测建模问题,其中训练数据集中每个类别标签的样本数量不平衡。

也就是说,类别分布不相等或不接近相等,而是有偏差或倾斜的。

  • 不平衡分类:一种分类预测建模问题,其中类别之间的样本分布不相等。

例如,我们可能收集了花的测量数据,其中一种花有80个样本,另一种花有20个样本,并且这些样本构成了我们的训练数据集。这代表了一个不平衡分类问题。

当一个或多个类别在训练数据中的比例与其他类别相比非常低时,就会发生不平衡。

— 第419页,《应用预测建模》,2013年。

我们将这类问题称为“不平衡分类”而不是“不均衡分类”。“不均衡”指的是一个曾经平衡但现在不再平衡的类别分布,而“不平衡”指的是一个本质上就不平衡的类别分布。

还有其他不那么普遍的名称可以用来描述这些类型的分类问题,例如

  • 罕见事件预测。
  • 极端事件预测。
  • 严重类别不平衡。

问题的不平衡性由特定训练数据集中类别的分布来定义。

…类别不平衡必须根据特定的数据集或分布来定义。由于需要类别标签才能确定类别不平衡的程度,因此类别不平衡通常是根据训练分布来衡量的。

— 第16页,《不平衡学习:基础、算法和应用》,2013年。

通常用比例来描述数据集中类别的不平衡性。

例如,一个不平衡的二元分类问题,其不平衡比例为1比100(1:100),意味着在一个类别中每有一个样本,在另一个类别中就有100个样本。

描述数据集中类别不平衡的另一种方法是将类别分布概括为训练数据集的百分比。例如,一个不平衡的多类分类问题可能在第一个类别中有80%的样本,在第二个类别中有18%的样本,在第三个类别中有2%的样本。

既然我们熟悉了不平衡分类问题的定义,那么让我们来看看类别可能不平衡的一些可能原因。

类别不平衡的原因

不平衡分类预测建模问题中类别分布的不平衡可能有多种原因。

我们可能需要考虑两种主要的不平衡原因:数据采样和领域特性。

类别之间的样本不平衡可能是由于从问题领域收集或采样样本的方式造成的。这可能涉及数据收集过程中引入的偏差,以及数据收集过程中产生的错误。

  • 有偏采样。
  • 测量误差。

例如,样本可能从一个狭窄的地理区域或某个时间段收集,而类别的分布可能完全不同,甚至以不同的方式收集。

在收集观察结果时可能犯了错误。一种错误可能是将错误的类别标签应用到许多示例上。或者,从中收集示例的过程或系统可能已损坏或受损,从而导致不平衡。

通常,在不平衡是由采样偏差或测量误差引起的情况下,可以通过改进采样方法和/或纠正测量误差来纠正不平衡。这是因为训练数据集不能公平地代表所要解决的问题领域。

不平衡可能是一个问题领域的固有特性。

例如,一个类别的自然发生或存在可能主导其他类别。这可能是因为在一个类别中产生观测值的过程在时间、成本、计算或其他资源方面更为昂贵。因此,简单地从领域中收集更多样本以改善类别分布通常是不可行或无法实现的。相反,需要一个模型来学习类别之间的差异。

现在我们熟悉了类别不平衡的可能原因,接下来我们来探讨不平衡分类问题为何具有挑战性。

不平衡分类的挑战

类别分布的不平衡性会因问题而异。

一个分类问题可能略有偏差,例如存在轻微不平衡。或者,分类问题可能存在严重不平衡,在一个给定的训练数据集中,一个类别可能有数百或数千个样本,而另一个类别只有数十个样本。

  • 轻微不平衡。不平衡分类问题,其中训练数据集中样本分布略微不均(例如4:6)。
  • 严重不平衡。不平衡分类问题,其中训练数据集中样本分布严重不均(例如1:100或更多)。

目前关于类别不平衡的大多数研究都集中在1:4到1:100的不平衡比例上。 […] 在实际应用中,如欺诈检测或化学信息学,我们可能面临不平衡比例范围从1:1000到1:5000的问题。

从不平衡数据中学习——开放挑战和未来方向,2016年。

轻微的不平衡通常不是问题,并且通常可以将问题视为正常的分类预测建模问题。而严重的类别不平衡可能难以建模,并且可能需要使用专门的技术。

任何具有不相等类别分布的数据集在技术上都是不平衡的。然而,当问题中每个类别的样本数量之间存在显著,甚至在某些情况下极端的不成比例时,该数据集才被称为不平衡数据集。

— 第19页,《从不平衡数据集中学习》,2018年。

拥有大量样本的类别称为主要或多数类别,而样本较少的类别(通常只有一个)称为次要或少数类别。

  • 多数类别:不平衡分类预测建模问题中包含许多样本的类别(或多个类别)。
  • 少数类别:不平衡分类预测建模问题中包含少量样本的类别。

在处理不平衡分类问题时,少数类别通常是最受关注的。这意味着模型在正确预测少数类别的类别标签或概率方面的能力比多数类别更重要。

从不平衡数据中学习的发展主要受到众多实际应用的推动,这些应用中我们面临数据表示不均匀的问题。在这种情况下,少数类别通常是更重要的,因此我们需要方法来提高其识别率。

从不平衡数据中学习——开放挑战和未来方向,2016年。

少数类别更难预测,因为根据定义,该类别的样本很少。这意味着模型学习该类别样本特征并将其与多数类别(或多个类别)样本区分开来更具挑战性。

多数类别(或多个类别)的样本数量过多可能会淹没少数类别。大多数用于分类预测模型的机器学习算法都是基于类别分布相等的假设设计和演示的。这意味着朴素地应用模型可能会只关注学习大量观测值的特征,而忽略了实际上更受关注且预测价值更高的少数类别样本。

…大多数分类算法的学习过程通常偏向于多数类别样本,因此少数类别在最终系统中没有得到很好的建模。

— 第七页,《从不平衡数据集中学习》,2018年。

不平衡分类并非“已解决”的问题。

它仍然是一个普遍存在的开放问题,实际上必须针对每个训练数据集进行具体识别和解决。

即使面对更多数据,即所谓的“大数据”,大型神经网络模型,即所谓的“深度学习”,以及令人印象深刻的竞赛获胜模型,即所谓的“xgboost”,情况也是如此。

尽管在过去二十年中对不平衡学习进行了大量研究,但现有方法仍存在许多不足,许多问题尚未得到妥善解决。

从不平衡数据中学习——开放挑战和未来方向,2016年。

现在我们熟悉了不平衡分类的挑战,接下来我们来看一些常见的例子。

不平衡分类的例子

我们实际感兴趣的许多分类预测建模问题都是不平衡的。

因此,不平衡分类没有得到更多关注是令人惊讶的。

不平衡学习不仅给数据研究社区带来了重大的新挑战,而且在现实世界中的数据密集型应用中也引发了许多关键问题,从金融和生物医学数据分析等民用应用,到监视和军事数据分析等安全和国防相关应用。

— 第2页,《不平衡学习:基础、算法和应用》,2013年。

以下是十个问题领域的例子,其中样本的类别分布本质上是不平衡的。

许多分类问题可能存在严重的类别分布不平衡;然而,查看那些本质上不平衡的常见问题领域将使类别不平衡的概念和挑战变得具体。

  • 欺诈检测。
  • 索赔预测
  • 违约预测。
  • 客户流失预测。
  • 垃圾邮件检测。
  • 异常检测。
  • 离群值检测。
  • 入侵检测
  • 转化预测。

这些例子揭示了不平衡分类预测建模的本质。

这些问题领域中的每一个都代表了一个完整的研究领域,其中每个领域中的特定问题都可以被构建和探索为不平衡分类预测建模。这突出了类别不平衡分类的多学科性质,以及为什么机器学习从业者了解该问题并熟练解决该问题如此重要。

不平衡可能存在于任何数据集或应用程序中,因此,从业者应了解对此类数据进行建模的含义。

— 第419页,《应用预测建模》,2013年。

请注意,大多数(如果不是全部)示例都可能是二元分类问题。还要注意,少数类别中的示例在某种程度上是稀有、极端、异常或不寻常的。

还要注意,许多领域被描述为“检测”,这突显了在多数类的大量样本中发现少数类的愿望。

我们现在对不平衡分类预测建模有了全面的概述。

进一步阅读

如果您想深入了解,本节提供了更多关于该主题的资源。

教程

书籍

论文

文章

总结

在本教程中,您学习了不平衡分类预测建模。

具体来说,你学到了:

  • 不平衡分类是指训练数据集中类别分布不均衡的分类问题。
  • 类别分布的不平衡程度可能有所不同,但严重的失衡更具挑战性,可能需要专门的技术。
  • 许多现实世界的分类问题都存在不平衡的类别分布,例如欺诈检测、垃圾邮件检测和客户流失预测。

你有什么问题吗?
在下面的评论中提出你的问题,我会尽力回答。

掌控不平衡分类!

Imbalanced Classification with Python

在几分钟内开发不平衡学习模型

...只需几行python代码

在我的新电子书中探索如何实现
使用 Python 处理不平衡分类问题

它提供了关于以下内容的自学教程端到端项目
性能指标欠采样方法SMOTE阈值移动概率校准成本敏感算法
以及更多...

将不平衡分类方法引入您的机器学习项目

查看内容

不平衡分类的温和介绍的58条回复

  1. Shivalkar 2019年12月23日上午6:44 #

    关于不平衡分类的好文章,了解如何处理它,以及在这种情况下使用的最佳算法,将非常有帮助。

    • Jason Brownlee 2019年12月23日上午6:55 #

      很棒的建议——谢谢。

      我已安排了关于该主题的教程。

  2. saravanan Govindasamy 2019年12月23日下午12:44 #

    感谢Jason提供关于不平衡类别的详细信息。此外,如果您能告诉我们如何解决这个问题,那将非常有帮助。

    • Jason Brownlee 2019年12月24日上午6:37 #

      谢谢。

      是的,我有很多例子。

      • tgb123 2019年12月25日下午7:27 #

        例子在哪里?我建议进行一维异常检测和多维异常检测主题,谢谢!

        • Jason Brownlee 2019年12月26日上午7:38 #

          感谢您的建议。

          我已经写好并安排了例子。它们将在未来几周内发布到博客上。

  3. Paolo Bussotti 2019年12月23日下午7:41 #

    你好,Jason,根据我的经验,我发现异常检测是控制生产线非常必要的分析类型。
    异常通常被视为离群值,但更常见的是,产品中众所周知的“缺陷”已被收集到类别中,并且数据集中包含相对大量的缺陷样本,这得益于缺陷图像的增强。
    我看到缺陷也通过生成对抗网络(GAN)进行分类——因此不被视为正常行为的简单离群值——GAN能够重现“正常情况”并为观察到的(可能存在缺陷的)情况生成分数。我想听听您对这些方法的看法,它们并非旨在穷尽所有可能。
    P.S. 感谢您的书籍、课程和研讨会,它们经常涵盖其他地方常被跳过的一些关键方面。
    此致
    保利

    • Jason Brownlee 2019年12月24日上午6:40 #

      感谢分享!

      我在单类分类器方面取得了不错的成功。我有一些关于这个主题的帖子即将发布。

      谢谢你,我非常感谢你的支持。

  4. Anthony The Koala 2019年12月27日上午6:16 #

    尊敬的Jason博士,
    我看到过你网站上显示两变量数据散点图的帖子。
    在那些散点图中,一个变量和另一个变量之间存在重叠。

    我的问题是“相同”但表达方式不同
    * 使用不平衡分类工具箱是否会提高鸢尾花数据库中分类的预测能力,如您在教程https://machinelearning.org.cn/tutorial-to-implement-k-nearest-neighbors-in-python-from-scratch/中所举例?
    * 换句话说,不平衡分类工具箱是否会提高knn最近邻分类的预测能力?

    谢谢你,
    悉尼的Anthony

  5. Rich 2020年1月8日上午2:07 #

    嗨,Jason,

    对于大型数据集(数百万行)的新奇/异常值检测有什么建议吗?我读到由于单类支持向量机(One-Class SVM)相关的高维空间,它不适合大型数据集。另外,关于在C++中从头开始实现这个有什么建议吗?

    谢谢,

    Rich

  6. Mukund K V 2020年2月22日下午7:15 #

    杰森博士
    一个简单的问题,或者可能是我理解错误。如果我遇到类别不平衡问题,我是否不能仅仅通过增加数据量(实验)来解决,最终它将符合大数定律(LLN)。或者我可能混淆了两个不同的概念。请指教。

  7. Rima 2020年3月13日下午5:07 #

    你好,杰森,
    我的数据少数类别有1003个,多数类别有1918个。我使用多级逻辑回归,发现10个变量中只有2个显著。模型的准确率约为68%,但少数类别仅为23%,而多数类别为92%。
    但是当我使用SMOTE时,少数类别的观测值变为2006,多数类别变为3009,我发现10个变量中有7个显著。准确率提高到75%。
    这是正确的解决方法吗?

  8. Rahul 2020年4月3日上午12:34 #

    你好,Jason,这篇文章对我理解不平衡分类很有帮助。你能帮我理解文章中提到的以下句子吗?

    “不平衡分类对预测建模构成了挑战,因为大多数用于分类的机器学习算法都是围绕每个类别具有相等数量样本的假设设计的。”

    算法是基于标签数量相等的假设设计的吗?我还有其他文章可以参考来理解这一点吗?

    谢谢

    • Jason Brownlee 2020年4月3日上午6:55 #

      是的,本教程“延伸阅读”中的参考文献。

  9. Valentin Rodriguez 2020年5月3日下午1:14 #

    非常感谢,这确实是关于这个主题的一个很好的入门介绍。

    来自墨西哥的问候,

  10. Grzegorz Kępisty 2020年5月4日下午4:17 #

    早上好!
    在我的项目中,我通常处理接近5:95的类别不平衡。然而,听完这节课后,我发现存在更棘手的问题。现在我不会感到惊讶了!

    此致!

  11. Ola 2020年5月8日上午2:20 #

    嗨,Jason,
    感谢您的教程
    我的问题是,不平衡数据对第二类错误有什么影响?

  12. Hakob Avjyan 2020年5月8日上午6:14 #

    嗨,Jason,

    这个网站在我数据科学的学习旅程中是一个很棒的资源!所以我有几个问题。

    分层随机抽样是否以任何方式处理类别不平衡问题?
    另外,您会做任何关于NID(网络入侵检测)的教程吗?

    此致,
    Hakob Avjyan

  13. Michele 2020年7月11日下午8:33 #

    你好 Jason,

    非常感谢您这篇非常清晰、撰写精良的类别不平衡介绍!我对机器学习还很陌生,如果我的问题有点天真,请见谅。

    我正在使用随机森林进行分类。我的数据集大约有2000个观测值和3000个特征。观测值属于两个类别,它们之间只有轻微的不平衡(3:4)。我知道在这种情况下我不应该太在意这种不平衡。

    然而,我的问题是。尝试通过过采样或欠采样来解决这种不平衡,是仅仅浪费时间,还是甚至可能使我的分类器情况变得更糟?

    我正在进行10折交叉验证,对我来说,无论是对少数类别进行过采样,还是对多数类别进行欠采样,我都会在测试集中的元素预测方面获得更好的结果。假设我正确地进行了交叉验证(例如,在训练集和测试集分离后对数据进行过采样等),我想知道采样技术是否由于某些原因不适合轻微的类别不平衡,因此我正在以人为的方式夸大我的性能指标。

    感谢您的时间,并祝您一切顺利,

    米歇尔

    • Jason Brownlee 2020年7月12日上午5:50 #

      不客气,米歇尔。

      也许可以尝试一下。

      干得好。不,这些方法只应用于训练数据集,如果以流水线方式应用,模型在测试集上的性能变化是真实的。

  14. Dhrubajit Datta 2020年10月10日下午8:34 #

    嗨,Jason,

    你的工作确实值得称赞。只有一个问题。如果我有一个不平衡的数据,我在通过过采样/欠采样得到的训练数据上开发模型,那么我的测试数据是否也以相同的方式进行过采样或欠采样?换句话说,我如何用测试数据来测试我的模型?

    谢谢
    DJ

  15. Ammar Sani 2020年12月14日下午5:27 #

    你好,Jason博士。如果我想在我的研究工作中探索不平衡数据集的当前问题,我应该从哪里开始?我该如何在文献中找到它们?

  16. rayenne 2020年12月18日上午7:40 #

    感谢您的本教程。它非常有益!
    我对机器学习还很陌生,正在开始一个新项目,旨在解决不平衡数据的问题。我有一个来自实际生产线的数据集,其中包含过程变量的所有值,并包括测试结果:OK 或 NOK(二元分类)。
    我的问题是如何为这些数据选择最佳模型?

  17. Ammar Sani 2021年1月4日下午2:01 #

    你好,Jason博士。

    文章中您提到:“预测建模问题的类别数量通常在问题构建或描述时固定下来,并且通常类别数量不会改变。”

    我想知道除了分类之外,预测建模中还有哪些例子会使类别数量发生变化?

    • Jason Brownlee 2021年1月5日上午6:13 #

      人脸识别。

      • Ammar Sani 2021年1月5日下午2:00 #

        好的,谢谢博士!????

        • Alijonov 2022年7月9日下午9:05 #

          很棒的教程

  18. snow 2021年1月21日下午5:38 #

    训练数据不平衡——但我的验证集也应该不平衡吗?

    • Jason Brownlee 2021年1月22日上午7:18 #

      不,平衡操作应仅应用于训练数据集。

      • snow 2021年2月1日下午8:47 #

        谢谢你。

  19. snow 2021年2月1日下午11:35 #

    Jason博士,您好,
    如何构建时间序列分类数据集?
    我刚开始接触时间序列分类,在理解我的训练集应该如何构建方面遇到了一些麻烦。我目前的数据看起来像这样:

    时间戳 用户ID 特征1 特征2 … 特征N 标签
    10.30 00.00 1 0 0 … 1 0
    10.30 01.00 1 0 1 … 1 2


    10.30 23.00 1 0 0 … 0 1


    10.30 00.00 N-1 0 1 … 0 2

    10.30 23.00 N-1 0 1 … 0 1
    10.30 00.00 N 0 1 … 0 3

    10.30 23.00 N 0 1 … 0 1

    在LSTM模型中,滑动窗口长度设置为1。当输入数据是时间t到t+3的特征时,标签采用t+3的分类。数据有4个标签。
    窗口大小设置为4,因此我可以得到一个ID的21个时间序列(滑动窗口设置为1)。

    假设有50个ID,我总共有1050个时间序列。
    发现分类不平衡。
    我需要平衡数据,但我不知道该怎么做。
    方法1:我使用1050个时间序列进行平衡。
    方法2:所有ID都针对每个t到t+3进行平衡,但会出现并非每个t到t+3都具有所有标签的情况。

    我应该使用哪种方法?

    谢谢你。

  20. Shirina Samreen 2021年5月17日下午4:53 #

    亲爱的 Jason,

    我对我在研究中使用的一个数据集有一个疑问。该数据集包含从520名患者收集的糖尿病特定症状。在这520个实例中,320个属于阳性病例,而200个属于阴性病例。

    可以看出,该数据集并非不平衡,因为不平衡比例为200:320,即5:8。因此,采用的性能指标是精确率、召回率、F值、准确率和ROC曲线下面积,因为这些更适合平衡分类。

    我的方法对吗?

    提前感谢。

  21. Fateme Ghanbari 2021年7月24日下午8:34 #

    你好,Jason。感谢您有价值的教程。
    我的数据存在严重不平衡。我对它应用SMOTE,但它没有解决问题,我仍然看到不平衡。
    0 1
    365949 18420(之前)

    0 1
    192184 18420(之后)

    • Jason Brownlee 2021年7月25日上午5:13 #

      不客气。

      也许配置不正确,我建议调试您的代码以确认。

  22. Sue L 2023年4月5日下午12:26 #

    嗨,Jason——希望这个回复能送到你那里!有两个问题,希望很快就能得到解答。

    (1) 如果我想改变训练数据集的不平衡比例,分层随机抽样是否能创建,例如,一个高度不平衡的<0.1%的样本训练数据集,然后将其用于模型的构建?或者是否有其他普遍接受的方法来创建具有不同不平衡比例的训练数据集?

    旁注:我假设以这种方式测试不平衡比例,在某种程度上构成了模型可靠性甚至泛化能力的案例。

    (2) 你能阐明默认分类阈值0.5的含义吗,以及它与不平衡比例如何相互作用(如果有的话)?两者相关吗?我见过文献说0.5的阈值可能不是最优的。

    谢谢,

  23. juan 2023年5月18日下午7:40 #

    你好。

    如果我有一个非常大且不平衡的问题,通常会使用病例对照研究方法。
    从每个类别中独立抽取样本。
    例如,如果我有100万健康人,1000名癌症患者,我可以抽取1000名健康人和1000名癌症患者。

    但是,如果我用这些数据训练我的模型…我如何修改结果(用病例对照抽样计算的)以适用于人群的一般随机样本?

  24. Amardeep 2024年1月13日上午6:10 #

    你好,
    请用例子解释。比如红球、蓝球等。

发表回复

Machine Learning Mastery 是 Guiding Tech Media 的一部分,Guiding Tech Media 是一家领先的数字媒体出版商,专注于帮助人们了解技术。访问我们的公司网站以了解更多关于我们的使命和团队的信息。