不平衡分类是指示例在类别标签上的分布不均衡的预测任务。大多数不平衡分类示例都侧重于二元分类任务,但许多用于不平衡分类的工具和技术也直接支持多类别分类问题。在本教程中,您将了解如何使用不平衡分类的工具 […]

不平衡分类是指示例在类别标签上的分布不均衡的预测任务。大多数不平衡分类示例都侧重于二元分类任务,但许多用于不平衡分类的工具和技术也直接支持多类别分类问题。在本教程中,您将了解如何使用不平衡分类的工具 […]
多类别分类问题是指必须预测一个标签,但可能预测的标签多于两个的问题。这些是具有挑战性的预测建模问题,因为模型需要足够具有代表性的每个类别的示例数量才能学习该问题。当以下数量不足时,问题变得更具挑战性 […]
多类别分类问题是指必须预测一个标签,但可能预测的标签多于两个的问题。这些是具有挑战性的预测建模问题,因为模型需要足够具有代表性的每个类别的示例数量才能学习该问题。当以下数量不足时,问题变得更具挑战性 […]
欺诈是信用卡公司面临的一个主要问题,这不仅因为每天完成的大量交易,还因为许多欺诈性交易看起来与正常交易非常相似。识别欺诈性信用卡交易是一种常见的不平衡二元分类类型,其重点是正类(是否 […]
分类预测建模问题涉及为给定输入集预测类别标签。这是一个普遍具有挑战性的问题,特别是如果对数据集知之甚少,因为有数十甚至数百种机器学习算法可供选择。如果数据分布存在以下问题,问题会变得更加困难 […]
许多二元分类任务的每个类别中的示例数量不相等,即类别分布倾斜或不平衡。一个流行的例子是成人收入数据集,该数据集涉及根据关系和教育水平等个人详细信息预测个人收入水平是否高于或低于每年50,000美元。这里 […]
许多二元分类任务的每个类别中的示例数量不相等,即类别分布倾斜或不平衡。尽管如此,两类别的准确性同样重要。一个例子是将欧洲语言中的元音音素分类为鼻音或口音,在语音识别中,鼻音或口音的示例数量更多 […]
癌症检测是不平衡分类问题的一个流行例子,因为非癌症病例通常明显多于实际癌症病例。一个标准的不平衡分类数据集是乳腺钼靶数据集,该数据集涉及从放射扫描中检测乳腺癌,特别是乳腺钼靶上显示为亮点的微钙化簇的存在。该数据集 […]
对于某些不平衡分类任务,少数类的误分类错误比其他类型的预测错误更重要。一个例子是银行客户分类问题,即他们是否应该获得贷款。将贷款发放给被标记为好客户的坏客户会导致更大的损失 […]
许多机器学习模型能够预测类别成员的概率或类似概率的分数。概率提供了评估和比较模型所需的粒度,特别是在不平衡分类问题上,其中使用ROC曲线等工具来解释预测,并使用ROC AUC指标来比较模型性能,两者都 […]