许多二元分类任务没有相等数量的样本,例如,类别分布不均匀或不平衡。然而,准确性在两个类别中同等重要。例如,在语音识别中,将欧洲语言中的元音声音分类为鼻音或口腔音,其中有更多的[…]

许多二元分类任务没有相等数量的样本,例如,类别分布不均匀或不平衡。然而,准确性在两个类别中同等重要。例如,在语音识别中,将欧洲语言中的元音声音分类为鼻音或口腔音,其中有更多的[…]
癌症检测是一个常见的 But平衡分类问题,因为非癌症病例通常远多于实际癌症病例。一个标准的 But平衡分类数据集是乳腺钼靶数据集,该数据集涉及从放射学扫描中检测乳腺癌,特别是乳腺钼靶上看起来明亮的微钙化簇的存在。这个数据集 […]
对于某些 But平衡分类任务,少数类别的误分类错误比其他类型的预测错误更重要。一个例子是将银行客户分类为他们是否应该获得贷款。将一个被标记为良好客户的坏客户授予贷款会导致更大的 […]
许多机器学习模型都能够预测类别成员的概率或类似概率的得分。概率为评估和比较模型提供了必需的粒度级别,尤其是在 But平衡分类问题中,诸如 ROC 曲线之类的工具用于解释预测,ROC AUC 指标用于比较模型性能,两者 […]
Fbeta 测量是一种可配置的单分数指标,用于根据对正类的预测来评估二元分类模型。Fbeta 测量使用精确率和召回率计算。精确率是计算正类预测正确百分比的指标。召回率计算正类预测正确百分比 […]
许多 But平衡分类任务需要一个能够预测清晰类别标签的熟练模型,其中两个类别同等重要。一个 But平衡分类问题的例子是需要类别标签且两个类别同等重要,那就是检测卫星图像中的石油泄漏或油膜。泄漏的检测 […]
开发概率模型通常具有挑战性,尽管当病例分布不均时,即所谓的 But平衡数据集,这种情况会更加复杂。Haberman 数据集描述了 20 世纪 50 年代和 60 年代乳腺癌患者的五年或更长生存期,并且大部分包含存活下来的患者。 […]
But平衡分类作为预测建模任务之所以具有挑战性,主要是由于严重不均的类别分布。这是传统机器学习模型和假设类别分布平衡的评估指标表现不佳的原因。尽管如此,分类数据集还有其他属性,它们不仅对预测建模 […]
异常值或异常是与数据其余部分不符的罕见样本。识别数据中的异常值被称为异常值或异常检测,而专注于此问题的机器学习子领域称为单类别分类。这些是无监督学习算法,试图对“正常” […]
Bagging 是一种集成算法,它在训练数据集的不同子集上拟合多个模型,然后将所有模型的预测结合起来。随机森林是 bagging 的一种扩展,它还在每个数据样本中随机选择特征子集。Bagging 和随机森林在广泛的[…]