不平衡分类问题是指在预测类标签时,训练数据集中类标签的分布是倾斜的。许多现实世界的分类问题都存在类分布不平衡的情况,因此机器学习从业者熟悉处理这类问题非常重要。在本教程中, […]

不平衡分类问题是指在预测类标签时,训练数据集中类标签的分布是倾斜的。许多现实世界的分类问题都存在类分布不平衡的情况,因此机器学习从业者熟悉处理这类问题非常重要。在本教程中, […]
不平衡分类问题是指在预测类标签时,训练数据集中类标签的分布不相等。初学者在处理不平衡分类问题时面临的一个挑战是,特定的倾斜类分布意味着什么。例如,1:10 与 […] 之间的区别和影响是什么?
分类是一种预测建模问题,涉及为给定示例预测类标签。通常假设训练数据集中示例的分布在所有类之间是均匀的。在实践中,情况很少如此。那些类标签示例分布[…]的分类预测模型
分类预测建模涉及为给定观测值预测类标签。不平衡分类问题是分类问题的一个例子,其中已知类别的示例分布存在偏差或倾斜。分布可以从轻微偏差到严重不平衡,即其中一个示例在 […]
在拟合机器学习模型之前,您必须使用数据转换来准备您的原始数据。这是必需的,以确保您能最好地将预测建模问题的结构暴露给学习算法。当所有输入变量都属于同一类型时,应用缩放或编码分类变量等数据转换非常直接。 […]
使用深度学习进行预测建模是现代开发人员需要掌握的技能。TensorFlow 是由 Google 开发和维护的领先的开源深度学习框架。虽然直接使用 TensorFlow 可能具有挑战性,但现代的 tf.keras API 将 Keras 的简洁性和易用性带入了 TensorFlow 项目。使用 tf.keras 允许您设计 […]
初级机器学习从业者在小型真实数据集上进行练习非常重要。所谓的标准机器学习数据集包含实际的观测值,适合内存,并且经过充分研究和理解。因此,初级从业者可以使用它们来快速测试、探索和练习数据准备和建模技术。从业者可以确认 […]
计算变量或数字列表的平均值是机器学习中的常见操作。它是一个您可能每天直接使用的操作,例如在汇总数据时,或间接使用,例如在拟合模型时作为更大过程中的一个较小步骤。平均值是 […]的同义词。
数据准备是应用机器学习的重要组成部分。正确准备训练数据可能意味着平庸和非凡结果之间的差异,即使使用非常简单的线性算法也是如此。通过 scikit-learn 的 Pipeline 类,在 Python 中执行缩放等数据准备操作对于输入变量相对简单且已变得例行公事。 […]
机器学习算法具有超参数,这些超参数允许您根据特定数据集定制算法的行为。超参数不同于参数,参数是学习算法通过学习发现的模型内部系数或权重。与参数不同,超参数是在配置模型时由从业者指定的。通常,这是具有挑战性的 […]