诸如分类和回归之类的预测建模机器学习项目,总是涉及某种形式的数据准备。数据集所需的具体数据准备取决于数据的具体情况,例如变量类型,以及将用于对其进行建模的算法,这些算法可能会施加期望或要求 […]

诸如分类和回归之类的预测建模机器学习项目,总是涉及某种形式的数据准备。数据集所需的具体数据准备取决于数据的具体情况,例如变量类型,以及将用于对其进行建模的算法,这些算法可能会施加期望或要求 […]
数据准备可能是任何机器学习项目中最为困难的步骤之一。原因是每个数据集都是不同的,并且高度特定于项目。尽管如此,在预测建模项目之间仍然有足够的共性,我们可以定义一系列您可能执行的步骤和子任务。 […]
在预测建模项目中,机器学习算法学习从输入变量到目标变量的映射。最常见的预测建模项目形式涉及所谓的结构化数据或表格数据。这是数据在电子表格或矩阵中的外观,每行代表一个示例,每列代表一个特征 […]
机器学习模型要求所有输入和输出变量都是数值的。这意味着如果您的数据包含分类数据,则必须在拟合和评估模型之前将其编码为数字。最流行的两种技术是顺序编码和独热编码。在本教程中,您将发现如何 […]
当数值输入变量被缩放到标准范围时,许多机器学习算法的表现更好。这包括使用输入加权和的算法,例如线性回归,以及使用距离度量的算法,例如 k-近邻。在建模之前缩放数值数据的两种最流行技术是归一化和标准化。 […]
特征选择是识别和选择与目标变量最相关的输入变量子集的过程。特征选择最简单的案例可能是输入变量为数值,目标变量为数值的回归预测建模。这是因为两者之间的关系强度 […]
特征选择是识别和选择与目标变量最相关的输入特征子集的过程。在使用皮尔逊相关系数等实值输入和输出数据时,特征选择通常很简单,但在处理数值输入数据和分类 […]
数据集可能存在缺失值,这会给许多机器学习算法带来问题。因此,在对预测任务进行建模之前,识别并替换输入数据中每列的缺失值是一个好习惯。这被称为缺失数据插补,或简称插补。一种复杂的方法涉及定义 […]
测试时增强,简称 TTA,是一种提高预测模型技能的技术。它通常用于提高深度学习模型在图像数据集上的预测性能,这些模型通过对测试数据集中每张图像的多个增强版本进行平均来做出预测。虽然在图像数据集和神经网络中很流行 […]
通常,预测建模任务的输入特征以意想不到的、通常是非线性的方式进行交互。这些交互可以通过学习算法来识别和建模。另一种方法是构建新特征来暴露这些交互,看看它们是否能提高模型性能。此外,像将输入变量提高到某个幂这样的转换可以 […]