当数值输入变量被缩放到标准范围时,许多机器学习算法的性能会更好。这包括使用输入加权和的算法,例如线性回归,以及使用距离度量的算法,例如 k-近邻。在建模之前缩放数值数据的两种最流行技术是归一化和标准化。 […]

当数值输入变量被缩放到标准范围时,许多机器学习算法的性能会更好。这包括使用输入加权和的算法,例如线性回归,以及使用距离度量的算法,例如 k-近邻。在建模之前缩放数值数据的两种最流行技术是归一化和标准化。 […]
特征选择是识别和选择与目标变量最相关的输入变量子集的过程。也许特征选择最简单的案例是存在数值输入变量和回归预测建模的数值目标。这是因为它们之间的关系强度 […]
特征选择是识别和选择与目标变量最相关的输入特征子集的过程。在处理实值输入和输出数据(例如使用 Pearson 相关系数)时,特征选择通常很简单,但在处理数值输入数据和分类 [...] 数据时可能会很困难。
数据集可能存在缺失值,这会给许多机器学习算法带来问题。因此,在对预测任务进行建模之前,最好识别并替换输入数据中每一列的缺失值。这被称为缺失数据插补,或简称插补。一种复杂的方法包括定义 […]
测试时增强,简称 TTA,是一种提高预测模型技能的技术。它通常用于在图像数据集上提高深度学习模型的预测性能,其中预测是对测试数据集中每个图像的多个增强版本的平均值。尽管在图像数据集和神经网络 [...] 中很流行。
通常,预测建模任务的输入特征会以出乎意料且通常是非线性方式相互作用。这些相互作用可以被学习算法识别和建模。另一种方法是设计新特征来暴露这些相互作用,看看它们是否能提高模型性能。此外,诸如将输入变量提高到某个幂次的转换 [...]。
当数值输入变量被缩放到标准范围时,许多机器学习算法的性能会更好。这包括使用输入加权和的算法,例如线性回归,以及使用距离度量的算法,例如 k-近邻。标准化是一种流行的缩放技术,它从值中减去均值并除以 […]
递归特征消除,简称 RFE,是一种流行的特征选择算法。RFE 流行是因为它易于配置和使用,并且能有效地选择训练数据集中对目标变量预测最相关(或最相关)的特征(列)。有两个重要的配置选项 […]
数值输入变量可能具有高度偏斜或非标准分布。这可能由数据中的异常值、多模态分布、高度指数分布等引起。许多机器学习算法更喜欢或在数值输入变量具有标准概率分布时表现更好。离散化转换提供了一种自动改变数值 […] 的方法。
数值输入变量可能具有高度偏斜或非标准分布。这可能由数据中的异常值、多模态分布、高度指数分布等引起。许多机器学习算法更喜欢或在数值输入变量甚至回归情况下的输出变量具有标准概率分布(例如 [...])时表现更好。