当数值输入变量被缩放到标准范围时,许多机器学习算法的性能会更好。这包括使用输入加权和的算法,如线性回归,以及使用距离度量的算法,如 K 近邻。标准化是一种流行的缩放技术,它从值中减去均值并除以 [...]

当数值输入变量被缩放到标准范围时,许多机器学习算法的性能会更好。这包括使用输入加权和的算法,如线性回归,以及使用距离度量的算法,如 K 近邻。标准化是一种流行的缩放技术,它从值中减去均值并除以 [...]
递归特征消除,简称 RFE,是一种流行的特征选择算法。RFE 之所以流行,是因为它易于配置和使用,而且在选择训练数据集中与目标变量预测最相关或最相关的特征(列)方面非常有效。有两个重要的配置选项 [...]
数值输入变量可能具有高度偏斜或非标准的分布。这可能是由于数据中的异常值、多峰分布、高度指数分布等原因造成的。许多机器学习算法在数值输入变量具有标准概率分布时更喜欢或表现更好。离散化变换提供了一种自动改变数值 [...]
数值输入变量可能具有高度偏斜或非标准的分布。这可能是由于数据中的异常值、多峰分布、高度指数分布等原因造成的。许多机器学习算法更喜欢或在数值输入变量甚至回归情况下的输出变量具有标准概率分布时表现更好,例如 [...]
像线性回归和高斯朴素贝叶斯这样的机器学习算法假设数值变量具有高斯概率分布。您的数据可能没有高斯分布,而是具有高斯类似分布(例如,接近高斯但有异常值或偏斜)或完全不同的分布(例如,指数分布)。因此,您可能 [...]
数据集可能包含缺失值,这会给许多机器学习算法带来问题。因此,在对预测任务进行建模之前,识别并替换每个输入数据列的缺失值是一种好习惯。这称为缺失数据插补,或简称插补。一种流行的数据 [...]
减少预测模型的输入变量数量称为降维。更少的输入变量可以产生更简单的预测模型,在预测新数据时可能具有更好的性能。线性判别分析,简称 LDA,是一种用于多类别分类的预测建模算法。它也可以 [...]
减少预测模型的输入变量数量称为降维。更少的输入变量可以产生更简单的预测模型,在预测新数据时可能具有更好的性能。也许机器学习中最流行的降维技术是奇异值分解,简称 SVD [...]
减少预测模型的输入变量数量称为降维。更少的输入变量可以产生更简单的预测模型,在预测新数据时可能具有更好的性能。也许机器学习中最流行的降维技术是主成分分析,简称 PCA [...]
数据集的输入变量或特征数量称为其维度。降维是指用于减少数据集中输入变量数量的技术。更多的输入特征通常会使预测建模任务更具挑战性,通常称为维度灾难。高维统计 [...]