Box and Whisker Plot of Number of Imputation Iterations on the Horse Colic Dataset

机器学习中缺失值的迭代估算

数据集可能包含缺失值,这会给许多机器学习算法带来问题。因此,在对预测任务进行建模之前,最好识别并替换输入数据中每个列的缺失值。这被称为缺失数据插补,或简称插补。一种复杂的处理方法是定义[…]

继续阅读
How to Use Polynomial Features Transforms for Machine Learning

如何在机器学习中使用多项式特征变换

在预测建模任务中,输入特征之间经常以出乎意料且通常是非线性的方式相互作用。这些交互作用可以被学习算法识别和建模。另一种方法是创建新特征来暴露这些交互作用,看看它们是否能提高模型性能。此外,像将输入变量提高到某个幂次的变换[…]

继续阅读
Histogram of Data With a Gaussian Distribution

如何在机器学习中使用离散化变换

数值输入变量可能具有高度偏斜或非标准化的分布。这可能是由于数据中的异常值、多峰分布、高度指数分布等原因造成的。许多机器学习算法在数值输入变量具有标准概率分布时更喜欢或表现更好。离散化变换提供了一种自动改变数值[…]

继续阅读
Histogram of Skewed Gaussian Data After Quantile Transform

如何在机器学习中使用分位数变换

数值输入变量可能具有高度偏斜或非标准化的分布。这可能是由于数据中的异常值、多峰分布、高度指数分布等原因造成的。许多机器学习算法在数值输入变量甚至回归情况下的输出变量具有标准概率分布时更喜欢或表现更好,例如[…]

继续阅读
Histogram of Skewed Gaussian Data After Power Transform

如何使用幂变换进行机器学习

像线性回归和高斯朴素贝叶斯这样的机器学习算法假定数值变量具有高斯概率分布。你的数据可能没有高斯分布,而是具有类似高斯的分布(例如,接近高斯但带有异常值或偏斜)或完全不同的分布(例如,指数分布)。因此,你可能需要[…]

继续阅读

Machine Learning Mastery 是 Guiding Tech Media 的一部分,Guiding Tech Media 是一家领先的数字媒体出版商,专注于帮助人们了解技术。访问我们的公司网站以了解更多关于我们的使命和团队的信息。