归档 | 数据准备

Box and Whisker Plot of Number of Imputation Iterations on the Horse Colic Dataset

机器学习中缺失值的迭代估算

数据集可能存在缺失值,这会给许多机器学习算法带来问题。因此,在对预测任务进行建模之前,最好识别并替换输入数据中每一列的缺失值。这被称为缺失数据插补,或简称插补。一种复杂的方法包括定义 […]

继续阅读
How to Use Polynomial Features Transforms for Machine Learning

如何在机器学习中使用多项式特征变换

通常,预测建模任务的输入特征会以出乎意料且通常是非线性方式相互作用。这些相互作用可以被学习算法识别和建模。另一种方法是设计新特征来暴露这些相互作用,看看它们是否能提高模型性能。此外,诸如将输入变量提高到某个幂次的转换 [...]。

继续阅读
Histogram of Data With a Gaussian Distribution

如何在机器学习中使用离散化变换

数值输入变量可能具有高度偏斜或非标准分布。这可能由数据中的异常值、多模态分布、高度指数分布等引起。许多机器学习算法更喜欢或在数值输入变量具有标准概率分布时表现更好。离散化转换提供了一种自动改变数值 […] 的方法。

继续阅读
Histogram of Skewed Gaussian Data After Quantile Transform

如何在机器学习中使用分位数变换

数值输入变量可能具有高度偏斜或非标准分布。这可能由数据中的异常值、多模态分布、高度指数分布等引起。许多机器学习算法更喜欢或在数值输入变量甚至回归情况下的输出变量具有标准概率分布(例如 [...])时表现更好。

继续阅读

Machine Learning Mastery 是 Guiding Tech Media 的一部分,Guiding Tech Media 是一家领先的数字媒体出版商,专注于帮助人们了解技术。访问我们的公司网站以了解更多关于我们的使命和团队的信息。