作者归档 | Jason Brownlee

Histogram of Data With a Gaussian Distribution

如何在机器学习中使用离散化变换

数值输入变量可能具有高度偏斜或非标准的分布。这可能是由于数据中的异常值、多峰分布、高度指数分布等原因造成的。许多机器学习算法在数值输入变量具有标准概率分布时更喜欢或表现更好。离散化变换提供了一种自动改变数值 [...]

继续阅读
Histogram of Skewed Gaussian Data After Quantile Transform

如何在机器学习中使用分位数变换

数值输入变量可能具有高度偏斜或非标准的分布。这可能是由于数据中的异常值、多峰分布、高度指数分布等原因造成的。许多机器学习算法更喜欢或在数值输入变量甚至回归情况下的输出变量具有标准概率分布时表现更好,例如 [...]

继续阅读
Histogram of Skewed Gaussian Data After Power Transform

如何使用幂变换进行机器学习

像线性回归和高斯朴素贝叶斯这样的机器学习算法假设数值变量具有高斯概率分布。您的数据可能没有高斯分布,而是具有高斯类似分布(例如,接近高斯但有异常值或偏斜)或完全不同的分布(例如,指数分布)。因此,您可能 [...]

继续阅读
Box and Whisker Plot of Statistical Imputation Strategies Applied to the Horse Colic Dataset

机器学习中缺失值的统计插补

数据集可能包含缺失值,这会给许多机器学习算法带来问题。因此,在对预测任务进行建模之前,识别并替换每个输入数据列的缺失值是一种好习惯。这称为缺失数据插补,或简称插补。一种流行的数据 [...]

继续阅读
A Gentle Introduction to Dimensionality Reduction for Machine Learning

机器学习降维简介

数据集的输入变量或特征数量称为其维度。降维是指用于减少数据集中输入变量数量的技术。更多的输入特征通常会使预测建模任务更具挑战性,通常称为维度灾难。高维统计 [...]

继续阅读

Machine Learning Mastery 是 Guiding Tech Media 的一部分,Guiding Tech Media 是一家领先的数字媒体出版商,专注于帮助人们了解技术。访问我们的公司网站以了解更多关于我们的使命和团队的信息。