归档 | 数据准备

Histogram of Skewed Gaussian Data After Power Transform

如何使用幂变换进行机器学习

像线性回归和高斯朴素贝叶斯这样的机器学习算法假设数值变量具有高斯概率分布。您的数据可能不具有高斯分布,而可能具有类似高斯的分布(例如,接近高斯但带有异常值或偏度)或完全不同的分布(例如,指数分布)。因此,您可能需要 […]

继续阅读
Box and Whisker Plot of Statistical Imputation Strategies Applied to the Horse Colic Dataset

机器学习中缺失值的统计插补

数据集可能存在缺失值,这可能导致许多机器学习算法出现问题。因此,在对预测任务进行建模之前,识别并替换输入数据中每列的缺失值是一种良好的做法。这被称为缺失数据插补,或简称插补。一种流行的数据 [...]

继续阅读
Box Plot of LDA Number of Components vs. Classification Accuracy

Python 中用于降维的线性判别分析

为预测模型减少输入变量的数量称为降维。更少的输入变量可以产生一个更简单的预测模型,该模型在对新数据进行预测时可能具有更好的性能。线性判别分析,简称 LDA,是一种多类别分类的预测建模算法。它也可以 […]

继续阅读
A Gentle Introduction to Dimensionality Reduction for Machine Learning

机器学习降维简介

数据集的输入变量或特征的数量称为其维度。降维是指减少数据集中输入变量数量的技术。更多的输入特征通常会使预测建模任务更难建模,通常称为维度灾难。高维统计 […]

继续阅读
Bar Chart of XGBClassifier Feature Importance Scores

如何使用 Python 计算特征重要性

特征重要性是指根据输入特征对预测目标变量的有用程度为其分配分数的技巧。特征重要性分数有许多类型和来源,尽管流行的例子包括统计相关性分数、作为线性模型一部分计算的系数、决策树和排列重要性分数。特征重要性 […]

继续阅读
How to Transform Target Variables for Regression With Scikit-Learn

如何在 Python 中转换回归的目标变量

数据准备是应用机器学习的重要组成部分。正确准备训练数据可能是平庸结果和非凡结果之间的区别,即使是对于非常简单的线性算法。执行数据准备操作,例如缩放,对于输入变量来说相对简单,并且通过 Pipeline scikit-learn 类在 Python 中已成为常规 […]

继续阅读

Machine Learning Mastery 是 Guiding Tech Media 的一部分,Guiding Tech Media 是一家领先的数字媒体出版商,专注于帮助人们了解技术。访问我们的公司网站以了解更多关于我们的使命和团队的信息。