像线性回归和高斯朴素贝叶斯这样的机器学习算法假设数值变量具有高斯概率分布。您的数据可能不具有高斯分布,而可能具有类似高斯的分布(例如,接近高斯但带有异常值或偏度)或完全不同的分布(例如,指数分布)。因此,您可能需要 […]

像线性回归和高斯朴素贝叶斯这样的机器学习算法假设数值变量具有高斯概率分布。您的数据可能不具有高斯分布,而可能具有类似高斯的分布(例如,接近高斯但带有异常值或偏度)或完全不同的分布(例如,指数分布)。因此,您可能需要 […]
数据集可能存在缺失值,这可能导致许多机器学习算法出现问题。因此,在对预测任务进行建模之前,识别并替换输入数据中每列的缺失值是一种良好的做法。这被称为缺失数据插补,或简称插补。一种流行的数据 [...]
为预测模型减少输入变量的数量称为降维。更少的输入变量可以产生一个更简单的预测模型,该模型在对新数据进行预测时可能具有更好的性能。线性判别分析,简称 LDA,是一种多类别分类的预测建模算法。它也可以 […]
为预测模型减少输入变量的数量称为降维。更少的输入变量可以产生一个更简单的预测模型,该模型在对新数据进行预测时可能具有更好的性能。也许机器学习中最流行的降维技术是奇异值分解,简称 SVD […]
为预测模型减少输入变量的数量称为降维。更少的输入变量可以产生一个更简单的预测模型,该模型在对新数据进行预测时可能具有更好的性能。也许机器学习中最流行的降维技术是主成分分析,简称 PCA […]
数据集的输入变量或特征的数量称为其维度。降维是指减少数据集中输入变量数量的技术。更多的输入特征通常会使预测建模任务更难建模,通常称为维度灾难。高维统计 […]
特征重要性是指根据输入特征对预测目标变量的有用程度为其分配分数的技巧。特征重要性分数有许多类型和来源,尽管流行的例子包括统计相关性分数、作为线性模型一部分计算的系数、决策树和排列重要性分数。特征重要性 […]
数据清洗是任何机器学习项目中至关重要的一步。在表格数据中,您可以使用许多不同的统计分析和数据可视化技术来探索数据,以便执行可能需要执行的数据清洗操作。在转向复杂方法之前,有一些非常基本 […]
在拟合机器学习模型之前,您必须使用数据转换来准备原始数据。这是必需的,以确保您能最好地将预测建模问题的结构暴露给学习算法。当所有输入变量都是同一类型时,应用缩放或编码分类变量等数据转换是直接的 […]
数据准备是应用机器学习的重要组成部分。正确准备训练数据可能是平庸结果和非凡结果之间的区别,即使是对于非常简单的线性算法。执行数据准备操作,例如缩放,对于输入变量来说相对简单,并且通过 Pipeline scikit-learn 类在 Python 中已成为常规 […]