数据集可能包含缺失值,这会给许多机器学习算法带来问题。因此,在对预测任务进行建模之前,识别并替换输入数据中每一列的缺失值是一个很好的做法。这被称为缺失数据插补,或简称插补。一种流行的数据处理方法 [...]

数据集可能包含缺失值,这会给许多机器学习算法带来问题。因此,在对预测任务进行建模之前,识别并替换输入数据中每一列的缺失值是一个很好的做法。这被称为缺失数据插补,或简称插补。一种流行的数据处理方法 [...]
为预测模型减少输入变量的数量被称为降维。更少的输入变量可以产生更简单的预测模型,在对新数据进行预测时可能具有更好的性能。线性判别分析,或简称 LDA,是一种用于多类分类的预测建模算法。它也可以 [...]
为预测模型减少输入变量的数量被称为降维。更少的输入变量可以产生更简单的预测模型,在对新数据进行预测时可能具有更好的性能。在机器学习中,降维更常用的技术是奇异值分解,或简称 SVD [...]
为预测模型减少输入变量的数量被称为降维。更少的输入变量可以产生更简单的预测模型,在对新数据进行预测时可能具有更好的性能。在机器学习中,最常用的降维技术也许是主成分分析,或简称 PCA [...]
数据集的输入变量或特征的数量被称为其维度。降维指的是减少数据集中输入变量数量的技术。更多的输入特征通常会使预测建模任务更难建模,通常被称为“维度灾难”。高维统计 [...]
梯度提升机是一种强大的集成机器学习算法,它使用决策树。提升是一种通用的集成技术,它涉及到按顺序向集成中添加模型,后续模型会纠正先前模型的性能。AdaBoost 是第一个兑现提升承诺的算法。梯度提升是一种泛化 [...]
提升是一类集成机器学习算法,涉及到组合许多弱学习器的预测。弱学习器是一种模型,它非常简单,尽管在数据集上具有一定的技能。在实用算法能够被开发出来之前,提升是一个理论概念,而 AdaBoost(自适应提升)算法 [...]
机器学习涉及机器学习算法和模型的应用。对于初学者来说,这非常令人困惑,因为“机器学习算法”经常与“机器学习模型”互换使用。它们是同一事物还是不同的事物?作为一名开发人员,您对排序算法和搜索算法等“算法”的直觉将有助于澄清 [...]
Bagging 是一种集成机器学习算法,它组合了许多决策树的预测。它的实现也很容易,因为它只有少数几个关键的超参数,并且有合理的启发式方法来配置这些超参数。Bagging 在一般情况下表现良好,并为一整套决策树算法 [...]
自由度是统计学和工程学中的一个重要概念。它经常被用来总结计算统计量(如样本统计量或统计假设检验)所使用的值的数量。在机器学习中,自由度可能指的是模型中参数的数量 [...]