为预测建模问题选择机器学习算法需要使用 k 折交叉验证来评估许多不同的模型和模型配置。超级学习器是一种集成机器学习算法,它结合了您可能为预测建模问题调查的所有模型和模型配置,并利用它们来进行预测……
为预测建模问题选择机器学习算法需要使用 k 折交叉验证来评估许多不同的模型和模型配置。超级学习器是一种集成机器学习算法,它结合了您可能为预测建模问题调查的所有模型和模型配置,并利用它们来进行预测……
贝叶斯定理为计算条件概率提供了一种原则性方法。它是一个看似简单的计算,提供了一种易于使用的用于直觉常常失效的场景的方法。培养对贝叶斯定理直觉的最佳方法是思考方程中各项的含义以及……
机器学习算法通常使用重采样技术进行评估,例如 k 折交叉验证。在 k 折交叉验证过程中,会根据未用于训练模型的数据的测试集进行预测。这些预测被称为“折外预测”,属于“样本外预测”的一种。折外预测在机器学习中起着重要作用……
贝叶斯最优分类器是一种概率模型,它为新样本做出最可能的预测。它使用贝叶斯定理来描述,该定理为计算条件概率提供了一种原则性方法。它也与最大后验概率密切相关:一种称为 MAP 的概率框架,用于查找……
鉴于 scikit-learn 和 Keras 等易于使用的机器学习库,为给定的预测建模数据集拟合许多不同的机器学习模型是直接的。因此,应用机器学习的挑战在于如何在一系列可用于您问题的模型中进行选择。朴素地,您可能认为模型……
经验分布函数提供了一种为不符合标准概率分布的数据样本建模和采样累积概率的方法。因此,它有时被称为经验累积分布函数,简称 ECDF。在本教程中,您将了解经验概率分布函数。完成本教程后,……
特征选择是在开发预测模型时减少输入变量数量的过程。减少输入变量的数量既可以降低建模的计算成本,在某些情况下还可以提高模型的性能。基于统计的特征选择方法涉及评估……
特征选择是识别和选择与目标变量最相关的输入特征子集的过程。在处理实值数据时,特征选择通常很简单,例如使用 Pearson 相关系数,但在处理分类数据时可能很困难。最常用的两种特征选择……
机器学习和深度学习模型(如 Keras 中的模型)要求所有输入和输出变量都是数字。这意味着如果您的数据包含分类数据,您必须在拟合和评估模型之前将其编码为数字。最流行的两种技术是整数编码和独热编码……
对训练数据集执行的任何数据准备工作也必须在将来的新数据集上执行,这一点至关重要。这可能包括在评估模型时的测试数据集,或者在使用模型进行预测时从域中获取的新数据。通常,在训练数据集上拟合的模型会被保存……