XGBoost 是用于分类和回归问题的梯度提升的高效实现。它既快速又高效,在各种预测建模任务上表现良好,如果不是最好的话,它是数据科学竞赛获胜者(如 Kaggle 上的竞赛)的最爱。XGBoost 也可用于时间序列 [...]

XGBoost 是用于分类和回归问题的梯度提升的高效实现。它既快速又高效,在各种预测建模任务上表现良好,如果不是最好的话,它是数据科学竞赛获胜者(如 Kaggle 上的竞赛)的最爱。XGBoost 也可用于时间序列 [...]
k 折交叉验证程序是估计机器学习算法或配置在数据集上性能的标准方法。k 折交叉验证程序的单次运行可能会导致模型性能的估算不准确。不同的数据划分可能导致截然不同的结果。重复 k 折交叉验证提供了 [...]
k 折交叉验证程序是估计机器学习算法在数据集上性能的标准方法。k 的常见值是 10,但是我们怎么知道这个配置适合我们的数据集和算法呢?一种方法是探索不同 k 值对 [...] 的影响。
k 折交叉验证程序用于在对未用于训练的数据进行预测时估计机器学习模型的性能。此过程可用于在数据集上优化模型超参数,以及在比较和选择数据集模型时使用。当相同的交叉验证过程和 [...]
留一法交叉验证(Leave-One-Out Cross-Validation,简称 LOOCV)程序用于在机器学习算法用于对未用于训练模型的数据进行预测时,估计其性能。这是一个计算量很大的过程,尽管它能提供可靠且无偏的模型性能估计。虽然使用简单 [...]
训练-测试划分程序用于在机器学习算法用于对未用于训练模型的数据进行预测时,估计其性能。这是一个快速且易于执行的过程,其结果使您能够比较机器学习算法对您的预测 [...] 的性能。
许多机器学习模型在模型化之前对输入变量进行仔细转换或缩放时表现更好。将相同的 数据转换(如标准化和归一化)同样应用于所有输入变量,这是方便的,因此很常见。这可以在许多问题上取得良好结果。然而,通过仔细 [...] 可以获得更好的结果。
缺失值在用机器学习算法对分类和回归预测问题进行建模时可能会导致问题。一种常见的方法是用计算出的统计量(如列的平均值)替换缺失值。这允许数据集按正常方式进行建模,但没有向模型指示该行 [...]
用于机器学习的 scikit-learn Python 库提供了一套数据转换器,用于更改输入数据的尺度和分布,以及删除输入特征(列)。有许多简单的数据清理操作,例如去除异常值和去除观察值很少的列,这些操作通常是手动对数据进行的,需要 [...]
机器学习预测建模的性能取决于您的数据,而您的数据的好坏又取决于您为建模准备数据的方式。数据准备最常见的方法是研究数据集并回顾机器学习算法的期望,然后仔细选择最合适的数据 [...]