博客 - 第 75 页，共 168 页

用于评估机器学习算法的训练-测试划分

作者： Jason Brownlee 于 2020 年 8 月 26 日在 Python Machine Learning 79

训练-测试拆分程序用于估计机器学习算法在用于预测未使用模型训练的数据时的性能。这是一个快速简便的执行程序，其结果可用于比较您的预测 [...] 机器学习算法的性能。

作者： Jason Brownlee 于 2020 年 8 月 17 日在 Data Preparation 14

许多机器学习模型在输入变量在建模前经过仔细转换或缩放后表现更好。应用相同的特征转换（例如标准化和归一化）到所有输入变量既方便又常见。这可以在许多问题上取得良好的效果。尽管如此，通过仔细 [...] 仍可取得更好的结果。

作者： Jason Brownlee 于 2020 年 8 月 17 日在 Data Preparation 7

缺失值在用机器学习算法对分类和回归预测问题进行建模时可能会引起问题。一种常见的方法是用计算出的统计量（例如列的平均值）替换缺失值。这允许数据集按正常方式进行建模，但没有向模型指示该行 [...]。

作者： Jason Brownlee 于 2020 年 7 月 19 日在 Data Preparation 24

用于机器学习的 scikit-learn Python 库提供了一套数据转换方法，用于更改输入数据的缩放和分布，以及删除输入特征（列）。有许多简单的数据清理操作，例如删除异常值和删除观察值很少的列，这些操作通常是手动对数据执行的，需要 [...]。

作者： Jason Brownlee 于 2020 年 8 月 17 日在 Data Preparation 11

机器学习预测建模的性能取决于您的数据质量，而数据质量又取决于您为建模准备数据的方式。数据准备最常见的方法是研究一个数据集并回顾机器学习算法的预期，然后仔细选择最合适的数据 [...]。

作者： Jason Brownlee 于 2020 年 7 月 17 日在 Data Preparation 42

在预测建模项目中，可以采用各种不同类型的数据准备技术。在某些情况下，数据的分布或机器学习模型的特定要求可能表明需要进行数据准备，尽管由于 [...] 的复杂性和高维度性，这种情况很少见。

作者： Jason Brownlee 于 2020 年 8 月 17 日在 Data Preparation 20

降维是一种无监督学习技术。尽管如此，它可以用作监督学习算法在分类和回归预测建模数据集上的机器学习算法的数据转换预处理步骤。有许多降维算法可供选择，并且没有一种算法是所有情况下的最佳选择。相反，它是一个很好的 [...]。

作者： Jason Brownlee 于 2020 年 8 月 17 日在 Data Preparation 70

分类或回归数据集中异常值的存在可能导致模型拟合不佳和预测性能下降。鉴于输入变量数量众多，对于大多数机器学习数据集而言，使用简单的统计方法识别和删除异常值是具有挑战性的。相反，可以在建模流水线中使用自动异常值检测方法 [...]。

作者： Jason Brownlee 于 2020 年 8 月 17 日在 Data Preparation 33

作者： Jason Brownlee 于 2020 年 7 月 15 日在 Data Preparation 6

数据准备是预测建模项目的重要组成部分。正确应用数据准备可以将原始数据转换为一种表示形式，使学习算法能够充分利用数据并做出有技能的预测。问题在于选择一种或一系列转换，从而产生有用的表示 [...]。