特征选择是在开发预测模型时减少输入变量数量的过程。希望减少输入变量的数量,以降低建模的计算成本,并在某些情况下提高模型的性能。基于统计的特征选择方法包括评估变量之间的关系 […]

特征选择是在开发预测模型时减少输入变量数量的过程。希望减少输入变量的数量,以降低建模的计算成本,并在某些情况下提高模型的性能。基于统计的特征选择方法包括评估变量之间的关系 […]
特征选择是识别和选择与目标变量最相关的输入特征子集的过程。在处理实值数据时,特征选择通常很简单,例如使用 Pearson 相关系数,但在处理分类数据时可能具有挑战性。最常用的两种特征选择 […]
在训练数据集上执行的任何数据准备操作,在未来也必须对新数据集执行,这一点至关重要。这可能包括在评估模型时使用的测试数据集,或者在使用模型进行预测时从域中获取的新数据。通常,在训练数据集上拟合好的模型会被保存 […]
在建模时,清理数据样本很重要,以确保观测值能最好地代表问题。有时数据集可能包含超出预期范围或与其他数据不同的极端值。这些被称为异常值,通常机器学习建模和模型技能在一般情况下 […]
您使用的数据以及使用数据的方式,很可能会决定您预测建模问题的成功与否。数据和您对问题的界定,可能是您项目中最大的杠杆点。选择错误的数据或错误的问题界定,可能导致模型性能不佳 […]
入门应用机器学习可能很困难,尤其是在处理真实世界数据时。通常,机器学习教程会建议或要求您在拟合机器学习模型之前以特定方式准备数据。一个很好的例子是对分类数据使用独热编码。为什么需要独热编码? […]
真实世界的数据经常包含缺失值。数据可能因为未记录的观测、不正确或不一致的数据输入等原因而含有缺失值。许多机器学习算法不支持带有缺失值的数据。因此,处理缺失数据对于准确的数据分析和构建鲁棒的模型至关重要。在本教程中,您将学习如何 […]
数据泄露是在开发预测模型时机器学习中的一个重大问题。数据泄露是指在创建模型时使用了训练数据集以外的信息。在本帖中,您将发现预测建模中的数据泄露问题。阅读本帖后,您将了解:什么是数据泄露 […]
应该使用哪些特征来创建预测模型?这是一个难题,可能需要对问题领域有深入的了解。可以自动选择数据中对您正在处理的问题最有帮助或最相关的特征。这个过程称为特征 […]
特征工程是一个非正式的主题,但它被公认是应用机器学习成功的关键。在创建本指南时,我进行了广泛深入的研究,并综合了我能找到的所有材料。您将发现什么是特征工程、它解决什么问题、为什么它很重要、如何 […]