Box and Whisker Plot of Imputation Number of Neighbors for the Horse Colic Dataset

机器学习中缺失值的 kNN 估算

数据集可能包含缺失值,这会给许多机器学习算法带来问题。因此,在对预测任务进行建模之前,最好识别并替换输入数据中每列的缺失值。这称为缺失数据插补,或简称插补。一种流行的处理缺失值的方法是 […]

继续阅读
Overview of Data Transform Techniques

机器学习数据准备技术巡览

预测建模机器学习项目,如分类和回归,总是涉及某种形式的数据准备。特定数据集所需的数据准备取决于数据的具体情况,例如变量类型,以及将用于建模的算法,这些算法可能对[…]施加期望或要求。

继续阅读
What Is Data Preparation in a Machine Learning Project

机器学习项目中的数据准备是什么

数据准备可能是任何机器学习项目中最为困难的步骤之一。原因是每个数据集都不同,并且高度特定于项目。尽管如此,预测建模项目之间有足够的共性,我们可以定义一个松散的步骤和子任务序列,您很可能会执行这些步骤和子任务。 […]

继续阅读
Ordinal and One-Hot Encoding Transforms for Machine Learning

分类数据的序数和独热编码

机器学习模型要求所有输入和输出变量都为数值。这意味着如果您的数据包含类别数据,则在拟合和评估模型之前必须将其编码为数字。最流行的两种技术是序数编码和独热编码。在本教程中,您将发现如何 […]

继续阅读

Machine Learning Mastery 是 Guiding Tech Media 的一部分,Guiding Tech Media 是一家领先的数字媒体出版商,专注于帮助人们了解技术。访问我们的公司网站以了解更多关于我们的使命和团队的信息。