归档 | 数据准备

How to Use Statistics to Identify Outliers in Data

如何移除机器学习的离群值

在建模时,清理数据样本很重要,以确保观测值能最好地代表问题。有时数据集可能包含超出预期范围或与其他数据不同的极端值。这些被称为异常值,通常机器学习建模和模型技能在一般情况下 […]

继续阅读
How to Handle Missing Values with Python

如何使用 Python 处理缺失数据

真实世界的数据经常包含缺失值。数据可能因为未记录的观测、不正确或不一致的数据输入等原因而含有缺失值。许多机器学习算法不支持带有缺失值的数据。因此,处理缺失数据对于准确的数据分析和构建鲁棒的模型至关重要。在本教程中,您将学习如何 […]

继续阅读
Data Leakage in Machine Learning

机器学习中的数据泄露

数据泄露是在开发预测模型时机器学习中的一个重大问题。数据泄露是指在创建模型时使用了训练数据集以外的信息。在本帖中,您将发现预测建模中的数据泄露问题。阅读本帖后,您将了解:什么是数据泄露 […]

继续阅读
feature selection

特征选择简介

应该使用哪些特征来创建预测模型?这是一个难题,可能需要对问题领域有深入的了解。可以自动选择数据中对您正在处理的问题最有帮助或最相关的特征。这个过程称为特征 […]

继续阅读

Machine Learning Mastery 是 Guiding Tech Media 的一部分,Guiding Tech Media 是一家领先的数字媒体出版商,专注于帮助人们了解技术。访问我们的公司网站以了解更多关于我们的使命和团队的信息。