档案 | 中级数据科学

michael-held-w6xU735k6LU-unsplash

拓展思路:探索用于回归的树状模型

到目前为止,我们的讨论一直围绕着线性模型系列展开。从简单的线性回归到Lasso和Ridge等惩罚性技术,每种方法都为基于线性关系预测连续结果提供了宝贵的见解。当我们开始探索基于树的模型时,重要的是要重申,我们的重点仍然是 […]

继续阅读
lan-deng-eAWFUVw9OX0-unsplash

填补空白:机器学习中插补技术的比较指南

在我们之前对Lasso、Ridge和ElasticNet等惩罚回归模型的探索中,我们展示了这些模型如何有效地管理多重共线性,使我们能够利用更广泛的特征来提高模型性能。在此基础上,我们现在讨论数据预处理的另一个关键方面——处理缺失值。缺失数据可能会严重影响 […]

继续阅读
jeffrey-f-lin-SR5-47jmobs-unsplash

迈向成功:实施和优化惩罚模型

这篇帖子将使用Ames住房数据集演示Lasso、Ridge和ElasticNet模型的用法。这些模型在处理可能存在多重共线性的数据时特别有价值。我们利用这些高级回归技术来展示特征缩放和超参数调整如何提高模型性能。在这篇帖子中,我们将提供一个 […]

继续阅读
ryan-stone-sOLbaTbs5mU-unsplash

在大数据集中检测和克服完全多重共线性

统计学家和数据科学家面临的一个重大挑战是多重共线性,特别是其最严重的形式——完全多重共线性。这个问题经常在大数据集和许多特征中悄然存在,可能伪装自己并扭曲统计模型的结果。在这篇帖子中,我们探讨了检测、解决和改进受多重共线性影响模型的方法 […]

继续阅读
quinten-de-graaf-L4gN0aeaPY4-unsplash

管道的力量

机器学习项目通常需要执行一系列数据预处理步骤,然后是学习算法。单独管理这些步骤可能会很繁琐且容易出错。这就是sklearn管道发挥作用的地方。这篇帖子将探讨管道如何自动化机器学习工作流的关键方面,例如数据预处理、特征工程,以及 […]

继续阅读
joakim-aglo-rr-euqNcCf4-unsplash

捕捉曲线:多项式回归的高级建模

当我们在机器学习中分析变量之间的关系时,我们经常发现一条直线并不能说明全部情况。这就是多项式变换发挥作用的地方,它为我们的回归模型添加了层级,而不会使计算过程复杂化。通过将我们的特征转换为它们的多项式对应项——平方、立方和其他高次项——我们赋予线性模型 […]

继续阅读
zac-durant-_6HzPU9Hyfg-unsplash

解释线性回归模型中的系数

线性回归模型是机器学习的基础。仅仅拟合一条直线并读取系数就能说明很多问题。但是我们如何从这些模型中提取和解释系数,以了解它们对预测结果的影响呢?这篇帖子将通过探索各种场景来演示如何解释系数。我们将探索 […]

继续阅读
sutirta-budiman-eN6c3KWNXcA-unsplash

One Hot 编码:理解数据中的“热”

正确准备分类数据是机器学习中的一个基本步骤,尤其是在使用线性模型时。One Hot Encoding 作为一项关键技术脱颖而出,能够将分类变量转换为机器可理解的格式。这篇帖子将告诉您为什么不能直接使用分类变量,并演示了One Hot Encoding 在 […]

继续阅读

Machine Learning Mastery 是 Guiding Tech Media 的一部分,Guiding Tech Media 是一家领先的数字媒体出版商,专注于帮助人们了解技术。访问我们的公司网站以了解更多关于我们的使命和团队的信息。