档案 | 中级数据科学

拓展思路：探索用于回归的树状模型

作者： Vinod Chugani 发布于 2025年2月28日所属分类：中级数据科学 0

到目前为止，我们的讨论一直围绕着线性模型系列展开。从简单的线性回归到Lasso和Ridge等惩罚性技术，每种方法都为基于线性关系预测连续结果提供了宝贵的见解。当我们开始探索基于树的模型时，重要的是要重申，我们的重点仍然是 […]

作者： Vinod Chugani 发布于 2025年2月28日所属分类：中级数据科学 0

在我们之前对Lasso、Ridge和ElasticNet等惩罚回归模型的探索中，我们展示了这些模型如何有效地管理多重共线性，使我们能够利用更广泛的特征来提高模型性能。在此基础上，我们现在讨论数据预处理的另一个关键方面——处理缺失值。缺失数据可能会严重影响 […]

作者： Vinod Chugani 发布于 2025年2月28日所属分类：中级数据科学 0

这篇帖子将使用Ames住房数据集演示Lasso、Ridge和ElasticNet模型的用法。这些模型在处理可能存在多重共线性的数据时特别有价值。我们利用这些高级回归技术来展示特征缩放和超参数调整如何提高模型性能。在这篇帖子中，我们将提供一个 […]

作者： Vinod Chugani 发布于 2025年2月28日所属分类：中级数据科学 0

统计学家和数据科学家面临的一个重大挑战是多重共线性，特别是其最严重的形式——完全多重共线性。这个问题经常在大数据集和许多特征中悄然存在，可能伪装自己并扭曲统计模型的结果。在这篇帖子中，我们探讨了检测、解决和改进受多重共线性影响模型的方法 […]

作者： Vinod Chugani 发布于 2025年2月28日所属分类：中级数据科学 2

机器学习项目通常需要执行一系列数据预处理步骤，然后是学习算法。单独管理这些步骤可能会很繁琐且容易出错。这就是sklearn管道发挥作用的地方。这篇帖子将探讨管道如何自动化机器学习工作流的关键方面，例如数据预处理、特征工程，以及 […]

作者： Vinod Chugani 发布于 2025年2月28日所属分类：中级数据科学 0

当我们在机器学习中分析变量之间的关系时，我们经常发现一条直线并不能说明全部情况。这就是多项式变换发挥作用的地方，它为我们的回归模型添加了层级，而不会使计算过程复杂化。通过将我们的特征转换为它们的多项式对应项——平方、立方和其他高次项——我们赋予线性模型 […]

作者： Vinod Chugani 发布于 2025年6月6日所属分类：中级数据科学 2

线性回归模型是机器学习的基础。仅仅拟合一条直线并读取系数就能说明很多问题。但是我们如何从这些模型中提取和解释系数，以了解它们对预测结果的影响呢？这篇帖子将通过探索各种场景来演示如何解释系数。我们将探索 […]

作者： Vinod Chugani 发布于 2025年2月28日所属分类：中级数据科学 0

正确准备分类数据是机器学习中的一个基本步骤，尤其是在使用线性模型时。One Hot Encoding 作为一项关键技术脱颖而出，能够将分类变量转换为机器可理解的格式。这篇帖子将告诉您为什么不能直接使用分类变量，并演示了One Hot Encoding 在 […]

作者： Vinod Chugani 发布于 2025年2月28日所属分类：中级数据科学 0

与奥卡姆剃刀原理一致，从简单入手通常能带来最深刻的见解，尤其是在构建预测模型时。在这篇帖子中，我们将使用Ames住房数据集，首先找出那些独自闪耀的关键特征。然后，我们将一步步叠加这些见解，观察它们的组合如何 […]

作者： Vinod Chugani 发布于 2025年2月28日所属分类：中级数据科学 0

为了更好地理解房价，模型中的简洁和清晰是关键。这篇帖子的目的是演示特征选择和工程中简单而强大的技术如何能够创建有效、简单的线性回归模型。我们使用Ames数据集，利用顺序特征选择器（SFS）来识别 […]