在我们之前对 Lasso、Ridge 和 ElasticNet 等正则化回归模型进行的探讨中,我们展示了这些模型在处理多重共线性方面的有效性,使我们能够利用更广泛的特征来提升模型性能。在此基础上,我们现在将解决数据预处理中的另一个关键问题——处理缺失值。缺失数据会严重影响 […]

在我们之前对 Lasso、Ridge 和 ElasticNet 等正则化回归模型进行的探讨中,我们展示了这些模型在处理多重共线性方面的有效性,使我们能够利用更广泛的特征来提升模型性能。在此基础上,我们现在将解决数据预处理中的另一个关键问题——处理缺失值。缺失数据会严重影响 […]
本文将使用 Ames 房屋数据集演示 Lasso、Ridge 和 ElasticNet 模型的使用。当处理可能存在多重共线性的数据时,这些模型尤其有价值。我们利用这些高级回归技术来展示特征缩放和超参数调整如何提高模型性能。在本文中,我们将提供 […]
统计学家和数据科学家面临的一个重大挑战是多重共线性,特别是其最严重的形式——完全多重共线性。这个问题常常在拥有大量特征的大型数据集中 undetected 潜伏,可能伪装自己并扭曲统计模型的結果。在本帖中,我们将探讨检测、处理和优化受此影响的模型的方法 […]
人工智能不仅在改变我们与技术互动的方式,它还在重塑机器学习的根基。站在创新突破的边缘,理解新兴人工智能技术对于掌握它们对未来应用和行业的深远影响至关重要。这次探索不仅仅是学术性的——它是一份影响 […]
机器学习项目通常需要执行一系列数据预处理步骤,然后是学习算法。单独管理这些步骤可能既麻烦又容易出错。这就是 sklearn pipeline 发挥作用的地方。本文将探讨 pipeline 如何自动化机器学习工作流程中的关键方面,例如数据预处理、特征工程、 […]
强化学习 (RL) 已成为人工智能的一个强大范式,使机器能够通过与环境互动来学习最优行为。在 RL 中,智能体通过执行动作并接收奖励或惩罚来学习做出决策,最终目标是最大化随时间的累积奖励。这种方法在 […] 领域取得了卓越的进步。
随着我们进入 2024 年,机器学习 (ML) 的发展步伐依然迅速。Python 凭借其丰富的库生态系统,在 ML 开发领域仍处于领先地位。在本文中,我们将探讨 2024 年主导 ML 领域的十大 Python 库,自 2020 年以来该领域发生了哪些变化,以及关键的 […]。
在机器学习中分析变量之间的关系时,我们常常发现直线无法完全解释。这时就需要引入多项式变换,为我们的回归模型增加层次,而不会增加计算的复杂性。通过将我们的特征转换为其多项式对应项——平方、立方及其他高次项——我们赋予了线性模型 […]。
线性回归模型是机器学习的基础。仅仅拟合一条直线并读取系数就能告诉我们很多信息。但是,我们如何从这些模型中提取和解释系数,以了解它们对预测结果的影响呢?本文将通过探讨各种场景来演示如何解释系数。我们将探讨 […]。
正确准备分类数据是机器学习中的一个基本步骤,特别是在使用线性模型时。独热编码 (One Hot Encoding) 是一种关键技术,它能够将分类变量转换为机器可理解的格式。本文解释了为什么不能直接使用分类变量,并演示了独热编码的使用 […]。