在大数据集中检测和克服完全多重共线性

统计学家和数据科学家面临的一个重大挑战是多重共线性,特别是其最严重的形式——完美多重共线性。这个问题在具有许多特征的大型数据集中常常难以察觉,可能会隐藏自身并扭曲统计模型的结果。

在本文中,我们将探讨检测、处理和完善受完美多重共线性影响的模型的方法。通过实际分析和示例,我们旨在为您提供提高模型鲁棒性和可解释性所需的工具,确保它们能够提供可靠的见解和准确的预测。

通过我的书《进阶数据科学启动您的项目。它提供了带有可运行代码的自学教程

让我们开始吧。

在大数据集中检测和克服完全多重共线性
图片作者:Ryan Stone。部分权利保留。

概述

这篇博文分为三部分;它们是:

  • 探索完美多重共线性对线性回归模型的影响
  • 使用 Lasso 回归处理多重共线性
  • 利用 Lasso 回归的见解完善线性回归模型

探索完美多重共线性对线性回归模型的影响

多元线性回归因其可解释性而备受推崇。它可以直接了解每个预测变量如何影响响应变量。然而,其有效性取决于特征独立的假设。

共线性意味着一个变量可以表示为某些其他变量的线性组合。因此,变量之间不是相互独立的。

线性回归在特征集没有共线的假设下工作。为了确保此假设成立,理解线性代数中的一个核心概念——矩阵秩——至关重要。在线性回归中,秩揭示了特征的线性独立性。本质上,任何特征都不应是另一个特征的直接线性组合。这种独立性至关重要,因为特征之间的依赖性——其中秩小于特征数量——会导致完美多重共线性。这种情况会扭曲回归模型的可解释性和可靠性,影响其在制定明智决策方面的效用。

让我们以 Ames Housing 数据集为例进行探讨。我们将检查数据集的秩和特征数量以检测多重共线性。

我们的初步结果表明,Ames Housing 数据集存在多重共线性,有 27 个特征但秩只有 26。

为解决此问题,让我们使用定制函数来识别冗余特征。此方法有助于就特征选择或修改做出明智的决定,以增强模型的可靠性和可解释性。

以下特征被确定为冗余,表明它们对模型的预测能力没有独特贡献。

在识别出数据集中的冗余特征后,理解其冗余的性质至关重要。具体来说,我们怀疑“GrLivArea”可能只是“1stFlrSF”、“2ndFlrSF”以及“LowQualFinSF”的总和。为验证这一点,我们将计算这三个面积的总和,并将其直接与“GrLivArea”进行比较,以确认它们是否确实相同。

我们的分析证实,“GrLivArea”在数据集中 100% 的情况下精确地是“1stFlrSF”、“2ndFlrSF”和“LowQualFinSF”的总和。

在通过矩阵秩分析确定“GrLivArea”的冗余性之后,我们现在旨在可视化多重共线性对我们回归模型稳定性和预测能力的影响。接下来的步骤将包括使用冗余特征运行多元线性回归,以观察系数估计值的方差。此练习将有助于以切实可行的方式演示多重共线性的实际影响,从而强化在模型构建中仔细进行特征选择的必要性。

结果可以通过下面的两个图来展示。

左侧的箱线图说明了系数估计值的显著方差。这些值的大量分布不仅表明了我们模型的不稳定性,而且直接挑战了其可解释性。多元线性回归因其可解释性而备受推崇,而可解释性取决于其系数的稳定性和一致性。当系数在不同数据子集之间差异很大时,就很难获得清晰可行的见解,而这些见解对于根据模型预测做出明智的决策至关重要。鉴于这些挑战,需要一种更鲁棒的方法来解决模型系数的可变性和不稳定性。

想开始学习进阶数据科学吗?

立即参加我的免费电子邮件速成课程(附示例代码)。

点击注册,同时获得该课程的免费PDF电子书版本。

使用 Lasso 回归处理多重共线性

Lasso 回归提供了一种鲁棒的解决方案。与多元线性回归不同,Lasso 可以惩罚系数的大小,更重要的是,可以将某些系数设置为零,从而有效地减少模型中的特征数量。此特征选择在缓解多重共线性方面尤其有益。让我们将 Lasso 应用于之前的示例来演示这一点。

通过改变正则化强度(alpha),我们可以观察到增加惩罚项如何影响系数以及模型的预测准确性。

 

左侧的箱线图显示,随着 alpha 的增加,系数的分布范围和幅度减小,表明估计值更稳定。值得注意的是,当 alpha 设置为 1 时,'2ndFlrSF' 的系数开始接近于零,而在 alpha 增加到 2 时,系数几乎为零。这种趋势表明,随着正则化强度的提高,'2ndFlrSF' 对模型的贡献最小,这可能意味着它与其他特征存在冗余或多重共线性。这种稳定是 Lasso 能够减少不重要特征影响的直接结果,这些特征很可能导致多重共线性。

‘2ndFlrSF’ 在对模型预测能力影响最小的情况下被移除,这一点很重要。它强调了 Lasso 在识别和消除不必要预测变量方面的效率。重要的是,即使该特征被有效置零,模型的整体可预测性也保持不变,这表明 Lasso 在保持模型性能的同时简化其复杂性方面非常稳健。

利用 Lasso 回归的见解完善线性回归模型

根据 Lasso 回归获得的见解,我们通过移除 ‘2ndFlrSF’(一个被确定为对预测能力贡献最小的特征)来优化了我们的模型。本节使用仅包含 ‘GrLivArea’、‘1stFlrSF’ 和 ‘LowQualFinSF’ 的修改后模型来评估其性能和系数稳定性。

我们的优化后的多元回归模型的计算结果将在下面的两个图中展示。

左侧的箱线图展示了系数在不同交叉验证折中的分布。值得注意的是,与包含“2ndFlrSF”的先前模型相比,系数的方差似乎有所减小。这种变异性的降低突显了移除冗余特征的有效性,这有助于稳定模型的估计并增强其可解释性。每个特征的系数现在表现出更小的波动,这表明模型可以在数据的不同子集上一致地评估这些特征的重要性。

除了保持模型的预测能力外,特征复杂性的降低还显著增强了模型的可解释性。由于变量数量的减少,每个变量都对结果做出独特贡献,我们现在可以更轻松地衡量这些特定特征对销售价格的影响。这种清晰性使得解释更加直接,并基于模型的输出做出更自信的决策。利益相关者可以更好地理解“GrLivArea”、“1stFlrSF”和“LowQualFinSF”的变化如何可能影响房产价值,从而实现更清晰的沟通和更可操作的见解。这种增强的透明度非常有价值,尤其是在那些解释模型预测与预测本身同等重要的领域。

进一步阅读

API

教程

Ames 住房数据集和数据字典

总结

这篇博文解决了回归模型中完美多重共线性的挑战,首先使用 Ames Housing 数据集的矩阵秩分析进行检测。然后,我们探索了 Lasso 回归,通过减少特征数量、稳定系数估计和保持模型预测性来缓解多重共线性。最后,通过战略性地减少特征,优化了线性回归模型,并增强了其可解释性和可靠性。

具体来说,你学到了:

  • 使用矩阵秩分析检测数据集中完美的共线性。
  • 应用 Lasso 回归来缓解多重共线性并协助特征选择。
  • 通过 Lasso 的见解优化线性回归模型,以增强可解释性。

您有任何问题吗?请在下面的评论中提出您的问题,我将尽力回答。

开始学习进阶数据科学!

Next-Level Data Science

掌握数据科学项目成功的思维模式

...通过清晰、实用的例子建立专业知识,尽量减少复杂的数学,并专注于实践学习。

在我的新电子书中探索如何实现
新一代数据科学

它提供了自学教程,旨在引导您从初级到高级。学习优化工作流程、处理多重共线性、优化基于树的模型以及处理缺失数据 — 以及更多内容,以帮助您获得更深入的见解并有效地进行数据叙述。

通过实际练习提升您的数据科学技能


查看内容

暂无评论。

发表评论

Machine Learning Mastery 是 Guiding Tech Media 的一部分,Guiding Tech Media 是一家领先的数字媒体出版商,专注于帮助人们了解技术。访问我们的公司网站以了解更多关于我们的使命和团队的信息。