理解房地产数据需要探索不同的房产特征及其对住房市场趋势的影响。对图(pair plot)是探索这些关系的一个有用工具。这种数据可视化技术可以让你发现数据集中不同特征之间相关性的方向和大小。
让我们开始吧。

掌握艾姆斯住房市场中的对图(Pair Plots)以进行可视化和假设创建
图片由Juliana e Mariana Amorim提供。保留部分权利。
概述
这篇博文分为三部分;它们是:
- 使用对图探索特征关系
- 揭示更深层洞察:带有分类增强的对图
- 激发数据驱动探究:通过对图生成假设
使用对图探索特征关系
对图,也称为散点图矩阵,提供了数据集中多个变量之间相互作用的全面视图。与用颜色编码网格表示相关系数的相关热图不同,对图描绘了实际数据点,揭示了超越其强度和方向的关系性质。
为了说明这一点,让我们深入研究艾姆斯住房数据集。我们将重点关注与“SalePrice”相关性最强的五个特征。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 |
# 导入必要的库 import pandas as pd import seaborn as sns import matplotlib.pyplot as plt # 加载数据集 Ames = pd.read_csv('Ames.csv') # 计算所有特征与“SalePrice”的相关性 correlations = Ames.corr()['SalePrice'].sort_values(ascending=False) # 与“SalePrice”相关性最强的5个特征(不包括“SalePrice”本身) top_5_features = correlations.index[1:6] # 为这些特征和“SalePrice”创建对图 # 通过设置高度和长宽比来调整大小 sns.pairplot(Ames, vars=['SalePrice'] + list(top_5_features), height=1.35, aspect=1.85) # 显示图表 plt.show() |
如上图对图所示,每个子图都提供了两个特征的散点图。这种可视化方法不仅允许我们观察单个变量的分布,还揭示了它们之间复杂的联系。对图尤其擅长揭示这些关系的性质。例如,我们可以看到这些关系是**线性的**,表明稳定增加或减少,还是**非线性的**,表明更复杂的动态。它还突出了数据点聚集的簇以及与普遍趋势相悖的异常值。
以“SalePrice”和“GrLivArea”之间的关系为例。对图中的散点图显示出大致线性的关系,表明随着“GrLivArea”的增加,“SalePrice”也随之增加。然而,这并非完美的线性相关——一些数据点偏离了这一趋势,表明其他因素也可能影响销售价格。此外,该图揭示了一些异常值,即具有异常高的“GrLivArea”或“SalePrice”的房产,这些可能是特殊情况或潜在的数据输入错误。
通过这种格式呈现数据,对图超越了单纯的数值系数,提供了数据细致入微的详细视图。它们使我们能够识别数据集中的模式、趋势和异常,这对于在房地产市场中做出明智决策至关重要。这些洞察力对于希望了解财产价值决定因素多面性的利益相关者尤其有益。
通过我的书籍《数据科学初学者指南》**开启你的项目**。它提供了**带工作代码的自学教程**。
揭示更深层洞察:带有分类增强的对图
在我们对房地产数据可视化持续探索中,我们现在将重点放在用分类变量丰富对图。通过整合一个分类维度,我们可以在数据中发现更深层次的洞察和更细微的关系。在本节中,我们将艾姆斯住房数据集中的“LotShape”转换为二元类别(规则 vs. 不规则),并将其集成到我们的对图中。这种增强使我们能够观察这些地块形状如何与“SalePrice”、“OverallQual”和“GrLivArea”等关键变量相互作用。
1 2 3 4 5 6 7 8 9 |
# 将“LotShape”转换为二元特征:“Regular”和“Irregular” Ames['LotShape_Binary'] = Ames['LotShape'].apply(lambda x: 'Regular' if x == 'Reg' else 'Irregular') # 创建对图,根据“LotShape_Binary”进行颜色编码 sns.pairplot(Ames, vars=['SalePrice', 'OverallQual', 'GrLivArea'], hue='LotShape_Binary', palette='Set1', height=2.5, aspect=1.75) # 显示图表 plt.show() |
以“规则”和“不规则”地块形状进行颜色编码的对图揭示了有趣的模式。例如,我们注意到不规则地块形状的房屋销售价格和居住面积范围更广,这可能表明房产类型或买家偏好的多样性。此外,规则地块的整体质量(“OverallQual”)似乎变化较小,这表明这些地区的建筑标准或设计选择可能存在某种趋势。
这个增强的可视化工具不仅加深了我们对住房市场动态的理解,还促使我们进行进一步的探索。利益相关者可以尝试不同的特征组合和分类变量,根据特定的兴趣或市场细分来调整他们的分析,从而使这种方法成为房地产分析中多功能的资产。
激发数据驱动探究:通过对图生成假设
对图不仅是强大的可视化工具,也是数据分析中生成假设的利器。通过揭示数据集中的模式、趋势和异常,这些图表可以激发富有洞察力的问题和假设。例如,观察到两个变量之间的线性关系可能会引出一个关于因果关系的假设,或者一个意想不到的数据点簇可能会促使人们探究其潜在因素。本质上,对图可以作为更深层次、更有针对性的统计测试和探索的跳板。
来自第一个可视化(“SalePrice”与其他特征之间的关系)的假设:
- 假设1:“GrLivArea”与“SalePrice”之间存在线性关系,表明更大的居住面积直接导致更高的房产价值。
- 假设2:“SalePrice”与“GrLivArea”图表中观察到的异常值可能表示独特的豪宅或数据输入错误,值得进一步调查。
来自第二个可视化(将“LotShape”纳入二元类别)的假设:
- 假设3:不规则地块形状的房产销售价格差异大于规则地块形状的房产,这可能是由于房产类型或独特特征的多样性更高。
- 假设4:规则形状地块上的房产整体质量往往更一致,这表明这些地区存在标准化施工实践或买家偏好。
这些根据对图中观察到的模式推导出的假设,随后可以通过更严谨的统计方法进行检验,以验证或反驳最初的观察结果。这种方法强调了对图作为假设驱动数据分析基础步骤的实用性。
想开始学习数据科学新手指南吗?
立即参加我的免费电子邮件速成课程(附示例代码)。
点击注册,同时获得该课程的免费PDF电子书版本。
进一步阅读
如果您想深入了解此主题,本节提供了更多资源。
资源
总结
在对艾姆斯住房数据集的探索中,我们深入研究了对图的世界,揭示了数据所讲述的复杂故事。这次旅程不仅突出了视觉分析在房地产分析中的重要性,还展示了对图在揭示复杂关系和指导数据驱动假设生成方面的强大功能。具体而言,您学习了:
- 对图在说明各种住房市场特征之间关系方面的有效性,特别是关于“SalePrice”的。
- 如何将“LotShape”等分类变量集成到对图中,可以提供更深层次的见解并揭示数据中更细微的趋势。
- 对图作为生成假设基础的潜力,为更高级的统计分析和知情决策奠定基础。
您有任何问题吗?请在下面的评论中提出您的问题,我将尽力回答。
很棒的文章。非常有用。谢谢。
由于提供的 Ames.csv 资源链接包含数字和非数字列,为了使其正常工作,我必须在第一个代码列表中进行以下操作:
# 加载数据集
Ames_orig = pd.read_csv(‘Ames.csv’) #修改
Ames = Ames_orig._get_numeric_data() #修改
在第二个代码列表中进行以下操作:
# 将“LotShape”转换为二元特征:“Regular”和“Irregular”
Ames = Ames_orig #修改
Ames['LotShape_Binary'] = Ames['LotShape'].apply(lambda x: 'Regular' if x == 'Reg' else 'Irregular')
感谢您的反馈,nj!我们感谢您与我们分享您的发现!