揭示不可见:在艾姆斯住房数据中可视化缺失值

数字时代开启了一个数据驱动决策至关重要的时代,房地产就是一个典型的例子。像艾姆斯房产这样的综合数据集为数据爱好者提供了宝库。通过对这些数据集的细致探索和分析,人们可以发现模式,获得洞察力,并做出明智的决策。

从这篇博文开始,您将踏上一段引人入胜的旅程,深入探索艾姆斯房产错综复杂的各个方面,主要关注数据科学技术。

让我们开始吧。

揭示不可见:在艾姆斯住房数据中可视化缺失值
图片来源:Joakim Honkasalo。保留部分权利。

概述

这篇博文分为三部分;它们是:

  • 艾姆斯房产数据集
  • 加载并评估数据集
  • 发现并可视化缺失值

艾姆斯房产数据集

每个数据集都有一个故事要讲,了解其背景可以提供宝贵的上下文。虽然艾姆斯住房数据集在学术界广为人知,但我们今天分析的数据集,Ames.csv,是艾姆斯房产详情的更全面的集合。

迪安·德科克博士(Dr. Dean De Cock)是一位敬业的学者,他认识到房地产领域需要一个新的、可靠的数据集。他精心编译了艾姆斯住房数据集,此后它成为了初级数据科学家和研究人员的基石。该数据集以其全面的细节而闻名,捕捉了房地产的诸多方面。它已成为众多预测建模练习的基础,并为探索性数据分析提供了丰富的环境。

艾姆斯住房数据集被设想为旧波士顿住房数据集的现代替代品。它涵盖了2006年至2010年爱荷华州艾姆斯的住宅销售情况,提供了各种变量,为高级回归技术奠定了基础。

这个时间段在美国历史上尤为重要。2007-2008年之前,房价急剧膨胀,投机狂潮和次级抵押贷款助长了这一趋势。这最终导致了2007年末房地产泡沫的毁灭性破裂,这一事件在《大空头》等叙事中被生动地捕捉。这次崩溃的后果波及全国,导致了大衰退。房价暴跌,止赎案件飙升,许多美国人发现他们的抵押贷款已经资不抵债。艾姆斯数据集让我们得以一窥这个动荡时期,记录了全国经济动荡中的房地产销售情况。

通过我的书《数据科学初学者指南》启动您的项目。它提供了带有工作代码自学教程

加载并评估数据集

对于那些涉足数据科学领域的人来说,拥有正确的工具至关重要。如果您需要一些帮助来设置Python环境,这篇综合指南是一个极好的资源。

数据集维度:在深入进行复杂的分析之前,熟悉数据集的基本结构和数据类型至关重要。此步骤为后续探索提供了路线图,并确保您根据数据性质调整分析。环境就绪后,让我们加载并评估数据集在行(代表单个属性)和列(代表这些属性的特征)方面的范围。

数据类型:识别每个属性的数据类型有助于确定我们的分析方法。数值属性可以使用均值或中位数等度量进行汇总,而众数(最频繁的值)则适用于分类属性。

数据字典:数据字典通常随附于综合数据集,是一种方便的资源。它提供每个特征的详细描述,指明其含义、可能的值,有时甚至包括其收集逻辑。对于像艾姆斯房产这样包含广泛特征的数据集,数据字典可以成为清晰的灯塔。通过参考所附的数据字典,分析师、数据科学家乃至领域专家可以对每个特征的细微差别有更深入的了解。无论是解读不熟悉特征的含义,还是辨别特定值的意义,数据字典都可作为全面的指南。它弥合了原始数据与可操作洞察之间的鸿沟,确保分析和决策都是基于充分信息的。

地面居住面积和销售价格是数值(int64)数据类型,而销售条件(对象,在本例中为字符串类型)是分类数据类型。

发现并可视化缺失值

真实世界的数据集很少能完美整理,常常给分析师带来缺失值的挑战。这些数据空白可能由于数据收集错误、系统限制或信息缺失等各种原因而产生。处理缺失值不仅仅是技术上的必要,更是显著影响后续分析完整性和可靠性的关键一步。

理解缺失值的模式对于知情数据分析至关重要。这种洞察力指导着合适的插补方法的选择,这些方法根据现有信息填充缺失数据,从而影响结果的准确性和可解释性。此外,评估缺失值模式为特征选择决策提供了依据;具有大量缺失数据的特征可能会被排除,以提高模型性能并专注于更可靠的信息。本质上,掌握缺失值的模式确保了数据分析的健壮性和可信度,指导插补策略并优化特征纳入以获得更准确的洞察力。

NaN 还是 None?:在 pandas 中,isnull() 函数用于检测 DataFrame 或 Series 中的缺失值。具体来说,它识别以下类型的缺失数据:

  • np.nan(非数字),通常用于表示缺失的数值数据
  • None,这是 Python 内置的对象,表示值的缺失或空值

nanNaN 都是指 NumPy 的 np.nan 的不同方式,isnull() 将它们识别为缺失值。下面是一个快速示例。

可视化缺失值:当需要可视化缺失数据时,DataFramesmissingnomatplotlibseaborn 等工具非常有用。通过根据缺失值百分比对特征进行排序并将其放入 DataFrame 中,您可以轻松地对受缺失数据影响最大的特征进行排名。

missingno 包可以快速、图形化地表示缺失数据。可视化中的白线或空白表示缺失值。但是,它最多只能容纳 50 个带标签的变量。超过此范围,标签开始重叠或变得不可读,默认情况下,大型显示器会省略它们。

使用 missingno.matrix() 可视化缺失值。

在使用 msno.bar() 可视化并提取缺失值最多的前 15 个特征后,可以按列清晰地进行图示。

使用 missingno.bar() 可视化具有缺失值的特征。

上图显示,游泳池质量、杂项特征和房产小巷通道类型是缺失值数量最多的三个特征。

使用 seaborn 水平条形图可视化缺失数据。

使用 seaborn 的水平条形图可以将缺失值最高的特征以垂直格式列出,从而增加可读性和美观性。

处理缺失值不仅仅是一项技术要求;它是影响机器学习模型质量的重要一步。理解和可视化这些缺失值是这一复杂过程的第一步。

想开始学习数据科学新手指南吗?

立即参加我的免费电子邮件速成课程(附示例代码)。

点击注册,同时获得该课程的免费PDF电子书版本。

进一步阅读

如果您想深入了解此主题,本节提供了更多资源。

教程

论文

资源

总结

在本教程中,您开始探索艾姆斯房产数据集,这是一个为数据科学应用量身定制的综合住房数据集合。

具体来说,您学习了:

  • 关于艾姆斯数据集的背景,包括其背后的先驱者和学术重要性。
  • 如何提取数据集维度、数据类型和缺失值。
  • 如何使用 missingno、Matplotlib 和 Seaborn 等包快速可视化您的缺失数据。

您有任何问题吗?请在下面的评论中提出您的问题,我将尽力回答。

开始学习数据科学新手指南!

The Beginner's Guide to Data Science

学习在数据科学项目中取得成功的心态

...只需最少的数学和统计知识,通过Python中的简短示例来获取技能

在我的新电子书中探索如何实现
数据科学新手指南

它提供了自学教程,包含所有工作代码(Python),助您从新手成长为专家。它向您展示了如何发现异常值、确认数据正态性、发现相关特征、处理偏度、检验假设,等等……所有这些都为了支持您从数据集中构建叙述。

通过实践练习开启你的数据科学之旅


查看内容

揭示不可见:在艾姆斯住房数据中可视化缺失值的4条回应

  1. Abdulsalam 2024年1月27日 上午7:40 #

    这是一个非常好的揭示缺失值可视化的方法。虽然我确实使用 missingno 来运行缺失值的可视化,但我以前从未使用 seaborn 进行绘图。我一定要试试!非常感谢!

    • James Carmichael 2024年1月27日 上午10:29 #

      不客气,Abdulsalam!

  2. Princess Leja 2024年1月29日 晚上8:48 #

    非常感谢 Vinod 的这篇文章。我很高兴能运行它并看到缺失值的重要性。我现在将继续学习您关于艾姆斯住房的下一个链接。

    • Vinod Chugani
      Vinod Chugani 2024年1月30日 下午4:19 #

      不客气!很高兴听到您觉得这篇文章有帮助。

发表评论

Machine Learning Mastery 是 Guiding Tech Media 的一部分,Guiding Tech Media 是一家领先的数字媒体出版商,专注于帮助人们了解技术。访问我们的公司网站以了解更多关于我们的使命和团队的信息。