5 个用于数据清洗的 Python DIY 函数

5 DIY Python Functions for Data Cleaning

图片作者 | Midjourney

数据清理:无论你爱它还是恨它,你可能都会花很多时间来做这件事。

这就是我们选择的。没有理解、分析或建模数据,就不可能先清理它。确保我们拥有可重用的数据清理工具至关重要。为此,这里有 5 个 DIY 函数,为您提供一些示例和构建自己的数据清理工具箱的起点。

这些函数都经过良好记录,并包含对函数参数和返回类型的明确描述。还采用了类型提示,以确保函数能够按照预期的方式被调用,并且您(读者)能够很好地理解它们。

在我们开始之前,先处理导入。

好了,我们开始讲函数。

1. 去除多个空格

我们的第一个 DIY 函数旨在从文本中去除过多的空格。如果我们既不想要字符串中的多个空格,也不想要过多的前导或尾随空格,这个单行函数将为我们处理。我们使用正则表达式处理内部空格,并使用 strip() 处理尾随/前导空格。

测试

输出

2. 标准化日期格式

你的数据集包含各种国际可接受的日期格式吗?此函数会将它们全部标准化为我们指定的格式(YYYY-MM-DD)。

测试

输出

3. 处理缺失值

让我们处理那些讨厌的缺失值。我们可以指定数字数据策略(“平均值”、“中位数”或“众数”)以及类别数据策略(“众数”或“虚拟”)。

测试

输出

4. 去除异常值

异常值给你带来了麻烦?现在不会了。这个 DIY 函数使用 IQR 方法从我们的数据中删除异常值。您只需传入数据并指定要检查异常值的列,它就会返回一个无异常值的数据集。

测试

输出

5. 规范化文本数据

让我们正常化!当您想将所有文本转换为小写、去除空格和删除特殊字符时,此 DIY 函数将派上用场。

测试

输出

总结

好了,就这样。我们展示了 5 个不同的 DIY 函数,它们可以执行特定的数据清理任务。我们都试驾了它们,并检查了结果。您现在应该对下一步应该如何进行有所了解,并且不要忘记保存这些函数以备将来使用。

暂无评论。

留下回复

Machine Learning Mastery 是 Guiding Tech Media 的一部分,Guiding Tech Media 是一家领先的数字媒体出版商,专注于帮助人们了解技术。访问我们的公司网站以了解更多关于我们的使命和团队的信息。