如何使用 Scikit-Learn 在 Python 中为机器学习准备数据

作者： Jason Brownlee 发布于 2019年12月11日所属分类： Python 机器学习 171

许多机器学习算法对您的数据都有假设。

通常，最好以某种方式准备数据，以便最大限度地向您打算使用的机器学习算法展示问题的结构。

在这篇文章中，您将了解如何使用 scikit-learn 在 Python 中为机器学习准备数据。

使用我的新书《使用 Python 进行机器学习精通》启动您的项目，其中包括逐步教程和所有示例的Python 源代码文件。

让我们开始吧。

**2018 年 3 月更新**：添加了下载数据集的备用链接，因为原始链接似乎已被删除。

How To Prepare Your Data For Machine Learning in Python with Scikit-Learn

如何使用 Scikit-Learn 在 Python 中为机器学习准备数据
图片由 Vinoth Chandar 提供，保留部分权利。

数据预处理的必要性

您几乎总是需要预处理数据。这是一个必需的步骤。

一个难点是不同的算法对您的数据有不同的假设，可能需要不同的转换。此外，当您遵循所有规则并准备好数据时，有时算法在不进行预处理的情况下反而能提供更好的结果。

通常，我建议创建数据的许多不同视图和转换，然后在数据集的每个视图上运行一些算法。这将帮助您找出哪些数据转换可能更擅长总体上揭示问题的结构。

需要 Python 机器学习方面的帮助吗？

参加我为期 2 周的免费电子邮件课程，探索数据准备、算法等等（附带代码）。

立即点击注册，还将免费获得本课程的 PDF 电子书版本。

预处理机器学习食谱

本节列出了 4 种不同的机器学习数据预处理方法。

所有方法都被设计成完整且独立的。

您可以直接复制粘贴到您的项目中并开始工作。

每种方法都使用 Pima 印第安人糖尿病数据集。这是一个二元分类问题，所有属性都是数值型且具有不同的尺度。这是可以从预处理中受益的绝佳数据集示例。

每个方法都遵循相同的结构

从 URL 加载数据集。
将数据集分为机器学习的输入和输出变量。
对输入变量应用预处理转换。
总结数据以显示变化。

转换的计算方式使得它们可以应用于您的训练数据和您未来可能拥有的任何数据样本。

scikit-learn 文档中包含有关如何使用各种不同预处理方法的一些信息。您可以在此处查看 scikit-learn 中的预处理 API。

1. 重新缩放数据

当您的数据由具有不同尺度的属性组成时，许多机器学习算法可以受益于将属性重新缩放到相同的尺度。

这通常被称为归一化，属性通常被重新缩放到 0 到 1 之间。这对于机器学习算法核心（如梯度下降）中使用的优化算法很有用。它也适用于像回归和神经网络这样对输入进行加权的算法，以及像 K-近邻这样使用距离度量的算法。

您可以使用 scikit-learn 中的 MinMaxScaler 类重新缩放数据。

# Rescale data (between 0 and 1)
import pandas
import scipy
import numpy
from sklearn.preprocessing import MinMaxScaler
url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.csv"
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = pandas.read_csv(url, names=names)
array = dataframe.values
# separate array into input and output components
X = array[:,0:8]
Y = array[:,8]
scaler = MinMaxScaler(feature_range=(0, 1))
rescaledX = scaler.fit_transform(X)
# summarize transformed data
numpy.set_printoptions(precision=3)
print(rescaledX[0:5,:])

# 重新缩放数据（在 0 到 1 之间）

import pandas

import scipy

import numpy

从 sklearn.预处理导入 MinMaxScaler

url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.csv"

名称 = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']

数据框 = pandas.read_csv(url, 名称=名称)

array = dataframe.values

# 将数组分离为输入和输出组件

X = 数组[:,0:8]

Y = 数组[:,8]

缩放器 = MinMaxScaler(特征范围=(0, 1))

rescaledX = 缩放器.fit_transform(X)

# 总结转换后的数据

numpy.set_printoptions(精度=3)

打印(rescaledX[0:5,:])

重新缩放后，您可以看到所有值都在 0 到 1 之间。

[[ 0.353  0.744  0.59   0.354  0.     0.501  0.234  0.483]
 [ 0.059  0.427  0.541  0.293  0.     0.396  0.117  0.167]
 [ 0.471  0.92   0.525  0.     0.     0.347  0.254  0.183]
 [ 0.059  0.447  0.541  0.232  0.111  0.419  0.038  0.   ]
 [ 0.     0.688  0.328  0.354  0.199  0.642  0.944  0.2  ]]

[[ 0.353 0.744 0.59 0.354 0. 0.501 0.234 0.483]

[ 0.059 0.427 0.541 0.293 0. 0.396 0.117 0.167]

[ 0.471 0.92 0.525 0. 0. 0.347 0.254 0.183]

[ 0.059 0.447 0.541 0.232 0.111 0.419 0.038 0. ]

[ 0. 0.688 0.328 0.354 0.199 0.642 0.944 0.2 ]]

2. 标准化数据

标准化是一种有用的技术，可以将具有高斯分布以及不同均值和标准差的属性转换为均值为 0，标准差为 1 的标准高斯分布。

它最适合那些假设输入变量具有高斯分布并与重新缩放数据更好地配合使用的技术，例如线性回归、逻辑回归和线性判别分析。

您可以使用 scikit-learn 和 StandardScaler 类来标准化数据。

# Standardize data (0 mean, 1 stdev)
from sklearn.preprocessing import StandardScaler
import pandas
import numpy
url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.csv"
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = pandas.read_csv(url, names=names)
array = dataframe.values
# separate array into input and output components
X = array[:,0:8]
Y = array[:,8]
scaler = StandardScaler().fit(X)
rescaledX = scaler.transform(X)
# summarize transformed data
numpy.set_printoptions(precision=3)
print(rescaledX[0:5,:])

# 标准化数据（0 均值，1 标准差）

from sklearn.preprocessing import StandardScaler

import pandas

import numpy

url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.csv"

名称 = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']

数据框 = pandas.read_csv(url, 名称=名称)

array = dataframe.values

# 将数组分离为输入和输出组件

X = 数组[:,0:8]

Y = 数组[:,8]

缩放器 = StandardScaler().fit(X)

rescaledX = 缩放器.transform(X)

# 总结转换后的数据

numpy.set_printoptions(精度=3)

打印(rescaledX[0:5,:])

现在每个属性的值的平均值为 0，标准差为 1。

[[ 0.64   0.848  0.15   0.907 -0.693  0.204  0.468  1.426]
 [-0.845 -1.123 -0.161  0.531 -0.693 -0.684 -0.365 -0.191]
 [ 1.234  1.944 -0.264 -1.288 -0.693 -1.103  0.604 -0.106]
 [-0.845 -0.998 -0.161  0.155  0.123 -0.494 -0.921 -1.042]
 [-1.142  0.504 -1.505  0.907  0.766  1.41   5.485 -0.02 ]]

[[ 0.64 0.848 0.15 0.907 -0.693 0.204 0.468 1.426]

[-0.845 -1.123 -0.161 0.531 -0.693 -0.684 -0.365 -0.191]

[ 1.234 1.944 -0.264 -1.288 -0.693 -1.103 0.604 -0.106]

[-0.845 -0.998 -0.161 0.155 0.123 -0.494 -0.921 -1.042]

[-1.142 0.504 -1.505 0.907 0.766 1.41 5.485 -0.02 ]]

3. 归一化数据

scikit-learn 中的归一化指的是将每个观测值（行）重新缩放，使其长度为 1（在线性代数中称为单位范数）。

这种预处理对于稀疏数据集（很多零），以及当使用神经网络等对输入值进行加权的算法和 K-近邻等使用距离度量的算法时，其中具有不同尺度的属性可能很有用。

您可以使用 scikit-learn 中的 Normalizer 类在 Python 中对数据进行归一化。

# Normalize data (length of 1)
from sklearn.preprocessing import Normalizer
import pandas
import numpy
url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.csv"
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = pandas.read_csv(url, names=names)
array = dataframe.values
# separate array into input and output components
X = array[:,0:8]
Y = array[:,8]
scaler = Normalizer().fit(X)
normalizedX = scaler.transform(X)
# summarize transformed data
numpy.set_printoptions(precision=3)
print(normalizedX[0:5,:])

# 归一化数据（长度为 1）

从 sklearn.预处理导入 Normalizer

import pandas

import numpy

url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.csv"

名称 = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']

数据框 = pandas.read_csv(url, 名称=名称)

array = dataframe.values

# 将数组分离为输入和输出组件

X = 数组[:,0:8]

Y = 数组[:,8]

缩放器 = Normalizer().fit(X)

normalizedX = 缩放器.transform(X)

# 总结转换后的数据

numpy.set_printoptions(精度=3)

打印(normalizedX[0:5,:])

这些行的长度被归一化为 1。

[[ 0.034  0.828  0.403  0.196  0.     0.188  0.004  0.28 ]
 [ 0.008  0.716  0.556  0.244  0.     0.224  0.003  0.261]
 [ 0.04   0.924  0.323  0.     0.     0.118  0.003  0.162]
 [ 0.007  0.588  0.436  0.152  0.622  0.186  0.001  0.139]
 [ 0.     0.596  0.174  0.152  0.731  0.188  0.01   0.144]]

[[ 0.034 0.828 0.403 0.196 0. 0.188 0.004 0.28 ]

[ 0.008 0.716 0.556 0.244 0. 0.224 0.003 0.261]

[ 0.04 0.924 0.323 0. 0. 0.118 0.003 0.162]

[ 0.007 0.588 0.436 0.152 0.622 0.186 0.001 0.139]

[ 0. 0.596 0.174 0.152 0.731 0.188 0.01 0.144]]

4. 二值化数据

您可以使用二值阈值转换数据。所有高于阈值的值都标记为 1，所有等于或低于阈值的值都标记为 0。

这被称为数据二值化或数据阈值化。当您有希望变为清晰值的概率时，这可能很有用。当进行特征工程并希望添加表示有意义的新特征时，这也很实用。

您可以使用 scikit-learn 中的 Binarizer 类在 Python 中创建新的二值属性。

# binarization
from sklearn.preprocessing import Binarizer
import pandas
import numpy
url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.csv"
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = pandas.read_csv(url, names=names)
array = dataframe.values
# separate array into input and output components
X = array[:,0:8]
Y = array[:,8]
binarizer = Binarizer(threshold=0.0).fit(X)
binaryX = binarizer.transform(X)
# summarize transformed data
numpy.set_printoptions(precision=3)
print(binaryX[0:5,:])

# 二值化

从 sklearn.预处理导入 Binarizer

import pandas

import numpy

url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.csv"

名称 = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']

数据框 = pandas.read_csv(url, 名称=名称)

array = dataframe.values

# 将数组分离为输入和输出组件

X = 数组[:,0:8]

Y = 数组[:,8]

二值化器 = Binarizer(阈值=0.0).fit(X)

binaryX = 二值化器.transform(X)

# 总结转换后的数据

numpy.set_printoptions(精度=3)

打印(binaryX[0:5,:])

您可以看到所有等于或小于 0 的值被标记为 0，所有大于 0 的值被标记为 1。

[[ 1.  1.  1.  1.  0.  1.  1.  1.]
 [ 1.  1.  1.  1.  0.  1.  1.  1.]
 [ 1.  1.  1.  0.  0.  1.  1.  1.]
 [ 1.  1.  1.  1.  1.  1.  1.  1.]
 [ 0.  1.  1.  1.  1.  1.  1.  1.]]

[[ 1. 1. 1. 1. 0. 1. 1. 1.]

[ 1. 1. 1. 1. 0. 1. 1. 1.]

[ 1. 1. 1. 0. 0. 1. 1. 1.]

[ 1. 1. 1. 1. 1. 1. 1. 1.]

[ 0. 1. 1. 1. 1. 1. 1. 1.]]

总结

在这篇文章中，您了解了如何使用 scikit-learn 在 Python 中为机器学习准备数据。

您现在掌握了以下方法：

重新缩放数据。
标准化数据。
归一化数据。
二值化数据。

这篇文章的行动步骤是输入或复制粘贴每个食谱，并熟悉 scikit-learn 中的数据预处理。

您对 Python 中的数据预处理或本文有任何疑问吗？请在评论中提问，我将尽力回答。

关于此主题的更多信息

多层感知器神经网络速成课程

Python 机器学习的特征选择