机器学习中缺失值的统计插补

作者： Jason Brownlee 于 2020年8月18日在数据准备 45

数据集可能存在缺失值，这会给许多机器学习算法带来问题。

因此，在对预测任务进行建模之前，最好识别并替换输入数据中每列的缺失值。这称为缺失数据插补，或简称插补。

数据插补的一种流行方法是为每列计算一个统计值（例如均值），然后用该统计值替换该列的所有缺失值。这是一种流行的方法，因为该统计值易于使用训练数据集计算，并且通常能带来良好的性能。

在本教程中，您将学习如何使用统计插补策略来处理机器学习中的缺失数据。

完成本教程后，您将了解：

缺失值必须用 NaN 值标记，并可以用统计量替换以计算值列。
如何加载带有缺失值的 CSV 值，并用 NaN 值标记缺失值，并报告每列缺失值的数量和百分比。
如何在评估模型时以及将最终模型拟合到新数据以进行预测时，将缺失值与统计量一起作为数据准备方法进行插补。

通过我的新书《机器学习数据准备》**启动您的项目**，其中包括**分步教程**和所有示例的 **Python 源代码文件**。

让我们开始吧。

2020年6月更新：更改了示例中用于预测的列。

Statistical Imputation for Missing Values in Machine Learning

机器学习中缺失值的统计插补
照片由Bernal Saborio拍摄，保留部分权利。

教程概述

本教程分为三个部分；它们是：

统计插补
马疝气数据集
使用 SimpleImputer 进行统计插补
1. SimpleImputer 数据转换
2. SimpleImputer 和模型评估
3. 比较不同的插补统计量
4. 进行预测时的 SimpleImputer 转换

统计插补

一个数据集可能包含缺失值。

这些是数据行，其中一行中的一个或多个值或列不存在。这些值可能完全缺失，也可能用特殊字符或值（例如问号“？”）标记。

这些值可以通过多种方式表示。我见过它们以空值出现[……]，一个空字符串[……]，显式字符串NULL或undefined或N/A或NaN，以及数字0等等。无论它们在您的数据集中如何出现，了解预期内容并检查数据是否符合预期将减少您开始使用数据时的问题。

— 第10页，《坏数据手册》，2012年。

值可能因多种原因而缺失，通常特定于问题领域，可能包括测量损坏或数据不可用等原因。

它们可能由于多种原因而发生，例如测量设备故障、数据收集期间实验设计变更以及合并几个相似但不完全相同的数据集。

— 第63页，《数据挖掘：实用机器学习工具和技术》，2016年。

大多数机器学习算法需要数值输入，并且数据集中的每一行和每一列都需要存在一个值。因此，缺失值会给机器学习算法带来问题。

因此，通常会在数据集中识别缺失值并将其替换为数值。这称为数据插补，或缺失数据插补。

一种简单而流行的数据插补方法是使用统计方法从现有值中估计某一列的值，然后用计算出的统计值替换该列中所有缺失的值。

它之所以简单，是因为统计计算速度快；它之所以流行，是因为它通常非常有效。

常见的计算统计量包括：

列平均值。
列中位数。
列众数。
一个常数。

现在我们熟悉了缺失值插补的统计方法，接下来让我们看一个包含缺失值的数据集。

想开始学习数据准备吗？

立即参加我为期7天的免费电子邮件速成课程（附示例代码）。

点击注册，同时获得该课程的免费PDF电子书版本。

马疝气数据集

马疝气数据集描述了患有疝气的马匹的医学特征以及它们是存活还是死亡。

有300行和26个输入变量，一个输出变量。这是一个二元分类预测任务，涉及预测马匹存活为1，死亡为2。

在这个数据集中，我们可以选择预测许多字段。在这种情况下，我们将预测问题是否为手术（列索引23），使其成为一个二元分类问题。

数据集中许多列都有大量缺失值，每个缺失值都用问号字符（“？”）标记。

下面提供了数据集中带有标记缺失值的行示例。

2,1,530101,38.50,66,28,3,3,?,2,5,4,4,?,?,?,3,5,45.00,8.40,?,?,2,2,11300,00000,00000,2

1,1,534817,39.2,88,20,?,?,4,1,3,4,2,?,?,?,4,2,50,85,2,2,3,2,02208,00000,00000,2

2,1,530334,38.30,40,24,1,1,3,1,3,3,1,?,?,?,1,1,33.00,6.70,?,?,1,2,00000,00000,00000,1

1,9,5290409,39.10,164,84,4,1,6,2,2,4,4,1,2,5.00,3,?,48.00,7.20,3,5.30,2,1,02208,00000,00000,1

...

你可以在此处了解更多关于此数据集的信息：

无需下载数据集，我们将在工作示例中自动下载。

在加载的数据集中使用 Python 将缺失值标记为 NaN（非数字）是一种最佳实践。

我们可以使用 read_csv() Pandas 函数加载数据集，并指定 “na_values” 将值 ‘?‘ 加载为缺失值，标记为 NaN 值。

...

# 加载数据集

url = 'https://raw.githubusercontent.com/jbrownlee/Datasets/master/horse-colic.csv'

dataframe = read_csv(url, header=None, na_values='?')

加载后，我们可以查看加载的数据，以确认“?”值已标记为 NaN。

...

# 总结前几行

print(dataframe.head())

然后我们可以枚举每一列，并报告该列中带有缺失值的行数。

...

# 汇总每列中具有缺失值的行数

for i in range(dataframe.shape[1]):

# 计算缺失值行数

n_miss = dataframe[[i]].isnull().sum()

perc = n_miss / dataframe.shape[0] * 100

print('> %d, Missing: %d (%.1f%%)' % (i, n_miss, perc))

总而言之，下面列出了加载和汇总数据集的完整示例。

# 总结马疝气数据集

from pandas import read_csv

# 加载数据集

url = 'https://raw.githubusercontent.com/jbrownlee/Datasets/master/horse-colic.csv'

dataframe = read_csv(url, header=None, na_values='?')

# 总结前几行

print(dataframe.head())

# 汇总每列中具有缺失值的行数

for i in range(dataframe.shape[1]):

# 计算缺失值行数

n_miss = dataframe[[i]].isnull().sum()

perc = n_miss / dataframe.shape[0] * 100

print('> %d, Missing: %d (%.1f%%)' % (i, n_miss, perc))

运行该示例首先加载数据集并总结前五行。

我们可以看到，原来用“?”字符标记的缺失值已经被NaN值取代了。

0 1 2 3 4 5 6 ... 21 22 23 24 25 26 27

0 2.0 1 530101 38.5 66.0 28.0 3.0 ... NaN 2.0 2 11300 0 0 2

1 1.0 1 534817 39.2 88.0 20.0 NaN ... 2.0 3.0 2 2208 0 0 2

2 2.0 1 530334 38.3 40.0 24.0 1.0 ... NaN 1.0 2 0 0 0 1

3 1.0 9 5290409 39.1 164.0 84.0 4.0 ... 5.3 2.0 1 2208 0 0 1

4 2.0 1 530255 37.3 104.0 35.0 NaN ... NaN 2.0 2 4300 0 0 2

[5 行 x 28 列]

接下来，我们可以看到数据集中所有列的列表，以及缺失值的数量和百分比。

我们可以看到，有些列（例如列索引1和2）没有缺失值，而其他列（例如列索引15和21）有许多甚至大部分缺失值。

> 0，缺失：1 (0.3%)

> 1，缺失：0 (0.0%)

> 2，缺失：0 (0.0%)

> 3，缺失：60 (20.0%)

> 4，缺失：24 (8.0%)

> 5，缺失：58 (19.3%)

> 6，缺失：56 (18.7%)

> 7，缺失：69 (23.0%)

> 8，缺失：47 (15.7%)

> 9，缺失：32 (10.7%)

> 10，缺失：55 (18.3%)

> 11，缺失：44 (14.7%)

> 12，缺失：56 (18.7%)

> 13，缺失：104 (34.7%)

> 14，缺失：106 (35.3%)

> 15，缺失：247 (82.3%)

> 16，缺失：102 (34.0%)

> 17，缺失：118 (39.3%)

> 18，缺失：29 (9.7%)

> 19，缺失：33 (11.0%)

> 20，缺失：165 (55.0%)

> 21，缺失：198 (66.0%)

> 22，缺失：1 (0.3%)

> 23，缺失：0 (0.0%)

> 24，缺失：0 (0.0%)

> 25，缺失：0 (0.0%)

> 26，缺失：0 (0.0%)

> 27，缺失：0 (0.0%)

现在我们熟悉了包含缺失值的马疝气数据集，接下来我们来看看如何使用统计插补。

使用 SimpleImputer 进行统计插补

scikit-learn 机器学习库提供了支持统计插补的 SimpleImputer 类。

在本节中，我们将探讨如何有效地使用 SimpleImputer 类。

SimpleImputer 数据转换

SimpleImputer 是一种数据转换，首先根据为每列计算的统计量类型（例如均值）进行配置。

...

# 定义插补器

imputer = SimpleImputer(strategy='mean')

然后将插补器拟合到数据集上，以计算每列的统计量。

...

# 拟合数据集

imputer.fit(X)

然后将拟合好的插补器应用于数据集，以创建一个数据集副本，其中每列的所有缺失值都替换为统计值。

...

# 转换数据集

Xtrans = imputer.transform(X)

我们可以通过在转换前后汇总数据集中缺失值的总数，来演示其在马疝气数据集上的用法并确认其有效性。

完整的示例如下所示。

# 马疝气数据集的统计插补转换

from numpy import isnan

from pandas import read_csv

from sklearn.impute import SimpleImputer

# 加载数据集

url = 'https://raw.githubusercontent.com/jbrownlee/Datasets/master/horse-colic.csv'

dataframe = read_csv(url, header=None, na_values='?')

# 分割输入和输出元素

data = dataframe.values

ix = [i for i in range(data.shape[1]) if i != 23]

X, y = data[:, ix], data[:, 23]

# 打印总缺失值

print('缺失: %d' % sum(isnan(X).flatten()))

# 定义插补器

imputer = SimpleImputer(strategy='mean')

# 拟合数据集

imputer.fit(X)

# 转换数据集

Xtrans = imputer.transform(X)

# 打印总缺失值

print('缺失: %d' % sum(isnan(Xtrans).flatten()))

运行该示例首先加载数据集并报告数据集中缺失值的总数为1,605。

转换被配置、拟合和执行，结果新数据集没有缺失值，确认其按预期执行。

每个缺失值都用其列的平均值代替。

1 2	缺失：1605 缺失：0

SimpleImputer 和模型评估

使用k折交叉验证在数据集上评估机器学习模型是一种良好的实践。

为了正确应用统计缺失数据插补并避免数据泄露，需要仅在训练数据集上计算每列的统计量，然后将这些统计量应用于数据集中每个折叠的训练集和测试集。

如果我们使用重采样来选择调优参数值或估计性能，则插补应包含在重采样中。

— 第42页，《应用预测建模》，2013年。

这可以通过创建一个建模管道来实现，其中第一步是统计插补，然后第二步是模型。这可以使用 Pipeline 类来实现。

例如，下面的*Pipeline*使用了一个策略为“*mean*”的*SimpleImputer*，后面跟着一个随机森林模型。

...

# 定义建模管道

model = RandomForestClassifier()

imputer = SimpleImputer(strategy='mean')

pipeline = Pipeline(steps=[('i', imputer), ('m', model)])

我们可以使用重复的10折交叉验证来评估马疝气数据集的均值插补和随机森林建模管道。

完整的示例如下所示。

# evaluate mean imputation and random forest for the horse colic dataset
from numpy import mean
from numpy import std
from pandas import read_csv
from sklearn.ensemble import RandomForestClassifier
from sklearn.impute import SimpleImputer
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import RepeatedStratifiedKFold
from sklearn.pipeline import Pipeline
# load dataset
url = 'https://raw.githubusercontent.com/jbrownlee/Datasets/master/horse-colic.csv'
dataframe = read_csv(url, header=None, na_values='?')
# split into input and output elements
data = dataframe.values
ix = [i for i in range(data.shape[1]) if i != 23]
X, y = data[:, ix], data[:, 23]
# define modeling pipeline
model = RandomForestClassifier()
imputer = SimpleImputer(strategy='mean')
pipeline = Pipeline(steps=[('i', imputer), ('m', model)])
# define model evaluation
cv = RepeatedStratifiedKFold(n_splits=10, n_repeats=3, random_state=1)
# evaluate model
scores = cross_val_score(pipeline, X, y, scoring='accuracy', cv=cv, n_jobs=-1)
print('Mean Accuracy: %.3f (%.3f)' % (mean(scores), std(scores)))

# 评估马疝气数据集的均值插补和随机森林

from numpy import mean

from numpy import std

from pandas import read_csv

from sklearn.ensemble import RandomForestClassifier

from sklearn.impute import SimpleImputer

from sklearn.model_selection import cross_val_score

from sklearn.model_selection import RepeatedStratifiedKFold

from sklearn.pipeline import Pipeline

# 加载数据集

url = 'https://raw.githubusercontent.com/jbrownlee/Datasets/master/horse-colic.csv'

dataframe = read_csv(url, header=None, na_values='?')

# 分割输入和输出元素

data = dataframe.values

ix = [i for i in range(data.shape[1]) if i != 23]

X, y = data[:, ix], data[:, 23]

# 定义建模管道

model = RandomForestClassifier()

imputer = SimpleImputer(strategy='mean')

pipeline = Pipeline(steps=[('i', imputer), ('m', model)])

# 定义模型评估

cv = RepeatedStratifiedKFold(n_splits=10, n_repeats=3, random_state=1)

# 评估模型

scores = cross_val_score(pipeline, X, y, scoring='accuracy', cv=cv, n_jobs=-1)

print('平均准确度: %.3f (%.3f)' % (mean(scores), std(scores)))

运行该示例会正确地将数据插补应用于交叉验证过程的每个折叠。

注意：由于算法或评估过程的随机性，或数值精度的差异，您的结果可能会有所不同。请考虑多次运行示例并比较平均结果。

该管道通过三次重复的10折交叉验证进行评估，并报告数据集的平均分类准确率约为86.3%，这是一个不错的得分。

1	平均准确度：0.863 (0.054)

比较不同的插补统计量

我们如何知道使用“均值”统计策略对这个数据集来说是好的或最好的？

答案是，我们不知道，它只是任意选择的。

我们可以设计一个实验来测试每种统计策略，并发现哪种策略最适合这个数据集，比较均值、中位数、众数（最频繁）和常数（0）策略。然后可以比较每种方法的平均准确率。

完整的示例如下所示。

# compare statistical imputation strategies for the horse colic dataset
from numpy import mean
from numpy import std
from pandas import read_csv
from sklearn.ensemble import RandomForestClassifier
from sklearn.impute import SimpleImputer
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import RepeatedStratifiedKFold
from sklearn.pipeline import Pipeline
from matplotlib import pyplot
# load dataset
url = 'https://raw.githubusercontent.com/jbrownlee/Datasets/master/horse-colic.csv'
dataframe = read_csv(url, header=None, na_values='?')
# split into input and output elements
data = dataframe.values
ix = [i for i in range(data.shape[1]) if i != 23]
X, y = data[:, ix], data[:, 23]
# evaluate each strategy on the dataset
results = list()
strategies = ['mean', 'median', 'most_frequent', 'constant']
for s in strategies:
	# create the modeling pipeline
	pipeline = Pipeline(steps=[('i', SimpleImputer(strategy=s)), ('m', RandomForestClassifier())])
	# evaluate the model
	cv = RepeatedStratifiedKFold(n_splits=10, n_repeats=3, random_state=1)
	scores = cross_val_score(pipeline, X, y, scoring='accuracy', cv=cv, n_jobs=-1)
	# store results
	results.append(scores)
	print('>%s %.3f (%.3f)' % (s, mean(scores), std(scores)))
# plot model performance for comparison
pyplot.boxplot(results, labels=strategies, showmeans=True)
pyplot.show()

# 比较马疝气数据集的统计插补策略

from numpy import mean

from numpy import std

from pandas import read_csv

from sklearn.ensemble import RandomForestClassifier

from sklearn.impute import SimpleImputer

from sklearn.model_selection import cross_val_score

from sklearn.model_selection import RepeatedStratifiedKFold

from sklearn.pipeline import Pipeline

from matplotlib import pyplot

# 加载数据集

url = 'https://raw.githubusercontent.com/jbrownlee/Datasets/master/horse-colic.csv'

dataframe = read_csv(url, header=None, na_values='?')

# 分割输入和输出元素

data = dataframe.values

ix = [i for i in range(data.shape[1]) if i != 23]

X, y = data[:, ix], data[:, 23]

# 评估数据集上的每种策略

results = list()

strategies = ['mean', 'median', 'most_frequent', 'constant']

for s in strategies:

# 创建建模管道

pipeline = Pipeline(steps=[('i', SimpleImputer(strategy=s)), ('m', RandomForestClassifier())])

# 评估模型

cv = RepeatedStratifiedKFold(n_splits=10, n_repeats=3, random_state=1)

scores = cross_val_score(pipeline, X, y, scoring='accuracy', cv=cv, n_jobs=-1)

# 存储结果

results.append(scores)

print('>%s %.3f (%.3f)' % (s, mean(scores), std(scores)))

# 绘制模型性能以供比较

pyplot.boxplot(results, labels=strategies, showmeans=True)

pyplot.show()

运行该示例会使用重复交叉验证评估马疝气数据集上的每种统计插补策略。

注意：由于算法或评估过程的随机性，或数值精度的差异，您的结果可能会有所不同。请考虑多次运行示例并比较平均结果。

每次都会报告每种策略的平均准确率。结果表明，使用常数值（例如0）会带来最佳性能，约为88.1%，这是一个出色的结果。

>平均 0.860 (0.054)

>中位数 0.862 (0.065)

>最频繁 0.872 (0.052)

>常数 0.881 (0.047)

运行结束时，会为每组结果创建一个箱线图和须状图，以便比较结果的分布。

我们可以清楚地看到，常数策略的准确率分数分布优于其他策略。

Box and Whisker Plot of Statistical Imputation Strategies Applied to the Horse Colic Dataset

马疝气数据集应用统计插补策略的箱线图和须状图

进行预测时的 SimpleImputer 转换

我们可能希望使用常数插补策略和随机森林算法创建一个最终的建模管道，然后对新数据进行预测。

这可以通过定义管道并在所有可用数据上拟合它，然后调用 `predict()` 函数并将新数据作为参数传入来实现。

重要的是，新数据行必须使用 NaN 值标记任何缺失值。

...

# 定义新数据

row = [2, 1, 530101, 38.50, 66, 28, 3, 3, nan, 2, 5, 4, 4, nan, nan, nan, 3, 5, 45.00, 8.40, nan, nan, 2, 11300, 00000, 00000, 2]

完整的示例如下所示。

# 马疝气数据集的常数插补策略和预测

from numpy import nan

from pandas import read_csv

from sklearn.ensemble import RandomForestClassifier

from sklearn.impute import SimpleImputer

from sklearn.pipeline import Pipeline

# 加载数据集

url = 'https://raw.githubusercontent.com/jbrownlee/Datasets/master/horse-colic.csv'

dataframe = read_csv(url, header=None, na_values='?')

# 分割输入和输出元素

data = dataframe.values

ix = [i for i in range(data.shape[1]) if i != 23]

X, y = data[:, ix], data[:, 23]

# 创建建模管道

pipeline = Pipeline(steps=[('i', SimpleImputer(strategy='constant')), ('m', RandomForestClassifier())])

# 拟合模型

pipeline.fit(X, y)

# 定义新数据

row = [2, 1, 530101, 38.50, 66, 28, 3, 3, nan, 2, 5, 4, 4, nan, nan, nan, 3, 5, 45.00, 8.40, nan, nan, 2, 11300, 00000, 00000, 2]

# 进行预测

yhat = pipeline.predict([row])

# 总结预测

print('预测类别: %d' % yhat[0])

运行该示例会在所有可用数据上拟合建模管道。

定义了一个新的数据行，其中缺失值标记为 NaN，并进行了分类预测。

预测类别：2

进一步阅读

如果您想深入了解，本节提供了更多关于该主题的资源。

书籍

API

数据集 (Dataset)

总结

在本教程中，您学习了如何使用统计插补策略来处理机器学习中的缺失数据。

具体来说，你学到了：

缺失值必须用 NaN 值标记，并可以用统计量替换以计算值列。
如何加载带有缺失值的 CSV 值，并用 NaN 值标记缺失值，并报告每列缺失值的数量和百分比。
如何在评估模型时以及将最终模型拟合到新数据以进行预测时，将缺失值与统计量一起作为数据准备方法进行插补。

你有什么问题吗？
在下面的评论中提出你的问题，我会尽力回答。

关于此主题的更多信息

Python 中用于降维的线性判别分析

如何在机器学习中使用幂变换