如何使用 Python 进行时间序列预测

作者： Jason Brownlee 于 2020年4月24日发布于时间序列 77

选择一个时间序列预测模型仅仅是开始。

在实践中使用所选模型可能会带来挑战，包括数据转换和将模型参数存储在磁盘上。

在本教程中，您将了解如何完成时间序列预测模型并使用它在 Python 中进行预测。

完成本教程后，您将了解：

如何完成模型并将其及所需数据保存到文件。
如何从文件加载已完成的模型并用它来进行预测。
如何更新已完成模型的相关数据以进行后续预测。

开始您的项目，阅读我的新书 Python 时间序列预测入门，其中包括分步教程和所有示例的Python 源代码文件。

让我们开始吧。

更新于 2017 年 2 月：更新了布局和文件名，以将 AR 案例与手动案例分开。
2019 年 4 月更新：更新了数据集链接。
更新于 2019 年 8 月：更新了 CSV 文件加载。
2020 年 4 月更新：由于 API 更改，将 AR 更改为 AutoReg。

How to Make Predictions for Time Series Forecasting with Python

如何使用 Python 进行时间序列预测
照片由 joe christiansen 拍摄，保留部分权利。

预测流程

关于如何调整特定时间序列预测模型的内容有很多，但关于如何使用模型进行预测的帮助却很少。

一旦您能够为数据构建和调整预测模型，进行预测的过程就包括以下步骤：

模型选择。这是您选择模型并收集证据和支持以论证决定的地方。
模型定型。所选模型将在所有可用数据上进行训练，并保存到文件以供以后使用。
预测。加载已保存的模型并用于进行预测。
模型更新。在出现新观测值时，模型的要素会得到更新。

在本教程中，我们将逐一介绍这些要素，重点关注模型与文件的保存和加载，以及使用加载的模型进行预测。

在开始之前，我们先来看一个标准单变量数据集，以便将其作为本教程的背景。

停止以慢速学习时间序列预测！

参加我的免费7天电子邮件课程，了解如何入门（附带示例代码）。

点击注册，同时获得该课程的免费PDF电子书版本。

每日女性出生数据集

此数据集描述了 1959 年加利福尼亚州每日女性出生人数。

单位是计数，共有 365 个观测值。数据集的来源归功于 Newton (1988)。

下载数据集.

下载数据集并将其放在您当前的工作目录中，文件名为“_daily-total-female-births.csv_”。

我们可以将数据集加载为 Pandas 系列。以下代码片段加载并绘制数据集。

from pandas import read_csv
from matplotlib import pyplot
series = read_csv('daily-total-female-births.csv', header=0, index_col=0)
print(series.head())
series.plot()
pyplot.show()

from pandas import read_csv

from matplotlib import pyplot

series = read_csv('daily-total-female-births.csv', header=0, index_col=0)

print(series.head())

series.plot()

pyplot.show()

运行此示例将打印数据集的前 5 行。

Date
1959-01-01    35
1959-01-02    32
1959-01-03    30
1959-01-04    31
1959-01-05    44

日期

1959-01-01 35

1959-01-02 32

1959-01-03 30

1959-01-04 31

1959-01-05 44

然后将该序列绘制为线图。

每日女性出生数据集线图

1. 选择时间序列预测模型

您必须选择一个模型。

这是准备数据、执行分析并最终选择最能捕捉数据中关系的模型和模型超参数的工作重心所在。

在这种情况下，我们可以任意选择一个在差分数据集上滞后为 6 的自回归模型 (AR)。

我们可以在下面演示此模型。

首先，通过差分转换数据，每个观测值都转换为

value(t) = obs(t) - obs(t - 1)

1	value(t) = obs(t) - obs(t - 1)

接下来，AR(6) 模型将在 66% 的历史数据上进行训练。模型学习到的回归系数将被提取出来，并以滚动的方式应用于测试数据集以进行预测。

在测试数据集的每个时间步执行时，都会使用系数进行预测并存储。然后，该时间步的实际观测值将可用并存储起来，以用作未来预测的滞后变量。

# fit and evaluate an AR model
from pandas import read_csv
from matplotlib import pyplot
from statsmodels.tsa.ar_model import AutoReg
from sklearn.metrics import mean_squared_error
import numpy
from math import sqrt

# create a difference transform of the dataset
def difference(dataset):
	diff = list()
	for i in range(1, len(dataset)):
		value = dataset[i] - dataset[i - 1]
		diff.append(value)
	return numpy.array(diff)

# Make a prediction give regression coefficients and lag obs
def predict(coef, history):
	yhat = coef[0]
	for i in range(1, len(coef)):
		yhat += coef[i] * history[-i]
	return yhat

series = read_csv('daily-total-female-births.csv', header=0, index_col=0, parse_dates=True, squeeze=True)
# split dataset
X = difference(series.values)
size = int(len(X) * 0.66)
train, test = X[0:size], X[size:]
# train autoregression
window = 6
model = AutoReg(train, lags=6)
model_fit = model.fit()
coef = model_fit.params
# walk forward over time steps in test
history = [train[i] for i in range(len(train))]
predictions = list()
for t in range(len(test)):
	yhat = predict(coef, history)
	obs = test[t]
	predictions.append(yhat)
	history.append(obs)
rmse = sqrt(mean_squared_error(test, predictions))
print('Test RMSE: %.3f' % rmse)
# plot
pyplot.plot(test)
pyplot.plot(predictions, color='red')
pyplot.show()

# 拟合和评估 AR 模型

from pandas import read_csv

from matplotlib import pyplot

from statsmodels.tsa.ar_model import AutoReg

from sklearn.metrics import mean_squared_error

import numpy

from math import sqrt

# 创建数据集的差分转换

def difference(dataset):

diff = list()

for i in range(1, len(dataset)):

value = dataset[i] - dataset[i - 1]

diff.append(value)

return numpy.array(diff)

# 根据回归系数和滞后观测值进行预测

def predict(coef, history):

yhat = coef[0]

for i in range(1, len(coef)):

yhat += coef[i] * history[-i]

return yhat

series = read_csv('daily-total-female-births.csv', header=0, index_col=0, parse_dates=True, squeeze=True)

# 分割数据集

X = difference(series.values)

size = int(len(X) * 0.66)

train, test = X[0:size], X[size:]

# 训练自回归模型

window = 6

model = AutoReg(train, lags=6)

model_fit = model.fit()

coef = model_fit.params

# 遍历测试集中的时间步

history = [train[i] for i in range(len(train))]

predictions = list()

for t in range(len(test)):

yhat = predict(coef, history)

obs = test[t]

predictions.append(yhat)

history.append(obs)

rmse = sqrt(mean_squared_error(test, predictions))

print('Test RMSE: %.3f' % rmse)

# 绘图

pyplot.plot(test)

pyplot.plot(predictions, color='red')

pyplot.show()

运行此示例将首先打印预测的均方根误差 (RMSE)，平均约为 7 个出生。

这就是我们期望模型在对新数据进行预测时平均能够达到的效果。

Test RMSE: 7.259

1	测试 RMSE: 7.259

最后，创建一张图，显示测试数据集中的实际观测值（蓝色）与预测值（红色）的对比。

Predictions vs Actual Daily Female Birth Dataset Line Plot

预测值与实际每日女性出生数据集线图

这可能不是我们能为这个问题开发的最佳模型，但它合理且有技巧。

2. 定型和保存时间序列预测模型

模型选定后，我们必须对其进行定型。

这意味着要保存模型学到的关键信息，以便在需要进行预测时不必每次都重新创建它。

这包括首先在所有可用数据上训练模型，然后将模型保存到文件。

statsmodels 时间序列模型的实现通过调用已拟合的 AutoRegResults 对象的 save() 和 load() 方法，提供了内置的保存和加载模型功能。

例如，下面的代码将在整个女性出生数据集上训练一个 AR(6) 模型，并使用内置的 save() 函数将其保存，该函数基本上会序列化 AutoRegResults 对象。

差分训练数据也必须保存，包括进行预测所需的滞后变量，以及 AutoRegResults 对象的 predict() 函数所需的观测数量信息。

最后，我们需要能够将差分数据集转换回原始形式。为此，我们必须跟踪最后一个实际观测值。这样，就可以将预测的差分值加到它上面。

# fit an AR model and save the whole model to file
from pandas import read_csv
from statsmodels.tsa.ar_model import AutoReg
import numpy

# create a difference transform of the dataset
def difference(dataset):
	diff = list()
	for i in range(1, len(dataset)):
		value = dataset[i] - dataset[i - 1]
		diff.append(value)
	return numpy.array(diff)

# load dataset
series = read_csv('daily-total-female-births.csv', header=0, index_col=0, parse_dates=True, squeeze=True)
X = difference(series.values)
# fit model
model = AutoReg(X, lags=6)
model_fit = model.fit()
# save model to file
model_fit.save('ar_model.pkl')
# save the differenced dataset
numpy.save('ar_data.npy', X)
# save the last ob
numpy.save('ar_obs.npy', [series.values[-1]])

# 拟合 AR 模型并将整个模型保存到文件

from pandas import read_csv

from statsmodels.tsa.ar_model import AutoReg

import numpy

# 创建数据集的差分转换

def difference(dataset):

diff = list()

for i in range(1, len(dataset)):

value = dataset[i] - dataset[i - 1]

diff.append(value)

return numpy.array(diff)

# 加载数据集

series = read_csv('daily-total-female-births.csv', header=0, index_col=0, parse_dates=True, squeeze=True)

X = difference(series.values)

# 拟合模型

model = AutoReg(X, lags=6)

model_fit = model.fit()

# 将模型保存到文件

model_fit.save('ar_model.pkl')

# 保存差分数据集

numpy.save('ar_data.npy', X)

# 保存最后一个观测值

numpy.save('ar_obs.npy', [series.values[-1]])

此代码将创建一个文件 ar_model.pkl，您以后可以加载它并用它来进行预测。

整个训练数据集将保存为 ar_data.npy，最后一个观测值将保存为文件 ar_obs.npy，其中包含一个项目。

NumPy 的 save() 函数用于保存差分训练数据和观测值。然后可以使用 load() 函数加载这些数组。

以下代码片段将加载模型、差分数据和最后一个观测值。

# load the AR model from file
from statsmodels.tsa.ar_model import AutoRegResults
import numpy
loaded = AutoRegResults.load('ar_model.pkl')
print(loaded.params)
data = numpy.load('ar_data.npy')
last_ob = numpy.load('ar_obs.npy')
print(last_ob)

# 从文件加载 AR 模型

from statsmodels.tsa.ar_model import AutoRegResults

import numpy

loaded = AutoRegResults.load('ar_model.pkl')

print(loaded.params)

data = numpy.load('ar_data.npy')

last_ob = numpy.load('ar_obs.npy')

print(last_ob)

运行此示例将打印系数和最后一个观测值。

[ 0.12129822 -0.75275857 -0.612367   -0.51097172 -0.4176669  -0.32116469
 -0.23412997]
[50]

[ 0.12129822 -0.75275857 -0.612367 -0.51097172 -0.4176669 -0.32116469

-0.23412997]

[50]

我认为这对于大多数情况来说都很好，但也很笨重。您会受到 statsmodels API 更改的影响。

我倾向于直接处理模型的系数，如上面所示，使用滚动预测来评估模型。

在这种情况下，您可以只存储模型系数，稍后加载它们并进行预测。

下面的示例仅保存模型系数，以及进行下一次预测所需的最小差分滞后值和转换下一次预测所需的最后一个观测值。

# fit an AR model and manually save coefficients to file
from pandas import read_csv
from statsmodels.tsa.ar_model import AutoReg
import numpy

# create a difference transform of the dataset
def difference(dataset):
	diff = list()
	for i in range(1, len(dataset)):
		value = dataset[i] - dataset[i - 1]
		diff.append(value)
	return numpy.array(diff)

# load dataset
series = read_csv('daily-total-female-births.csv', header=0, index_col=0, parse_dates=True, squeeze=True)
X = difference(series.values)
# fit model
window_size = 6
model = AutoReg(X, lags=window_size)
model_fit = model.fit()
# save coefficients
coef = model_fit.params
numpy.save('man_model.npy', coef)
# save lag
lag = X[-window_size:]
numpy.save('man_data.npy', lag)
# save the last ob
numpy.save('man_obs.npy', [series.values[-1]])

# 拟合 AR 模型并手动将系数保存到文件

from pandas import read_csv

from statsmodels.tsa.ar_model import AutoReg

import numpy

# 创建数据集的差分转换

def difference(dataset):

diff = list()

for i in range(1, len(dataset)):

value = dataset[i] - dataset[i - 1]

diff.append(value)

return numpy.array(diff)

# 加载数据集

series = read_csv('daily-total-female-births.csv', header=0, index_col=0, parse_dates=True, squeeze=True)

X = difference(series.values)

# 拟合模型

window_size = 6

model = AutoReg(X, lags=window_size)

model_fit = model.fit()

# 保存系数

coef = model_fit.params

numpy.save('man_model.npy', coef)

# 保存滞后

lag = X[-window_size:]

numpy.save('man_data.npy', lag)

# 保存最后一个观测值

numpy.save('man_obs.npy', [series.values[-1]])

系数保存在本地文件 man_model.npy 中，滞后历史保存在文件 man_data.npy 中，最后一个观测值保存在文件 man_obs.npy 中。

这些值随后可以如下加载：

# load the manually saved model from file
import numpy
coef = numpy.load('man_model.npy')
print(coef)
lag = numpy.load('man_data.npy')
print(lag)
last_ob = numpy.load('man_obs.npy')
print(last_ob)

# 从文件加载手动保存的模型

import numpy

coef = numpy.load('man_model.npy')

print(coef)

lag = numpy.load('man_data.npy')

print(lag)

last_ob = numpy.load('man_obs.npy')

print(last_ob)

运行此示例将打印加载的数据以供审查。我们可以看到系数和最后一个观测值与上一个示例的输出相符。

[ 0.12129822 -0.75275857 -0.612367   -0.51097172 -0.4176669  -0.32116469
 -0.23412997]
[-10   3  15  -4   7  -5]
[50]

[ 0.12129822 -0.75275857 -0.612367 -0.51097172 -0.4176669 -0.32116469

-0.23412997]

[-10 3 15 -4 7 -5]

[50]

既然我们知道如何保存定型模型，我们就可以用它来进行预测。

3. 进行时间序列预测

进行预测包括加载已保存的模型并估计下一个时间步的观测值。

如果 AutoRegResults 对象已序列化，我们可以使用 predict() 函数来预测下一个时间段。

下面的示例显示了如何预测下一个时间段。

模型、训练数据和最后一个观测值将从文件加载。

将 period 指定给 predict() 函数，作为训练数据集末尾后的下一个时间索引。此索引可以直接存储在文件中，而不是存储整个训练数据，这可能是一种提高效率的方法。

进行预测，该预测是在差分数据集的上下文中进行的。要将预测值转换回原始单位，必须将其添加到最后一个已知观测值。

# load AR model from file and make a one-step prediction
from statsmodels.tsa.ar_model import AutoRegResults
import numpy
# load model
model = AutoRegResults.load('ar_model.pkl')
data = numpy.load('ar_data.npy')
last_ob = numpy.load('ar_obs.npy')
# make prediction
predictions = model.predict(start=len(data), end=len(data))
# transform prediction
yhat = predictions[0] + last_ob[0]
print('Prediction: %f' % yhat)

# 从文件加载 AR 模型并进行一步预测

from statsmodels.tsa.ar_model import AutoRegResults

import numpy

# 加载模型

model = AutoRegResults.load('ar_model.pkl')

data = numpy.load('ar_data.npy')

last_ob = numpy.load('ar_obs.npy')

# 进行预测

predictions = model.predict(start=len(data), end=len(data))

# 转换预测

yhat = predictions[0] + last_ob[0]

print('Prediction: %f' % yhat)

运行此示例将打印预测值。

Prediction: 46.755211

1	预测值: 46.755211

我们还可以使用类似的技巧加载原始系数并进行手动预测。
完整的示例如下所示。

# load a coefficients and from file and make a manual prediction
import numpy

def predict(coef, history):
	yhat = coef[0]
	for i in range(1, len(coef)):
		yhat += coef[i] * history[-i]
	return yhat

# load model
coef = numpy.load('man_model.npy')
lag = numpy.load('man_data.npy')
last_ob = numpy.load('man_obs.npy')
# make prediction
prediction = predict(coef, lag)
# transform prediction
yhat = prediction + last_ob[0]
print('Prediction: %f' % yhat)

# 从文件加载系数并手动进行预测

import numpy

def predict(coef, history):

yhat = coef[0]

for i in range(1, len(coef)):

yhat += coef[i] * history[-i]

return yhat

# 加载模型

coef = numpy.load('man_model.npy')

lag = numpy.load('man_data.npy')

last_ob = numpy.load('man_obs.npy')

# 进行预测

prediction = predict(coef, lag)

# 转换预测

yhat = prediction + last_ob[0]

print('Prediction: %f' % yhat)

运行此示例，我们将获得与预期相同的预测值，因为底层的模型和预测方法是相同的。

Prediction: 46.755211

1	预测值: 46.755211

4. 更新预测模型

我们的工作尚未完成。

一旦下一个实际观测值可用，我们就必须更新与模型相关的数据。

具体来说，我们必须更新：

用于输入以进行后续预测的差分训练数据集。
最后一个观测值，为预测的差分值提供上下文。

假设系列中的下一个实际观测值为 48。
新观测值必须首先与最后一个观测值进行差分。然后可以将其存储在差分观测值列表中。最后，可以将其值存储为最后一个观测值。

对于已保存的 AR 模型，我们可以更新 ar_data.npy 和 ar_obs.npy 文件。完整的示例列在下面：

# update the data for the AR model with a new obs
import numpy
# get real observation
observation = 48
# load the saved data
data = numpy.load('ar_data.npy')
last_ob = numpy.load('ar_obs.npy')
# update and save differenced observation
diffed = observation - last_ob[0]
data = numpy.append(data, [diffed], axis=0)
numpy.save('ar_data.npy', data)
# update and save real observation
last_ob[0] = observation
numpy.save('ar_obs.npy', last_ob)

# 使用新观测值更新 AR 模型的数据

import numpy

# 获取实际观测值

observation = 48

# 加载已保存的数据

data = numpy.load('ar_data.npy')

last_ob = numpy.load('ar_obs.npy')

# 更新并保存差分观测值

diffed = observation - last_ob[0]

data = numpy.append(data, [diffed], axis=0)

numpy.save('ar_data.npy', data)

# 更新并保存实际观测值

last_ob[0] = observation

numpy.save('ar_obs.npy', last_ob)

我们可以对手动案例的数据文件进行相同的更改。具体来说，我们可以分别更新 man_data.npy 和 man_obs.npy。

完整的示例如下所示。

# update the data for the manual model with a new obs
import numpy
# get real observation
observation = 48
# update and save differenced observation
lag = numpy.load('man_data.npy')
last_ob = numpy.load('man_obs.npy')
diffed = observation - last_ob[0]
lag = numpy.append(lag[1:], [diffed], axis=0)
numpy.save('man_data.npy', lag)
# update and save real observation
last_ob[0] = observation
numpy.save('man_obs.npy', last_ob)

# 使用新观测值更新手动模型的数据

import numpy

# 获取实际观测值

observation = 48

# 更新并保存差分观测值

lag = numpy.load('man_data.npy')

last_ob = numpy.load('man_obs.npy')

diffed = observation - last_ob[0]

lag = numpy.append(lag[1:], [diffed], axis=0)

numpy.save('man_data.npy', lag)

# 更新并保存实际观测值

last_ob[0] = observation

numpy.save('man_obs.npy', last_ob)

我们专注于一步预测。

这些方法同样适用于多步预测，通过重复使用模型并使用先前时间步的预测作为滞后输入来预测后续时间步的观测值。

考虑存储所有观测值

通常，跟踪所有观测值是一个好主意。

这将允许您：

为进一步的时间序列分析提供上下文，以了解数据中的新变化。
将来使用最新数据训练新模型。
回测新的和不同的模型，以查看性能是否可以提高。

对于小型应用程序，您可以将原始观测值与模型一起存储在文件中。

您可能还希望将模型系数以及所需的滞后数据和最后一个观测值以纯文本格式存储，以便于审查。

对于大型应用程序，数据库系统可能可以用于存储观测值。

总结

在本教程中，您学习了如何使用 Python 完成时间序列模型并用它来进行预测。

具体来说，你学到了：

如何将时间序列预测模型保存到文件。
如何从文件加载已保存的时间序列预测并进行预测。
如何使用新观测值更新时间序列预测模型。

你有什么问题吗？
在下面的评论中提出你的问题，我会尽力回答。

关于此主题的更多信息

如何使用 Python 进行时间序列预测的功率转换

如何将时间序列数据分解为趋势和季节性