如何在 Python 中加载和探索时间序列数据

作者： Jason Brownlee 发布于 2020 年 4 月 30 日分类：时间序列 41

Python 中的 Pandas 库为时间序列数据提供了出色的内置支持。

一旦加载，Pandas 还提供工具来探索和更好地理解您的数据集。

在这篇文章中，您将学习如何加载和探索您的时间序列数据集。

完成本教程后，您将了解：

如何使用 Pandas 从 CSV 文件加载时间序列数据集。
如何查看加载的数据并计算摘要统计信息。
如何绘制和查看您的时间序列数据。

用我的新书《Python 时间序列预测入门》来启动您的项目，包括分步教程和所有示例的 Python 源代码文件。

让我们开始吧。

2019 年 4 月更新：更新了数据集链接。
2019 年 8 月更新：数据加载已更新为使用新 API。

每日女性出生数据集

在这篇文章中，我们将使用每日女性出生数据集作为示例。

这个单变量时间序列数据集描述了 1959 年加利福尼亚州每日女性出生人数。

单位是计数，共有 365 个观测值。数据集的来源归功于 Newton (1988)。

下载数据集.

以下是数据的前 5 行样本，包括标题行。

"Date","Daily total female births in California, 1959"
"1959-01-01",35
"1959-01-02",32
"1959-01-03",30
"1959-01-04",31
"1959-01-05",44

“日期”，“1959 年加利福尼亚州每日女性出生总数”

"1959-01-01",35

"1959-01-02",32

"1959-01-03",30

"1959-01-04",31

"1959-01-05",44

以下是整个数据集的图。

每日女性出生数据集

下载数据集并将其放置在您的当前工作目录中，文件名为“daily-total-female-births-in-cal.csv”。

下载数据集.

加载时间序列数据

Pandas 将时间序列数据集表示为 Series。

一个 Series 是一个一维数组，每行都有一个时间标签。

该 Series 有一个名称，即数据列的列名。

您可以看到每行都有一个关联的日期。这实际上不是一个列，而是一个值的时间索引。作为索引，一个时间可以有多个值，并且值在时间上可以均匀或不均匀地分布。

Pandas 中用于加载 CSV 数据的主要函数是 read_csv() 函数。我们可以用它将时间序列加载为 Series 对象，而不是 DataFrame，如下所示：

# Load birth data using read_csv
from pandas import read_csv
series = read_csv('daily-total-female-births-in-cal.csv', header=0, parse_dates=[0], index_col=0, squeeze=True)
print(type(series))
print(series.head())

# 使用 read_csv 加载出生数据

from pandas import read_csv

series = read_csv('daily-total-female-births-in-cal.csv', header=0, parse_dates=[0], index_col=0, squeeze=True)

print(type(series))

print(series.head())

请注意 read_csv() 函数的参数。

我们提供了许多提示以确保数据作为 Series 加载。

header=0：我们必须在第 0 行指定标题信息。
parse_dates=[0]：我们提示函数第一列中的数据包含需要解析的日期。此参数接受一个列表，因此我们为其提供一个包含一个元素（即第一列的索引）的列表。
index_col=0：我们提示第一列包含时间序列的索引信息。
squeeze=True：我们提示我们只有一个数据列，并且我们对 Series 而不是 DataFrame 感兴趣。

您自己的数据可能需要使用的另一个参数是 date_parser，用于指定解析日期时间值的函数。在此示例中，日期格式已推断，并且在大多数情况下有效。在少数不起作用的情况下，请指定您自己的日期解析函数并使用 date_parser 参数。

运行上面的示例会打印相同的输出，但也确认时间序列确实作为 Series 对象加载。

<class 'pandas.core.series.Series'>
Date
1959-01-01 35
1959-01-02 32
1959-01-03 30
1959-01-04 31
1959-01-05 44
Name: Daily total female births in California, 1959, dtype: int64

日期

1959-01-01 35

1959-01-02 32

1959-01-03 30

1959-01-04 31

1959-01-05 44

名称：1959 年加利福尼亚州每日女性出生总数，dtype：int64

在 DataFrame 中执行时间序列数据操作通常比在 Series 对象中更容易。

在这种情况下，您可以轻松地将加载的 Series 转换为 DataFrame，如下所示：

dataframe = DataFrame(series)

1	dataframe = DataFrame(series)

进一步阅读

更多关于 pandas.read_csv() 函数的信息。

停止以慢速学习时间序列预测！

参加我的免费7天电子邮件课程，了解如何入门（附带示例代码）。

点击注册，同时获得该课程的免费PDF电子书版本。

探索时间序列数据

Pandas 还提供了探索和汇总时间序列数据的工具。

在本节中，我们将介绍一些常见的操作，以探索和汇总您加载的时间序列数据。

查看数据

最好查看加载的数据，以确认类型、日期和数据是否按预期加载。

您可以使用 head() 函数查看前 5 条记录，或指定要查看的前 n 条记录。

例如，您可以按如下方式打印前 10 行数据。

from pandas import read_csv
series = read_csv('daily-total-female-births-in-cal.csv', header=0, index_col=0)
print(series.head(10))

from pandas import read_csv

series = read_csv('daily-total-female-births-in-cal.csv', header=0, index_col=0)

print(series.head(10))

运行示例会打印以下内容

Date
1959-01-01 35
1959-01-02 32
1959-01-03 30
1959-01-04 31
1959-01-05 44
1959-01-06 29
1959-01-07 45
1959-01-08 43
1959-01-09 38
1959-01-10 27

日期

1959-01-01 35

1959-01-02 32

1959-01-03 30

1959-01-04 31

1959-01-05 44

1959-01-06 29

1959-01-07 45

1959-01-08 43

1959-01-09 38

1959-01-10 27

您还可以使用 tail() 函数获取数据集的最后 n 条记录。

观察值数量

对数据执行的另一个快速检查是已加载观察值的数量。

这有助于发现列标题未按预期处理的问题，并了解如何有效地划分数据以供以后与监督学习算法一起使用。

您可以使用 size 参数获取 Series 的维度。

from pandas import read_csv
series = read_csv('daily-total-female-births-in-cal.csv', header=0, index_col=0)
print(series.size)

from pandas import read_csv

series = read_csv('daily-total-female-births-in-cal.csv', header=0, index_col=0)

print(series.size)

运行此示例，我们可以看到，正如我们所期望的，有 365 个观测值，即 1959 年一年中的每一天都有一个观测值。

365

365

按时间查询

您可以使用时间索引对 Series 进行切片、分块和查询。

例如，您可以按如下方式访问一月份的所有观测值

from pandas import read_csv
series = read_csv('daily-total-female-births-in-cal.csv', header=0, parse_dates=[0], index_col=0, squeeze=True)
print(series['1959-01'])

from pandas import read_csv

series = read_csv('daily-total-female-births-in-cal.csv', header=0, parse_dates=[0], index_col=0, squeeze=True)

print(series['1959-01'])

运行此命令会显示 1959 年 1 月份的 31 个观测值。

Date
1959-01-01 35
1959-01-02 32
1959-01-03 30
1959-01-04 31
1959-01-05 44
1959-01-06 29
1959-01-07 45
1959-01-08 43
1959-01-09 38
1959-01-10 27
1959-01-11 38
1959-01-12 33
1959-01-13 55
1959-01-14 47
1959-01-15 45
1959-01-16 37
1959-01-17 50
1959-01-18 43
1959-01-19 41
1959-01-20 52
1959-01-21 34
1959-01-22 53
1959-01-23 39
1959-01-24 32
1959-01-25 37
1959-01-26 43
1959-01-27 39
1959-01-28 35
1959-01-29 44
1959-01-30 38
1959-01-31 24

日期

1959-01-01 35

1959-01-02 32

1959-01-03 30

1959-01-04 31

1959-01-05 44

1959-01-06 29

1959-01-07 45

1959-01-08 43

1959-01-09 38

1959-01-10 27

1959-01-11 38

1959-01-12 33

1959-01-13 55

1959-01-14 47

1959-01-15 45

1959-01-16 37

1959-01-17 50

1959-01-18 43

1959-01-19 41

1959-01-20 52

1959-01-21 34

1959-01-22 53

1959-01-23 39

1959-01-24 32

1959-01-25 37

1959-01-26 43

1959-01-27 39

1959-01-28 35

1959-01-29 44

1959-01-30 38

1959-01-31 24

这种基于索引的查询有助于在探索数据集时准备摘要统计信息和图表。

描述性统计学

计算时间序列的描述性统计量可以帮助了解值的分布和传播。

这可能有助于数据缩放甚至数据清理的想法，您可以在以后作为准备数据集进行建模的一部分执行。

describe() 函数创建加载时间序列的 7 项统计摘要，包括观测值的均值、标准差、中位数、最小值和最大值。

from pandas import read_csv
series = read_csv('daily-total-female-births-in-cal.csv', header=0, index_col=0)
print(series.describe())

from pandas import read_csv

series = read_csv('daily-total-female-births-in-cal.csv', header=0, index_col=0)

print(series.describe())

运行此示例会打印出生率数据集的摘要。

count 365.000000
mean 41.980822
std 7.348257
min 23.000000
25% 37.000000
50% 42.000000
75% 46.000000
max 73.000000

count 365.000000

mean 41.980822

std 7.348257

min 23.000000

25% 37.000000

50% 42.000000

75% 46.000000

max 73.000000

绘制时间序列图

绘制时间序列数据图，特别是单变量时间序列，是探索数据的重要组成部分。

此功能通过调用 plot() 函数在加载的 Series 上提供。

下面是绘制整个加载时间序列数据集的示例。

from pandas import read_csv
from matplotlib import pyplot
series = read_csv('daily-total-female-births-in-cal.csv', header=0, index_col=0)
pyplot.plot(series)
pyplot.show()

from pandas import read_csv

from matplotlib import pyplot

series = read_csv('daily-total-female-births-in-cal.csv', header=0, index_col=0)

pyplot.plot(series)

pyplot.show()

运行此示例会创建一个时间序列图，其中 y 轴显示每日出生人数，x 轴显示时间（天）。

每日女性出生总数图

进一步阅读

如果您有兴趣了解更多关于 Pandas 处理时间序列数据的功能，请参阅下面的链接。

总结

在这篇文章中，您学习了如何使用 Pandas Python 库加载和处理时间序列数据。

具体来说，你学到了：

如何将时间序列数据加载为 Pandas Series。
如何查看和计算时间序列数据的摘要统计信息。
如何绘制时间序列数据。

您对使用 Python 处理时间序列数据或本文有任何疑问吗？
在下面的评论中提出你的问题，我会尽力回答。

关于此主题的更多信息

如何从银行工作转变为 Target 的高级数据科学家

如何在 Python 中规范化和标准化时间序列数据