如何在 Python 中加载机器学习数据

作者： Jason Brownlee 发布于 2019 年 8 月 21 日在 Python 机器学习 111

在开始机器学习项目之前，您必须能够加载数据。

机器学习数据最常见的格式是 CSV 文件。在 Python 中加载 CSV 文件有多种方法。

在这篇文章中，您将发现可以在 Python 中加载机器学习数据的不同方法。

通过我的新书《使用 Python 进行机器学习精通》**启动您的项目**，其中包括**分步教程**和所有示例的 **Python 源代码**文件。

让我们开始吧。

**2017 年 3 月更新**：将加载从二进制（“rb”）更改为 ASCII（“rt”）。
2018年3月更新：添加了替代链接以下载数据集，因为原始链接似乎已被删除。
**2018 年 3 月更新**：更新了 NumPy 从 URL 加载的示例，以适用于 Python 3。

How To Load Machine Learning Data in Python

如何在 Python 中加载机器学习数据
图片由 Ann Larie Valentine 提供，保留部分权利。

加载 CSV 数据时的注意事项

从 CSV 文件加载机器学习数据时需要考虑许多因素。

作为参考，您可以通过查阅名为《逗号分隔值 (CSV) 文件的通用格式和 MIME 类型》的 CSV 征求意见书来了解有关 CSV 文件期望的许多信息。

CSV 文件头

您的数据有文件头吗？

如果有，这有助于自动为每列数据分配名称。如果没有，您可能需要手动命名您的属性。

无论哪种方式，您在加载数据时都应明确指定 CSV 文件是否包含文件头。

注释

您的数据有注释吗？

CSV 文件中的注释以行首的哈希符 (“#”) 表示。

如果您的文件中有注释，根据用于加载数据的方法，您可能需要指示是否期望有注释以及表示注释行的字符。

分隔符

分隔字段值的标准分隔符是逗号（“,”）字符。

您的文件可能使用不同的分隔符，例如制表符（“\t”），在这种情况下，您必须明确指定它。

引号

有时字段值可能包含空格。在这些 CSV 文件中，值通常用引号引起来。

默认的引号字符是双引号“"”。可以使用其他字符，您必须指定文件中使用的引号字符。

需要 Python 机器学习方面的帮助吗？

参加我为期 2 周的免费电子邮件课程，探索数据准备、算法等等（附带代码）。

立即点击注册，还将免费获得本课程的 PDF 电子书版本。

机器学习数据加载秘籍

每个秘籍都是独立的。

这意味着您可以将其复制粘贴到您的项目中并立即使用。

如果您对这些食谱有任何疑问或改进建议，请留言，我将尽力回答。

使用 Python 标准库加载 CSV

Python API 提供了 `CSV` 模块和 `reader()` 函数，可用于加载 CSV 文件。

加载后，您可以将 CSV 数据转换为 NumPy 数组并用于机器学习。

例如，您可以将 Pima Indians 数据集下载到您的本地目录（从这里下载）。

所有字段均为数字，没有标题行。运行以下代码将加载 CSV 文件并将其转换为 NumPy 数组。

# Load CSV (using python)
import csv
import numpy
filename = 'pima-indians-diabetes.data.csv'
raw_data = open(filename, 'rt')
reader = csv.reader(raw_data, delimiter=',', quoting=csv.QUOTE_NONE)
x = list(reader)
data = numpy.array(x).astype('float')
print(data.shape)

# 加载 CSV（使用 Python）

导入 csv

import numpy

文件名 = 'pima-indians-diabetes.data.csv'

原始数据 = 打开(文件名, 'rt')

读取器 = csv.读取器(原始数据, 分隔符=',', 引用=csv.不引用)

x = 列表(读取器)

数据 = numpy.数组(x).astype('float')

print(data.shape)

该示例加载一个可以迭代数据每一行的对象，并且可以轻松转换为 NumPy 数组。运行该示例将打印数组的形状。

(768, 9)

(768, 9)

有关 `csv.reader()` 函数的更多信息，请参阅 Python API 文档中的《CSV 文件读写》。

使用 NumPy 加载 CSV 文件

您可以使用 NumPy 和 `numpy.loadtxt()` 函数加载 CSV 数据。

此函数假定没有标题行，并且所有数据都具有相同的格式。下面的示例假定文件 `pima-indians-diabetes.data.csv` 位于您当前的工作目录中。

# Load CSV
import numpy
filename = 'pima-indians-diabetes.data.csv'
raw_data = open(filename, 'rt')
data = numpy.loadtxt(raw_data, delimiter=",")
print(data.shape)

# 加载 CSV

import numpy

文件名 = 'pima-indians-diabetes.data.csv'

原始数据 = 打开(文件名, 'rt')

数据 = numpy.loadtxt(原始数据, 分隔符=",")

print(data.shape)

运行示例将把文件加载为 numpy.ndarray 并打印数据的形状。

(768, 9)

(768, 9)

此示例可以修改为直接从 URL 加载相同的数据集，如下所示：

**注意**：此示例假定您使用的是 Python 3。

# Load CSV from URL using NumPy
from numpy import loadtxt
from urllib.request import urlopen
url = 'https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv'
raw_data = urlopen(url)
dataset = loadtxt(raw_data, delimiter=",")
print(dataset.shape)

# 使用 NumPy 从 URL 加载 CSV

从 numpy 导入 loadtxt

从 urllib.request 导入 urlopen

url = 'https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv'

原始数据 = urlopen(url)

数据集 = loadtxt(原始数据, 分隔符=",")

print(dataset.shape)

同样，运行该示例会生成相同的数据形状。

(768, 9)

(768, 9)

有关 numpy.loadtxt() 函数的更多信息，请参阅 API 文档（numpy 版本 1.10）。

使用 Pandas 加载 CSV 文件

您可以使用 Pandas 和 `pandas.read_csv()` 函数加载 CSV 数据。

这个函数非常灵活，可能是我推荐的加载机器学习数据的方法。该函数返回一个 pandas.DataFrame，您可以立即开始对其进行总结和绘图。

下面的示例假定“pima-indians-diabetes.data.csv”文件位于当前工作目录中。

# Load CSV using Pandas
import pandas
filename = 'pima-indians-diabetes.data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = pandas.read_csv(filename, names=names)
print(data.shape)

# 使用 Pandas 加载 CSV

import pandas

文件名 = 'pima-indians-diabetes.data.csv'

名称 = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']

数据 = pandas.read_csv(文件名, 名称=名称)

print(data.shape)

请注意，在此示例中，我们明确指定了每个属性的名称给 DataFrame。运行示例将显示数据的形状。

(768, 9)

(768, 9)

我们还可以修改此示例，以直接从 URL 加载 CSV 数据。

# Load CSV using Pandas from URL
import pandas
url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv"
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = pandas.read_csv(url, names=names)
print(data.shape)

# 使用 Pandas 从 URL 加载 CSV

import pandas

url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv"

名称 = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']

数据 = pandas.read_csv(url, 名称=名称)

print(data.shape)

同样，运行该示例会下载 CSV 文件，解析它并显示加载的 DataFrame 的形状。

(768, 9)

(768, 9)

要了解更多关于 pandas.read_csv() 函数的信息，您可以查阅 API 文档。

总结

在这篇文章中，您发现了如何在 Python 中加载机器学习数据。

您学习了三种可以使用的特定技术

使用 Python 标准库加载 CSV。
使用 NumPy 加载 CSV 文件。
使用 Pandas 加载 CSV 文件。

本文的操作步骤是输入或复制粘贴每个代码示例，并熟悉在 Python 中加载机器学习数据的不同方法。

您对在 Python 中加载机器学习数据或本文有什么疑问吗？请在评论中提出您的问题，我将尽力回答。

关于此主题的更多信息

Keras Python 深度学习入门

如何在 AWS EC2 GPU 上训练 Keras 深度学习模型（分步）