机器学习项目的数据管理

大量数据、标记数据、噪声数据。机器学习项目都需要关注数据。数据是机器学习项目的一个关键方面,而我们处理数据的方式是我们项目的一个重要考虑因素。当数据量增长,需要管理它们,让它们服务于多个项目,或者只是需要一种更好的方法来检索数据时,考虑使用数据库系统是很自然的。它可以是关系数据库,也可以是平面文件格式。它可以是本地的,也可以是远程的。

在本帖中,我们将探讨您可以在 Python 中用来存储和检索数据的不同格式和库。

完成本教程后,您将学习到:

  • 使用 SQLite、Python dbm 库、Excel 和 Google Sheets 管理数据
  • 如何使用外部存储的数据来训练您的机器学习模型
  • 在机器学习项目中使用数据库的优缺点是什么

开始您的项目,阅读我的新书《Python for Machine Learning》,其中包含分步教程和所有示例的Python源代码文件。

让我们开始吧!

使用 Python 管理数据
照片作者:Bill Benzon。部分权利保留。

概述

本教程分为七个部分,它们是:

  • 在 SQLite 中管理数据
  • SQLite 实操
  • 在 dbm 中管理数据
  • 在机器学习管道中使用 dbm 数据库
  • 在 Excel 中管理数据
  • 在 Google Sheets 中管理数据
  • 数据库的其他用途

在 SQLite 中管理数据

当我们提到数据库时,通常指的是以表格格式存储数据的关系数据库。

首先,让我们从 sklearn.dataset 获取一个表格数据集(想了解更多关于获取机器学习数据集的信息,请看我们的上一篇文章)。

以上几行代码从 OpenML 读取“PimaIndiansDiabetes 数据集”并创建一个 pandas DataFrame。这是一个分类数据集,具有多个数值特征和一个二元类别标签。我们可以用以下方式探索 DataFrame:

这给我们带来了

这不是一个非常大的数据集,但如果它太大了,可能无法全部加载到内存中。关系数据库是帮助我们高效管理表格数据而不必将所有数据保留在内存中的工具。通常,关系数据库会理解 SQL 方言,这是一种描述数据操作的语言。SQLite 是一种无服务器的数据库系统,无需任何设置,并且 Python 内置了库支持。在下面,我们将演示如何使用 SQLite 管理数据,但使用 MariaDB 或 PostgreSQL 等不同的数据库,它们的操作方式非常相似。

现在,让我们开始创建一个 SQLite 中的内存数据库,并获取一个游标对象,以便我们可以在新数据库上执行查询。

如果我们想将数据存储在磁盘上,以便稍后重用或与另一个程序共享,我们可以将数据库存储在数据库文件中,而不是在上面的代码片段中用文件名(例如 `example.db`)替换 `:memory:` 这个特殊字符串,如下所示:

现在,让我们创建一个新的表来存储我们的糖尿病数据。

cur.execute() 方法执行我们作为参数传递的 SQL 查询。在本例中,SQL 查询创建了 `diabetes` 表,其中包含不同的列及其相应的数据类型。此处不描述 SQL 语言,但您可以从许多数据库书籍和课程中了解更多信息。

接下来,我们可以从存储在 pandas DataFrame 中的糖尿病数据插入到我们新创建的内存 SQL 数据库的糖尿病表中。

让我们分解一下上面的代码:dataset.to_numpy().tolist() 为我们提供了 dataset 中数据的行列表,我们将此列表作为参数传递给 cur.executemany()。然后,cur.executemany() 多次运行 SQL 语句,每次使用 dataset.to_numpy().tolist() 中的一个元素,该元素是 dataset 的一行数据。参数化 SQL 每次都期望一个值的列表,因此我们应该将列表的列表传递给 executemany(),这正是 dataset.to_numpy().tolist() 生成的。

现在,我们可以检查以确认所有数据都已存储在数据库中。

在上面,我们使用 SQL 的 SELECT 语句查询 diabetes 表,获取 5 行随机数据。结果将以元组列表(每行一个元组)的形式返回。然后,我们通过为每列关联名称,将元组列表转换为 pandas DataFrame。运行上面的代码片段,我们会得到以下输出:

这是使用 sqlite3 为糖尿病数据集创建、插入和检索关系数据库样本的完整代码。

当数据集不是从互联网获取,而是随着时间的推移由您自己收集时,使用数据库的好处就显得尤为突出。例如,您可能在许多天里收集来自传感器的数​​据。您可能通过一个自动化作业将每小时收集的数据写入数据库。然后,您的机器学习项目可以使用数据库中的数据集运行,并且随着数据的积累,您可能会看到不同的结果。

让我们看看如何将我们的关系数据库构建到机器学习管道中!

SQLite 实操

既然我们已经探讨了如何使用 sqlite3 从关系数据库存储和检索数据,我们可能对如何将其集成到我们的机器学习管道中感兴趣。

通常,在这种情况下,我们将有一个过程来收集数据并将其写入数据库(例如,在许多天内读取传感器数据)。这将类似于上一节中的代码,除了我们更愿意将数据库写入磁盘以进行持久存储。然后,我们将在机器学习过程中从数据库读取数据,用于训练或预测。根据模型,有不同的方法可以使用数据。让我们考虑 Keras 的糖尿病二元分类模型。我们可以构建一个生成器来从数据库中读取随机批次数据。

上面的代码是一个生成器函数,它从 SQLite 数据库获取 batch_size 行数据,并将它们作为 NumPy 数组返回。我们可以使用此生成器的数据来训练我们的分类网络。

运行上面的代码会得到以下输出:

请注意,我们在生成器函数中只读取了批次数据,而不是全部数据。我们依赖数据库为我们提供数据,而不必担心数据库中数据集的大小。虽然 SQLite 不是客户端-服务器数据库系统,因此不能扩展到网络,但还有其他数据库系统可以做到这一点。因此,您可以设想使用一个异常大的数据集,而为我们的机器学习应用程序提供的内存量有限。

以下是完整的代码,从准备数据库到使用实时从数据库读取的数据训练 Keras 模型。

在继续下一节之前,我们应该强调所有数据库都略有不同。我们使用的 SQL 语句在其他数据库实现中可能不是最优的。此外,请注意 SQLite 并不是非常先进,因为它旨在成为一个不需要服务器设置的数据库。使用大规模数据库以及如何优化使用是一个很大的话题,但这里演示的概念应该仍然适用。

想开始学习机器学习 Python 吗?

立即参加我为期7天的免费电子邮件速成课程(附示例代码)。

点击注册,同时获得该课程的免费PDF电子书版本。

在 dbm 中管理数据

关系数据库非常适合表格数据,但并非所有数据集都具有表格结构。有时,数据最好存储在 Python 字典这样的结构中,即键值存储。有很多键值数据存储。MongoDB 可能是最知名的,它需要像 PostgreSQL 一样的服务器部署。GNU dbm 就像 SQLite 一样是无服务器存储,并且几乎安装在所有 Linux 系统中。在 Python 的标准库中,我们有 dbm 模块来处理它。

让我们探索 Python 的 dbm 库。该库支持两种不同的 dbm 实现:GNU dbm 和 ndbm。如果系统中没有安装其中任何一个,则 Python 自身有一个实现作为后备。无论底层的 dbm 实现如何,我们在 Python 程序中使用相同的语法。

这次,我们将演示使用 scikit-learn 的 digits 数据集。

dbm 库使用类似字典的接口来存储和检索 dbm 文件中的数据,将键映射到值,其中键和值都是字符串。将 digits 数据集存储在 `digits.dbm` 文件中的代码如下:

上面的代码片段会在 `digits.dbm` 文件不存在时创建它。然后,我们选择每个 digits 图像(来自 `digits.images`)和标签(来自 `digits.target`)并创建一个元组。我们将数据偏移量作为键,将元组的 pickled 字符串作为值存储在数据库中。与 Python 的字典不同,dbm 只允许字符串键和序列化值。因此,我们使用 `str(idx)` 将键转换为字符串,并且只存储 pickled 数据。

您可以在我们的上一篇文章中了解更多关于序列化的信息。

以下是如何从数据库中读回数据:

在上面的代码片段中,我们从数据库中获取 4 个随机键,然后获取它们相应的值,并使用 pickle.loads() 进行反序列化。如我们所知,反序列化后的数据将是一个元组;我们将它们分配给变量 imagetarget,然后将每个随机样本收集到列表 imagestargets 中。为了方便在 scikit-learn 或 Keras 中进行训练,我们通常希望整个批次都以 NumPy 数组的形式呈现。

运行上面的代码会得到以下输出:

将所有内容放在一起,这是检索 digits 数据集,然后创建、插入和采样 dbm 数据库的代码:

接下来,让我们看看如何在机器学习管道中使用我们新创建的 dbm 数据库!

在机器学习管道中使用 dbm 数据库

在这里,您可能会意识到,我们可以像在 SQLite 数据库示例中那样,创建生成器和 Keras 模型来进行数字分类。以下是如何修改代码。首先是我们的生成器函数。我们只需要在一个循环中选择随机键,然后从 dbm 存储中获取数据。

然后,我们可以为数据创建一个简单的MLP模型

运行上述代码将得到以下输出

这就是我们如何使用 dbm 数据库为数字数据集训练 MLP。使用 dbm 训练模型的完整代码在此处:

在像 MongoDB 或 Couchbase 这样的更高级的系统中,我们可以简单地要求数据库系统为我们读取随机记录,而不是从所有键的列表中选择随机样本。但理念仍然是相同的;我们可以依赖外部存储来保存我们的数据并管理我们的数据集,而不是在我们的 Python 脚本中这样做。

在 Excel 中管理数据

有时,内存并不是我们将数据放在机器学习脚本之外的原因。这是因为有更好的工具来处理数据。也许我们想使用工具在屏幕上显示所有数据并允许我们滚动,并进行格式化和突出显示等。或者我们想与不关心我们 Python 程序的其他人共享数据。在可以使用关系数据库的情况下,人们使用 Excel 来管理数据的情况相当普遍。虽然 Excel 可以读取和导出 CSV 文件,但很可能我们希望直接处理 Excel 文件。

在 Python 中,有几个库可以处理 Excel 文件,OpenPyXL 是其中最著名的之一。在使用它之前,我们需要安装这个库

如今,Excel 使用“Open XML Spreadsheet”格式,文件名以 .xlsx 结尾。较旧的 Excel 文件是二进制格式,文件名后缀为 .xls,OpenPyXL 不支持(您可以在其中使用 xlrdxlwt 模块进行读写)。

让我们考虑上面 SQLite 示例的相同情况。我们可以打开一个新的 Excel 工作簿并将我们的糖尿病数据集作为工作表写入

上面的代码是为了准备工作表中每个单元格(由行和列指定)的数据。当我们创建一个新的 Excel 文件时,默认会有一个工作表。然后单元格由行和列偏移量标识,从 1 开始。我们使用以下语法写入单元格

要从单元格读取,我们使用

逐个单元格写入 Excel 数据很繁琐,实际上我们可以逐行添加数据。以下是我们如何修改上述代码以按行而不是按单元格操作

将数据写入文件后,我们可以使用 Excel 可视化浏览数据、添加格式等:

将其用于机器学习项目并不比使用 SQLite 数据库更难。以下是 Keras 中的相同二元分类模型,但生成器正在从 Excel 文件读取

在上面,我们特意将 steps_per_epoch=20 的参数传递给 fit() 函数,因为上面的代码会非常慢。这是因为 OpenPyXL 是用 Python 实现的,以最大化兼容性,但它牺牲了编译模块可以提供的速度。因此,最好避免每次都从 Excel 读取数据行。如果我们确实需要使用 Excel,更好的选择是将所有数据一次性读入内存,然后直接使用。

在 Google 表格中管理数据

除了 Excel 工作簿之外,有时我们可能会发现 Google 表格更方便处理数据,因为它“在云端”。我们也可以通过类似于 Excel 的逻辑来管理 Google 表格中的数据。但首先,我们需要安装一些模块,然后才能在 Python 中访问它

假设您有一个 Gmail 帐户,并且您创建了一个 Google 表格。您在地址栏中看到的 URL,在 /edit 部分之前,告诉您表格的 ID,我们稍后将使用此 ID

要从 Python 程序访问此表格,最好为您的代码创建一个 **服务帐户**。这是一个机器可操作的帐户,它使用密钥进行身份验证,但可以由帐户所有者管理。您可以控制此服务帐户可以做什么以及何时过期。由于服务帐户独立于您的 Gmail 帐户,您也可以随时撤销它。

要创建服务帐户,首先,您需要转到 Google 开发人员控制台,https://console.developers.google.com,然后单击“创建项目”按钮创建一个项目

您需要提供一个名称,然后可以单击“创建”

它会将您带回控制台,但您的项目名称将显示在搜索框旁边。下一步是单击搜索框下方的“启用 API 和服务”以启用 API

由于我们将创建一个服务帐户来使用 Google 表格,因此我们在搜索框中搜索“sheets”

然后单击 Google Sheets API

并启用它

之后,我们将被送回控制台主屏幕,我们可以单击右上角的“创建凭据”来创建服务帐户

有不同类型的凭据,我们选择“服务帐户”

我们需要提供一个名称(供我们参考)、一个帐户 ID(作为项目的唯一标识符)和一个描述。在“服务帐户 ID”框下方显示的电子邮件就是此服务帐户的电子邮件。复制它,我们稍后将其添加到我们的 Google 表格中。在我们创建完所有这些之后,我们可以跳过其余部分,然后单击“完成”

完成后,我们将返回到控制台主屏幕,如果我们在“服务帐户”部分下看到它,就表明服务帐户已创建

接下来,我们需要单击帐户右侧的铅笔图标,这将带我们到以下屏幕

而不是密码,我们需要为该帐户创建一个密钥。我们单击顶部的“密钥”页面,然后单击“添加密钥”并选择“创建新密钥”

密钥有两种不同的格式,JSON 是首选格式。选择 JSON 并单击底部的“创建”将在 JSON 文件中下载密钥

JSON 文件将如下所示

保存 JSON 文件后,我们就可以返回到我们的 Google 表格,并将表格与我们的服务帐户共享。单击右上角的“共享”按钮,然后输入服务帐户的电子邮件地址。您可以跳过通知,只需单击“共享”。然后我们就准备好了!

此时,我们就可以从 Python 程序中使用服务帐户访问这个特定的 Google 表格了。要写入 Google 表格,我们可以使用 Google 的 API。我们首先依赖于我们刚才下载的服务帐户的 JSON 文件(在本例中为 mlm-python.json)来建立连接

如果我们刚刚创建它,文件中应该只有一个工作表,其 ID 为 0。所有使用 Google API 的操作都是 JSON 格式的。例如,以下是我们如何删除整个工作表中的所有内容,使用我们刚刚创建的连接

假设我们像第一个示例一样,将糖尿病数据集读入一个 DataFrame。然后,我们可以一次性将整个数据集写入 Google 表格。为此,我们需要创建一个列表的列表,以反映表格单元格的二维数组结构,然后将数据放入 API 查询中。

在上面,我们假设工作表名为“Sheet1”(如屏幕底部所示的默认名称)。我们将数据从左上角开始对齐,从单元格 A1(左上角)开始填充。我们使用 dataset.to_numpy().tolist() 将所有数据收集到列表中,但我们在开头添加了列标题作为额外的行。

从 Google 表格中读取数据也很类似。以下是我们如何读取随机一行数据的方法。

首先,我们可以通过检查其属性来确定工作表中有多少行。上面的 print() 语句将产生以下输出:

由于我们只有一个工作表,列表只包含一个属性字典。使用此信息,我们可以选择一个随机行并指定要读取的范围。上面的 data 变量将是一个类似的字典,数据将以列表的列表形式存在,并且可以通过 data["values"] 访问。

将所有这些结合起来,以下是将数据加载到 Google 表格并从中读取随机行数据的完整代码:(运行它时请务必更改 sheet_id

不可否认,以这种方式访问 Google 表格过于冗长。因此,我们有一个第三方模块 gspread 来简化操作。安装该模块后,我们可以像下面这样简单地检查电子表格的大小。

清除工作表、向其中写入行以及读取随机行可以按以下方式完成。

因此,前面的示例可以简化为以下更短的版本:

与读取 Excel 类似,使用存储在 Google 表格中的数据集,最好一次性读取,而不是在训练循环中逐行读取。这是因为每次读取时,您都会发送一个网络请求并等待 Google 服务器的回复。这不可能很快,因此最好避免。以下是如何将来自 Google 表格的数据与 Keras 代码结合进行训练的示例:

数据库的其他用途

前面的示例向您展示了如何从电子表格访问数据库。我们假设数据集存储在训练循环中并由机器学习模型使用。虽然这是使用外部数据存储的一种方式,但并非唯一的方式。数据库的其他一些用途可能包括:

  • 作为日志存储,以记录程序的详细信息,例如脚本在何时执行。当脚本会修改某些内容时,例如下载某个文件并覆盖旧版本,这对于跟踪更改特别有用。
  • 作为数据收集工具。就像我们可以使用 scikit-learn 的 GridSearchCV 一样,我们经常希望使用不同的超参数组合来评估模型性能。如果模型很大且复杂,我们可能希望将评估分发到不同的机器并收集结果。将几行代码添加到程序末尾,将交叉验证结果写入数据库或电子表格会很方便,这样我们就可以根据选定的超参数来制表结果。将这些数据存储在结构化格式中,可以让我们稍后报告结论。
  • 作为模型配置工具。除了写入超参数组合和验证分数外,我们还可以使用它作为一种工具,为运行程序提供超参数选择。如果我们决定更改参数,只需打开一个 Google 表格(例如)即可进行更改,而无需修改代码。

进一步阅读

以下是一些您可以深入了解的资源:

书籍

API 和库

文章

软件

总结

在本教程中,您了解了如何使用外部数据存储,包括数据库或电子表格。

具体来说,你学到了:

  • 如何让您的 Python 程序使用 SQL 语句访问如 SQLite 这样的关系数据库。
  • 如何使用 dbm 作为键值存储,并像 Python 字典一样使用它。
  • 如何读取 Excel 文件并写入其中。
  • 如何通过 Internet 访问 Google 表格。
  • 我们如何利用所有这些来托管数据集并在我们的机器学习项目中使用它们。

掌握机器学习 Python!

Python For Machine Learning

更自信地用 Python 编写代码

...从学习实用的 Python 技巧开始

在我的新电子书中探索如何实现
用于机器学习的 Python

它提供自学教程数百个可运行的代码,为您提供包括以下技能:
调试性能分析鸭子类型装饰器部署等等...

向您展示高级 Python 工具箱,用于
您的项目


查看内容

暂无评论。

Leave a Reply

Machine Learning Mastery 是 Guiding Tech Media 的一部分,Guiding Tech Media 是一家领先的数字媒体出版商,专注于帮助人们了解技术。访问我们的公司网站以了解更多关于我们的使命和团队的信息。