用于Weka实践的标准机器学习数据集

作者： Jason Brownlee 于 2020 年 12 月 10 日发布在 Weka 机器学习 7

在机器学习入门和学习新工具时，拥有小而易懂的数据集是一个好主意。

Weka 机器学习工作台在其安装目录中提供了一个目录，其中包含小型、易于理解的数据集。

在这篇文章中，您将发现 Weka 随附的一些小型、易于理解的数据集，它们的详细信息以及在哪里可以了解更多关于它们的信息。

我们将重点介绍几个不同类型的数据集。阅读完这篇文章后，您将了解：

样本数据集的位置，或者如果您需要，可以重新下载它们的位置。
可用于探索分类和回归预测模型不同方面的特定标准数据集。
在哪里可以获取有关特定数据集和最先进结果的更多信息。

通过我的新书 Machine Learning Mastery With Weka 开启您的项目，其中包含分步教程和所有示例的清晰屏幕截图。

让我们开始吧。

Standard Machine Learning Datasets Used For Practice in Weka

Weka 实践中使用的标准机器学习数据集
照片由 Marvin Foushee 拍摄，保留部分权利。

标准 Weka 数据集

开源 Weka 机器学习工作台的安装包含一个 data/ 目录，其中充满了标准的机器学习问题。

Weka 安装目录

这在您开始机器学习或学习如何开始使用 Weka 平台时非常有用。它提供了标准机器学习数据集，用于常见的分类和回归问题，例如，下面是从该目录截取的快照。

Provided Datasets in Weka Installation Directory

Weka 安装目录中提供的数据集

所有数据集均为 Weka 原生的 ARFF 文件格式，可以直接加载到 Weka 中，这意味着您可以立即开始开发实践模型。

有些 Weka 的特殊发行版可能不包含 data/ 目录。如果您选择安装这些发行版之一，您可以下载 Weka 的 .zip 发行版，解压缩它，然后将 data/ 目录复制到一个您可以从 Weka 轻松访问的位置。

data/ 目录中有许多数据集可供使用，在接下来的部分中，我将重点介绍几个可以用于练习和研究预测建模问题的数据集。

在Weka机器学习方面需要更多帮助吗？

参加我为期14天的免费电子邮件课程，逐步探索如何使用该平台。

点击注册，同时获得该课程的免费PDF电子书版本。

二元分类数据集

二元分类是指要预测的输出变量是名义变量，由两个类别组成。

这可能是研究得最多的预测建模问题类型，也是适合开始解决的问题类型。

data/ 目录中有三个标准的二元分类问题可以供您重点关注：

Pima 印第安人糖尿病发病率：(diabetes.arff) 每个实例代表一个患者的医疗详细信息，任务是预测患者在未来五年内是否会发生糖尿病。有 8 个数值输入变量，所有变量的尺度各不相同。您可以了解有关此数据集的更多信息。最高准确率约为 77%。
乳腺癌：(breast-cancer.arff) 每个实例代表患者的医疗详细信息及其肿瘤组织样本，任务是预测患者是否患有乳腺癌。有 9 个名义输入变量。您可以在 UCI 机器学习仓库中了解有关数据集的更多信息。最高准确率约为 75%。
电离层 (ionosphere.arff) 每个实例描述了来自大气的雷达回波的属性，任务是预测电离层中是否存在结构。有 34 个数值输入变量，通常尺度相同。您可以在 UCI 机器学习仓库中了解有关此数据集的更多信息。最高准确率约为 98%。

多类分类数据集

存在许多分类类型的问题，其中输出变量有三个以上的类别。这些称为多类分类问题。

在对二元分类有一定信心后，这是一个很好的问题类型来研究。

data/ 目录中有三个标准的多类分类问题可以供您重点关注：

鸢尾花分类：(iris.arff) 每个实例描述了鸢尾花的测量值，任务是预测观测值属于哪三种鸢尾花之一。有 4 个数值输入变量，单位相同，尺度通常也相同。您可以在 UCI 机器学习仓库中了解有关数据集的更多信息。最高准确率约为 96%。
大豆数据库：(soybean.arff) 每个实例描述了大豆作物的一个属性，任务是预测作物患有的 19 种疾病中的哪一种。有 35 个名义输入变量。您可以在 UCI 机器学习仓库中了解有关此数据集的更多信息。
玻璃识别：(glass.arff) 每个实例描述了玻璃样本的化学成分，任务是从 7 个类别中预测玻璃的类型或用途。有 10 个数值属性，描述了玻璃的化学性质及其折射率。您可以在 UCI 机器学习仓库中了解有关此数据集的更多信息。

回归数据集

回归问题是指必须预测实值输出的问题。

data/ 目录中的回归问题选择很少。回归是一类重要的预测建模问题。因此，我建议下载从 UCI 机器学习仓库收集的免费回归问题附加包。

它可以在 Weka 网页的数据集页面上找到，并且是列表中第一个叫做

一个包含 37 个回归问题的 jar 文件，来自各种来源 (datasets-numeric.jar)

这是一个 .jar 文件，是一种压缩的 Java 存档。您应该能够使用大多数现代解压程序将其解压缩。

如果您安装了 Java（您很可能需要它来使用 Weka），您也可以在下载 jar 的目录中使用以下命令在命令行上手动解压缩 .jar 文件。

jar -xvf datasets-numeric.jar

1	jar -xvf datasets-numeric.jar

解压缩文件将创建一个名为 numeric 的新目录，其中包含 37 个 ARFF 原生 Weka 格式的回归数据集。

numeric/ 目录中有三个回归数据集可供您重点关注：

Longley 经济数据集：(longley.arff) 每个实例描述了一个国家在给定年份的宏观经济特性，任务是预测就业人数（整数）。有 6 个数值输入变量，尺度各不相同。
波士顿房价数据集：(housing.arff) 每个实例描述了波士顿郊区的特性，任务是预测房价（以千美元为单位）。有 13 个数值输入变量，尺度各不相同，描述了郊区的特性。您可以在 UCI 机器学习仓库中了解有关此数据集的更多信息。
哺乳动物睡眠数据集：(sleep.arff) 每个实例描述了不同哺乳动物的特性，任务是预测它们平均需要的总睡眠小时数。有 7 个数值输入变量，尺度和测量单位不同。

总结

在这篇文章中，您发现了 Weka 机器学习平台随附的标准机器学习数据集。

具体来说，你学到了：

可用于练习的三个流行的二元分类问题：diabetes、breast-cancer 和 ionosphere。
可用于练习的三个流行的多类分类问题：iris、soybean 和 glass。
可用于练习的三个流行的回归问题：longley、housing 和 sleep。

您对 Weka 中的标准机器学习数据集或本文有任何疑问吗？请在评论中提出您的问题，我会尽力回答。

关于此主题的更多信息

7 条回复“Weka 标准机器学习数据集实践”

m a sher 2017 年 7 月 13 日下午 5:09 #

先生，我想在 weka 中上传蛋白质数据集。请在这方面帮助我。

回复
- Jason Brownlee 2017 年 7 月 14 日上午 8:24 #
  
  抱歉，我没有加载 Weka 中蛋白质数据集的示例。
  
  也许这篇文章能帮助您入门。
  https://machinelearning.org.cn/load-csv-machine-learning-data-weka/
  
  回复
Fernando 2017 年 8 月 11 日上午 6:12 #

尊敬的 Jason Brownlee 博士。

在二元分类数据集中，您提到了糖尿病数据集，任务是预测患者在未来五年内是否会发生糖尿病。您能推荐另一个像这样清晰的任务的糖尿病数据集吗？

问题是，我检查了 UCI 机器学习仓库，那里还有其他糖尿病数据集。但我不知道该查看什么结果。而 Weka 中包含的这个数据集的目标很明确。此外，我能够以 CSV 格式打开其中一些数据集，但由于某些原因，Weka 不允许我应用任何分类器规则，所有这些都已禁用。

谢谢你，

回复
- Jason Brownlee 2017 年 8 月 11 日上午 6:47 #
  
  很抱歉，我暂时不知道其他糖尿病数据集。
  
  回复
  - Fernano 2017 年 8 月 15 日上午 5:04 #
    
    听到这个消息很遗憾，Jason Brownlee。但我还是感谢您的回复。
    
    回复
Peter 2018 年 1 月 17 日下午 6:34 #

先生，您能帮助我获取关于学生对大学智能卡使用态度的相关数据集吗？或者，一般来说，关于智能卡使用态度的相关数据集？

回复
- Jason Brownlee 2018 年 1 月 18 日上午 10:06 #
  
  也许直接收集数据？
  
  回复

导航

用于Weka实践的标准机器学习数据集