在机器学习入门和学习新工具时,拥有小而易懂的数据集是一个好主意。
Weka 机器学习工作台在其安装目录中提供了一个目录,其中包含小型、易于理解的数据集。
在这篇文章中,您将发现 Weka 随附的一些小型、易于理解的数据集,它们的详细信息以及在哪里可以了解更多关于它们的信息。
我们将重点介绍几个不同类型的数据集。阅读完这篇文章后,您将了解:
- 样本数据集的位置,或者如果您需要,可以重新下载它们的位置。
- 可用于探索分类和回归预测模型不同方面的特定标准数据集。
- 在哪里可以获取有关特定数据集和最先进结果的更多信息。
通过我的新书 Machine Learning Mastery With Weka 开启您的项目,其中包含分步教程和所有示例的清晰屏幕截图。
让我们开始吧。

Weka 实践中使用的标准机器学习数据集
照片由 Marvin Foushee 拍摄,保留部分权利。
标准 Weka 数据集
开源 Weka 机器学习工作台的安装包含一个 data/ 目录,其中充满了标准的机器学习问题。

Weka 安装目录
这在您开始机器学习或学习如何开始使用 Weka 平台时非常有用。它提供了标准机器学习数据集,用于常见的分类和回归问题,例如,下面是从该目录截取的快照。

Weka 安装目录中提供的数据集
所有数据集均为 Weka 原生的 ARFF 文件格式,可以直接加载到 Weka 中,这意味着您可以立即开始开发实践模型。
有些 Weka 的特殊发行版可能不包含 data/ 目录。如果您选择安装这些发行版之一,您可以 下载 Weka 的 .zip 发行版,解压缩它,然后将 data/ 目录复制到一个您可以从 Weka 轻松访问的位置。
data/ 目录中有许多数据集可供使用,在接下来的部分中,我将重点介绍几个可以用于练习和研究预测建模问题的数据集。
在Weka机器学习方面需要更多帮助吗?
参加我为期14天的免费电子邮件课程,逐步探索如何使用该平台。
点击注册,同时获得该课程的免费PDF电子书版本。
二元分类数据集
二元分类是指要预测的输出变量是名义变量,由两个类别组成。
这可能是研究得最多的预测建模问题类型,也是适合开始解决的问题类型。
data/ 目录中有三个标准的二元分类问题可以供您重点关注:
- Pima 印第安人糖尿病发病率:(diabetes.arff) 每个实例代表一个患者的医疗详细信息,任务是预测患者在未来五年内是否会发生糖尿病。有 8 个数值输入变量,所有变量的尺度各不相同。 您可以了解有关此数据集的更多信息。 最高准确率约为 77%。
- 乳腺癌:(breast-cancer.arff) 每个实例代表患者的医疗详细信息及其肿瘤组织样本,任务是预测患者是否患有乳腺癌。有 9 个名义输入变量。您可以在 UCI 机器学习仓库 中了解有关数据集的更多信息。 最高准确率约为 75%。
- 电离层 (ionosphere.arff) 每个实例描述了来自大气的雷达回波的属性,任务是预测电离层中是否存在结构。有 34 个数值输入变量,通常尺度相同。您可以在 UCI 机器学习仓库 中了解有关此数据集的更多信息。 最高准确率约为 98%。
多类分类数据集
存在许多分类类型的问题,其中输出变量有三个以上的类别。这些称为多类分类问题。
在对二元分类有一定信心后,这是一个很好的问题类型来研究。
data/ 目录中有三个标准的多类分类问题可以供您重点关注:
- 鸢尾花分类:(iris.arff) 每个实例描述了鸢尾花的测量值,任务是预测观测值属于哪三种鸢尾花之一。有 4 个数值输入变量,单位相同,尺度通常也相同。您可以在 UCI 机器学习仓库 中了解有关数据集的更多信息。最高准确率约为 96%。
- 大豆数据库:(soybean.arff) 每个实例描述了大豆作物的一个属性,任务是预测作物患有的 19 种疾病中的哪一种。有 35 个名义输入变量。您可以在 UCI 机器学习仓库 中了解有关此数据集的更多信息。
- 玻璃识别:(glass.arff) 每个实例描述了玻璃样本的化学成分,任务是从 7 个类别中预测玻璃的类型或用途。有 10 个数值属性,描述了玻璃的化学性质及其折射率。您可以在 UCI 机器学习仓库 中了解有关此数据集的更多信息。
回归数据集
回归问题是指必须预测实值输出的问题。
data/ 目录中的回归问题选择很少。回归是一类重要的预测建模问题。因此,我建议下载从 UCI 机器学习仓库收集的免费回归问题附加包。
它可以在 Weka 网页的 数据集页面 上找到,并且是列表中第一个叫做
- 一个包含 37 个回归问题的 jar 文件,来自各种来源 (datasets-numeric.jar)
这是一个 .jar 文件,是一种压缩的 Java 存档。您应该能够使用大多数现代解压程序将其解压缩。
如果您安装了 Java(您很可能需要它来使用 Weka),您也可以在下载 jar 的目录中使用以下命令在命令行上手动解压缩 .jar 文件。
1 |
jar -xvf datasets-numeric.jar |
解压缩文件将创建一个名为 numeric 的新目录,其中包含 37 个 ARFF 原生 Weka 格式的回归数据集。
numeric/ 目录中有三个回归数据集可供您重点关注:
- Longley 经济数据集:(longley.arff) 每个实例描述了一个国家在给定年份的宏观经济特性,任务是预测就业人数(整数)。有 6 个数值输入变量,尺度各不相同。
- 波士顿房价数据集:(housing.arff) 每个实例描述了波士顿郊区的特性,任务是预测房价(以千美元为单位)。有 13 个数值输入变量,尺度各不相同,描述了郊区的特性。您可以在 UCI 机器学习仓库 中了解有关此数据集的更多信息。
- 哺乳动物睡眠数据集:(sleep.arff) 每个实例描述了不同哺乳动物的特性,任务是预测它们平均需要的总睡眠小时数。有 7 个数值输入变量,尺度和测量单位不同。
总结
在这篇文章中,您发现了 Weka 机器学习平台随附的标准机器学习数据集。
具体来说,你学到了:
- 可用于练习的三个流行的二元分类问题:diabetes、breast-cancer 和 ionosphere。
- 可用于练习的三个流行的多类分类问题:iris、soybean 和 glass。
- 可用于练习的三个流行的回归问题:longley、housing 和 sleep。
您对 Weka 中的标准机器学习数据集或本文有任何疑问吗?请在评论中提出您的问题,我会尽力回答。
先生,我想在 weka 中上传蛋白质数据集。请在这方面帮助我。
抱歉,我没有加载 Weka 中蛋白质数据集的示例。
也许这篇文章能帮助您入门。
https://machinelearning.org.cn/load-csv-machine-learning-data-weka/
尊敬的 Jason Brownlee 博士。
在二元分类数据集中,您提到了糖尿病数据集,任务是预测患者在未来五年内是否会发生糖尿病。您能推荐另一个像这样清晰的任务的糖尿病数据集吗?
问题是,我检查了 UCI 机器学习仓库,那里还有其他糖尿病数据集。但我不知道该查看什么结果。而 Weka 中包含的这个数据集的目标很明确。此外,我能够以 CSV 格式打开其中一些数据集,但由于某些原因,Weka 不允许我应用任何分类器规则,所有这些都已禁用。
谢谢你,
很抱歉,我暂时不知道其他糖尿病数据集。
听到这个消息很遗憾,Jason Brownlee。但我还是感谢您的回复。
先生,您能帮助我获取关于学生对大学智能卡使用态度的相关数据集吗?或者,一般来说,关于智能卡使用态度的相关数据集?
也许直接收集数据?