用于Weka实践的标准机器学习数据集

在机器学习入门和学习新工具时,拥有小而易懂的数据集是一个好主意。

Weka 机器学习工作台在其安装目录中提供了一个目录,其中包含小型、易于理解的数据集。

在这篇文章中,您将发现 Weka 随附的一些小型、易于理解的数据集,它们的详细信息以及在哪里可以了解更多关于它们的信息。

我们将重点介绍几个不同类型的数据集。阅读完这篇文章后,您将了解:

  • 样本数据集的位置,或者如果您需要,可以重新下载它们的位置。
  • 可用于探索分类和回归预测模型不同方面的特定标准数据集。
  • 在哪里可以获取有关特定数据集和最先进结果的更多信息。

通过我的新书 Machine Learning Mastery With Weka 开启您的项目,其中包含分步教程和所有示例的清晰屏幕截图

让我们开始吧。

Standard Machine Learning Datasets Used For Practice in Weka

Weka 实践中使用的标准机器学习数据集
照片由 Marvin Foushee 拍摄,保留部分权利。

标准 Weka 数据集

开源 Weka 机器学习工作台的安装包含一个 data/ 目录,其中充满了标准的机器学习问题。

Weka Installation Directory

Weka 安装目录

这在您开始机器学习或学习如何开始使用 Weka 平台时非常有用。它提供了标准机器学习数据集,用于常见的分类和回归问题,例如,下面是从该目录截取的快照。

Provided Datasets in Weka Installation Directory

Weka 安装目录中提供的数据集

所有数据集均为 Weka 原生的 ARFF 文件格式,可以直接加载到 Weka 中,这意味着您可以立即开始开发实践模型。

有些 Weka 的特殊发行版可能不包含 data/ 目录。如果您选择安装这些发行版之一,您可以 下载 Weka 的 .zip 发行版,解压缩它,然后将 data/ 目录复制到一个您可以从 Weka 轻松访问的位置。

data/ 目录中有许多数据集可供使用,在接下来的部分中,我将重点介绍几个可以用于练习和研究预测建模问题的数据集。

在Weka机器学习方面需要更多帮助吗?

参加我为期14天的免费电子邮件课程,逐步探索如何使用该平台。

点击注册,同时获得该课程的免费PDF电子书版本。

二元分类数据集

二元分类是指要预测的输出变量是名义变量,由两个类别组成。

这可能是研究得最多的预测建模问题类型,也是适合开始解决的问题类型。

data/ 目录中有三个标准的二元分类问题可以供您重点关注:

  1. Pima 印第安人糖尿病发病率:(diabetes.arff) 每个实例代表一个患者的医疗详细信息,任务是预测患者在未来五年内是否会发生糖尿病。有 8 个数值输入变量,所有变量的尺度各不相同。 您可以了解有关此数据集的更多信息最高准确率约为 77%
  2. 乳腺癌:(breast-cancer.arff) 每个实例代表患者的医疗详细信息及其肿瘤组织样本,任务是预测患者是否患有乳腺癌。有 9 个名义输入变量。您可以在 UCI 机器学习仓库 中了解有关数据集的更多信息。 最高准确率约为 75%
  3. 电离层 (ionosphere.arff) 每个实例描述了来自大气的雷达回波的属性,任务是预测电离层中是否存在结构。有 34 个数值输入变量,通常尺度相同。您可以在 UCI 机器学习仓库 中了解有关此数据集的更多信息。 最高准确率约为 98%

多类分类数据集

存在许多分类类型的问题,其中输出变量有三个以上的类别。这些称为多类分类问题。

在对二元分类有一定信心后,这是一个很好的问题类型来研究。

data/ 目录中有三个标准的​​多类分类问题可以供您重点关注:

  1. 鸢尾花分类:(iris.arff) 每个实例描述了鸢尾花的测量值,任务是预测观测值属于哪三种鸢尾花之一。有 4 个数值输入变量,单位相同,尺度通常也相同。您可以在 UCI 机器学习仓库 中了解有关数据集的更多信息。最高准确率约为 96%。
  2. 大豆数据库:(soybean.arff) 每个实例描述了大豆作物的一个属性,任务是预测作物患有的 19 种疾病中的哪一种。有 35 个名义输入变量。您可以在 UCI 机器学习仓库 中了解有关此数据集的更多信息。
  3. 玻璃识别:(glass.arff) 每个实例描述了玻璃样本的化学成分,任务是从 7 个类别中预测玻璃的类型或用途。有 10 个数值属性,描述了玻璃的化学性质及其折射率。您可以在 UCI 机器学习仓库 中了解有关此数据集的更多信息。

回归数据集

回归问题是指必须预测实值输出的问题。

data/ 目录中的回归问题选择很少。回归是一类重要的预测建模问题。因此,我建议下载从 UCI 机器学习仓库收集的免费回归问题附加包。

它可以在 Weka 网页的 数据集页面 上找到,并且是列表中第一个叫做

  • 一个包含 37 个回归问题的 jar 文件,来自各种来源 (datasets-numeric.jar)

这是一个 .jar 文件,是一种压缩的 Java 存档。您应该能够使用大多数现代解压程序将其解压缩。

如果您安装了 Java(您很可能需要它来使用 Weka),您也可以在下载 jar 的目录中使用以下命令在命令行上手动解压缩 .jar 文件。

解压缩文件将创建一个名为 numeric 的新目录,其中包含 37 个 ARFF 原生 Weka 格式的回归数据集。

numeric/ 目录中有三个回归数据集可供您重点关注:

  1. Longley 经济数据集:(longley.arff) 每个实例描述了一个国家在给定年份的宏观经济特性,任务是预测就业人数(整数)。有 6 个数值输入变量,尺度各不相同。
  2. 波士顿房价数据集:(housing.arff) 每个实例描述了波士顿郊区的特性,任务是预测房价(以千美元为单位)。有 13 个数值输入变量,尺度各不相同,描述了郊区的特性。您可以在 UCI 机器学习仓库 中了解有关此数据集的更多信息。
  3. 哺乳动物睡眠数据集:(sleep.arff) 每个实例描述了不同哺乳动物的特性,任务是预测它们平均需要的总睡眠小时数。有 7 个数值输入变量,尺度和测量单位不同。

总结

在这篇文章中,您发现了 Weka 机器学习平台随附的标准机器学习数据集。

具体来说,你学到了:

  • 可用于练习的三个流行的二元分类问题:diabetes、breast-cancer 和 ionosphere。
  • 可用于练习的三个流行的多类分类问题:iris、soybean 和 glass。
  • 可用于练习的三个流行的回归问题:longley、housing 和 sleep。

您对 Weka 中的标准机器学习数据集或本文有任何疑问吗?请在评论中提出您的问题,我会尽力回答。

探索无需代码的机器学习!

Master Machine Learning With Weka

在几分钟内开发您自己的模型

...只需几次点击

在我的新电子书中探索如何实现
使用 Weka 精通机器学习

涵盖自学教程端到端项目,例如
加载数据可视化构建模型调优等等...

最终将机器学习应用到你自己的项目中

跳过学术理论。只看结果。

查看内容

7 条回复“Weka 标准机器学习数据集实践”

  1. m a sher 2017 年 7 月 13 日下午 5:09 #

    先生,我想在 weka 中上传蛋白质数据集。请在这方面帮助我。

  2. Fernando 2017 年 8 月 11 日上午 6:12 #

    尊敬的 Jason Brownlee 博士。

    在二元分类数据集中,您提到了糖尿病数据集,任务是预测患者在未来五年内是否会发生糖尿病。您能推荐另一个像这样清晰的任务的糖尿病数据集吗?

    问题是,我检查了 UCI 机器学习仓库,那里还有其他糖尿病数据集。但我不知道该查看什么结果。而 Weka 中包含的这个数据集的目标很明确。此外,我能够以 CSV 格式打开其中一些数据集,但由于某些原因,Weka 不允许我应用任何分类器规则,所有这些都已禁用。

    谢谢你,

    • Jason Brownlee 2017 年 8 月 11 日上午 6:47 #

      很抱歉,我暂时不知道其他糖尿病数据集。

      • Fernano 2017 年 8 月 15 日上午 5:04 #

        听到这个消息很遗憾,Jason Brownlee。但我还是感谢您的回复。

  3. Peter 2018 年 1 月 17 日下午 6:34 #

    先生,您能帮助我获取关于学生对大学智能卡使用态度的相关数据集吗?或者,一般来说,关于智能卡使用态度的相关数据集?

发表回复

Machine Learning Mastery 是 Guiding Tech Media 的一部分,Guiding Tech Media 是一家领先的数字媒体出版商,专注于帮助人们了解技术。访问我们的公司网站以了解更多关于我们的使命和团队的信息。