R 中的机器学习数据集(10 个您现在就可以使用的数据集)

你需要标准数据集来练习机器学习。

在这篇短文中,你将了解如何在 R 中加载标准分类和回归数据集。

本文将向你介绍 3 个可用于加载标准数据集的 R 库,以及 10 个可用于 R 中机器学习的特定数据集。

在 R 中加载标准数据集非常有价值,因为你可以测试、练习和实验机器学习技术,并提高你对该平台的技能。

使用我的新书 《R 语言机器学习精通》 来开启你的项目,书中包含分步教程和所有示例的R 源代码文件。

让我们开始吧。

在小巧且易于理解的数据集上练习

有数百个标准测试数据集可供你练习和提高机器学习能力。

其中大部分都免费托管在 UCI 机器学习数据库中。这些数据集很有用,因为它们易于理解、行为良好且规模小。

最后这一点在练习机器学习时至关重要,因为

  • 你可以快速下载它们。
  • 你可以轻松地将它们加载到内存中。
  • 你可以快速地在它们上面运行算法。

在以下文章中了解更多关于使用 UCI 机器学习数据库中的数据集练习机器学习的信息:

在 R 中访问标准数据集

你可以将标准数据集加载到 R 中作为 CSV 文件。

还有一种更便捷的加载标准数据集的方法。它们已被打包,并可在第三方 R 库中使用,你可以从综合 R 存档网络 (CRAN) 下载。

你应该使用哪些库,以及哪些数据集适合开始。

需要更多关于R机器学习的帮助吗?

参加我为期14天的免费电子邮件课程,了解如何在您的项目中使用R(附带示例代码)。

点击注册,同时获得该课程的免费PDF电子书版本。

如何在 R 中加载标准数据集

在本节中,你将了解可用于访问标准机器学习数据集的库。

你还将了解可以加载和使用的特定分类和回归数据集,以便在 R 中练习机器学习。

库:datasets

Iris Flowers Dataset

鸢尾花数据集
照片由 Rick Ligthelm 提供,部分权利保留。

datasets 库随附于基础 R,这意味着你无需显式加载该库。它包含大量可用的数据集。

你可以通过输入以下命令来加载此库中的数据集:

例如,要加载非常常用的 iris 数据集。

要查看此库中可用数据集的列表,可以输入:

下面是一些你可以使用的该包中的数据集亮点。

鸢尾花数据集

  • 描述:根据花测量值预测鸢尾花种类。
  • 类型:多类分类
  • 维度:150 个实例,5 个属性
  • 输入:数值
  • 输出:类别,3 个类别标签
  • UCI 机器学习数据库:描述
  • 已发布的准确率结果:摘要

你会看到:

Longley 的经济回归数据

  • 描述:根据经济变量预测就业人数
  • 类型:回归
  • 维度:16 个实例,7 个属性
  • 输入:数值
  • 输出:数值

你会看到:

库:mlbench

Soybean Dataset

大豆数据集
照片由 United Soybean Board 提供,部分权利保留。

直接来自库的手册

一系列人工和真实世界的机器学习基准问题,包括 UCI 数据库的多个数据集。

你可以在 mlbench CRAN 页面上了解更多关于 mlbench 库的信息。

如果未安装,可以按以下方式安装此库:

你可以按以下方式加载库:

要查看此库中可用数据集的列表,可以输入:

下面是你可以使用的该库的一些数据集亮点:

波士顿住房数据

  • 描述:根据房屋细节预测波士顿的房价
  • 类型:回归
  • 维度:506 个实例,14 个属性
  • 输入:数值
  • 输出:数值
  • UCI 机器学习数据库:描述

你会看到:

威斯康星乳腺癌数据库

  • 描述:根据活检细节预测癌症是恶性还是良性。
  • 类型:二元分类
    维度:699 个实例,11 个属性
  • 输入:整数(名义)
  • 输出:类别,2 个类别标签
  • UCI 机器学习数据库:描述
  • 已发布的准确率结果:摘要

你会看到:

玻璃识别数据库

  • 描述:根据化学性质预测玻璃类型。
  • 类型:分类
  • 维度:214 个实例,10 个属性
  • 输入:数值
  • 输出:类别,7 个类别标签
  • UCI 机器学习数据库:描述
  • 已发布的准确率结果:摘要

你会看到:

约翰霍普金斯大学电离层数据库

  • 描述:根据天线数据预测大气中的高能结构。
  • 类型:分类
  • 维度:351 个实例,35 个属性
  • 输入:数值
  • 输出:类别,2 个类别标签
  • UCI 机器学习数据库:描述
  • 已发布的准确率结果:摘要

你会看到:

皮马印第安人糖尿病数据库

  • 描述:根据医疗记录数据预测女性皮马印第安人糖尿病的发病。
  • 类型:二元分类
  • 维度:768 个实例,9 个属性
  • 输入:数值
  • 输出:类别,2 个类别标签
  • 数据集详情:描述
  • 已发布的准确率结果:摘要

你会看到:

声纳,地雷与岩石

  • 描述:根据声纳回波数据预测金属或岩石回波。
  • 类型:二元分类
  • 维度:208 个实例,61 个属性
  • 输入:数值
  • 输出:类别,2 个类别标签
  • UCI 机器学习数据库:描述
  • 已发布的准确率结果:摘要

你会看到:

大豆数据库

  • 描述:根据作物数据预测大豆作物的病虫害。
  • 类型:多类分类
  • 维度:683 个实例,26 个属性
  • 输入:整数(名义)
  • 输出:类别,19 个类别标签
  • UCI 机器学习数据库:描述

你会看到:

库:AppliedPredictiveModeling

Abalone Dataset

鲍鱼数据集
照片由 MAURO CATEB 提供,部分权利保留。

许多使用 R 的书籍还包含它们自己的 R 库,该库提供了书中使用的所有代码和数据集。

优秀的图书 《应用预测建模》有自己的库,名为 AppliedPredictiveModeling

如果未安装,可以按以下方式安装此库:

你可以按以下方式加载库:

要查看此库中可用数据集的列表,可以输入:

该库中的一个数据集亮点是:

鲍鱼数据

  • 描述:根据鲍鱼测量数据预测鲍鱼年龄。
  • 类型:回归或分类
  • 维度:4177 个实例,9 个属性
  • 输入:数值和类别
  • 输出:整数
  • UCI 机器学习数据库:描述

你会看到:

总结

在这篇文章中,你了解到你不需要收集或加载自己的数据就可以在 R 中练习机器学习。

你了解了 3 个提供样本机器学习数据集的不同库,你可以使用这些库:

  • datasets
  • mlbench
  • AppliedPredictiveModeling

你还发现了 10 个可以用来练习分类和回归机器学习技术的标准机器学习数据集。

  • 鸢尾花数据集(多类分类)
  • Longley 的经济回归数据(回归)
  • 波士顿住房数据(回归)
  • 威斯康星乳腺癌数据库(二元分类)
  • 玻璃识别数据库(多类分类)
  • 约翰霍普金斯大学电离层数据库(二元分类)
  • 皮马印第安人糖尿病数据库(二元分类)
  • 声纳,地雷与岩石(二元分类)
  • 大豆数据库(多类分类)
  • 鲍鱼数据(回归或分类)

下一步

您是否尝试过这些食谱?

  1. 启动您的 R 交互式环境。
  2. 输入或复制粘贴上面的代码示例并尝试一下。
  3. 使用 R 中的内置帮助来了解有关所用函数的更多信息。

您有问题吗?在评论中提问,我将尽力回答。

在R中发现更快的机器学习!

Master Machine Learning With R

在几分钟内开发您自己的模型

...只需几行R代码

在我的新电子书中探索如何实现
精通 R 语言机器学习

涵盖自学教程端到端项目,例如
加载数据、可视化、构建模型、调优等等...

最终将机器学习应用到您自己的项目中

跳过学术理论。只看结果。

查看内容

21 条对 *R 中的机器学习数据集(10 个立即可用的数据集)* 的回复

  1. Rotimi 2016 年 2 月 16 日上午 6:11 #

    谢谢,一如既往的精彩帖子

  2. Rotimi 2016 年 2 月 16 日上午 6:11 #

    精彩的帖子!非常感谢您,先生

  3. Asia 2016 年 12 月 2 日下午 12:35 #

    谢谢!我正在寻找回归数据集,但我不知道其中一个您写过的。但在一个地方您写的是用于回归,而在另一个地方您写的是用于分类。这有点误导。

  4. V Malsoru 2017 年 5 月 13 日上午 7:06 #

    我安装了 R 并练习了一些算法,例如使用“arules”包的 Apriori,但如何安装“mlbench”包来运行以下数据集?

    “波士顿住房数据(回归)
    威斯康星乳腺癌数据库(二元分类)
    玻璃识别数据库(多类分类)
    约翰霍普金斯大学电离层数据库(二元分类)
    皮马印第安人糖尿病数据库(二元分类)
    声纳,地雷与岩石(二元分类)
    大豆数据库(多类分类)
    鲍鱼数据(回归或分类)”。请提建议。

    • Jason Brownlee 2017年5月14日 上午7:21 #

      您可以按照以下方式安装mlbench包

  5. Malsoru 2017年5月13日 上午7:49 #

    要运行癌症数据集,需要哪些包,您能推荐一下吗?

  6. Malsoru 2017年6月14日 下午5:52 #

    Pima Indians Diabetes Database(二元分类)。
    您能否推荐另一个“糖尿病”数据集,其属性比Pima Indians Diabetes Database(二元分类)多一个或两个属性,或者少一个或两个属性?不是相同的Pima Indians Diabetes Database(二元分类)。但我只需要“糖尿病”的。

    • Jason Brownlee 2017年6月15日 上午8:44 #

      也许您可以在Kaggle或UCI机器学习仓库中搜索?

  7. Nate George 2018年1月27日 下午2:31 #

    这一定是您所有帖子中图片与主题最匹配的一篇了。其他的似乎都是随机的。

  8. Nate George 2018年1月27日 下午2:33 #

    另外,是install.packages(),不是install.library()

  9. GEORGE MASON UNIVERSITY 2018年9月18日 上午6:35 #

    请问如何将中心极限定理应用于大型多变量数据集?

  10. Rakesh Patel 2018年10月8日 上午4:42 #

    先生,我想使用年龄数据集来查找年龄。

    但我找不到年龄数据集的csv文件。

    先生,您能给我一个链接,以便我可以在我的项目中使用吗?

  11. Machine learning 2021年7月10日 下午8:23 #

    机器学习是科技行业的革命。

留下回复

Machine Learning Mastery 是 Guiding Tech Media 的一部分,Guiding Tech Media 是一家领先的数字媒体出版商,专注于帮助人们了解技术。访问我们的公司网站以了解更多关于我们的使命和团队的信息。