如何在 Python 中加载机器学习数据

在开始机器学习项目之前,您必须能够加载数据。

机器学习数据最常见的格式是 CSV 文件。在 Python 中加载 CSV 文件有多种方法。

在这篇文章中,您将发现可以在 Python 中加载机器学习数据的不同方法。

通过我的新书《使用 Python 进行机器学习精通》**启动您的项目**,其中包括**分步教程**和所有示例的 **Python 源代码**文件。

让我们开始吧。

  • **2017 年 3 月更新**:将加载从二进制(“rb”)更改为 ASCII(“rt”)。
  • 2018年3月更新:添加了替代链接以下载数据集,因为原始链接似乎已被删除。
  • **2018 年 3 月更新**:更新了 NumPy 从 URL 加载的示例,以适用于 Python 3。
How To Load Machine Learning Data in Python

如何在 Python 中加载机器学习数据
图片由 Ann Larie Valentine 提供,保留部分权利。

加载 CSV 数据时的注意事项

从 CSV 文件加载机器学习数据时需要考虑许多因素。

作为参考,您可以通过查阅名为《逗号分隔值 (CSV) 文件的通用格式和 MIME 类型》的 CSV 征求意见书来了解有关 CSV 文件期望的许多信息。

CSV 文件头

您的数据有文件头吗?

如果有,这有助于自动为每列数据分配名称。如果没有,您可能需要手动命名您的属性。

无论哪种方式,您在加载数据时都应明确指定 CSV 文件是否包含文件头。

注释

您的数据有注释吗?

CSV 文件中的注释以行首的哈希符 (“#”) 表示。

如果您的文件中有注释,根据用于加载数据的方法,您可能需要指示是否期望有注释以及表示注释行的字符。

分隔符

分隔字段值的标准分隔符是逗号(“,”)字符。

您的文件可能使用不同的分隔符,例如制表符(“\t”),在这种情况下,您必须明确指定它。

引号

有时字段值可能包含空格。在这些 CSV 文件中,值通常用引号引起来。

默认的引号字符是双引号“"”。可以使用其他字符,您必须指定文件中使用的引号字符。

需要 Python 机器学习方面的帮助吗?

参加我为期 2 周的免费电子邮件课程,探索数据准备、算法等等(附带代码)。

立即点击注册,还将免费获得本课程的 PDF 电子书版本。

机器学习数据加载秘籍

每个秘籍都是独立的。

这意味着您可以将其复制粘贴到您的项目中并立即使用。

如果您对这些食谱有任何疑问或改进建议,请留言,我将尽力回答。

使用 Python 标准库加载 CSV

Python API 提供了 `CSV` 模块和 `reader()` 函数,可用于加载 CSV 文件。

加载后,您可以将 CSV 数据转换为 NumPy 数组并用于机器学习。

例如,您可以将 Pima Indians 数据集下载到您的本地目录(从这里下载)。

所有字段均为数字,没有标题行。运行以下代码将加载 CSV 文件并将其转换为 NumPy 数组。

该示例加载一个可以迭代数据每一行的对象,并且可以轻松转换为 NumPy 数组。运行该示例将打印数组的形状。

有关 `csv.reader()` 函数的更多信息,请参阅 Python API 文档中的《CSV 文件读写》。

使用 NumPy 加载 CSV 文件

您可以使用 NumPy 和 `numpy.loadtxt()` 函数加载 CSV 数据。

此函数假定没有标题行,并且所有数据都具有相同的格式。下面的示例假定文件 `pima-indians-diabetes.data.csv` 位于您当前的工作目录中。

运行示例将把文件加载为 numpy.ndarray 并打印数据的形状。

此示例可以修改为直接从 URL 加载相同的数据集,如下所示:

**注意**:此示例假定您使用的是 Python 3。

同样,运行该示例会生成相同的数据形状。

有关 numpy.loadtxt() 函数的更多信息,请参阅 API 文档(numpy 版本 1.10)。

使用 Pandas 加载 CSV 文件

您可以使用 Pandas 和 `pandas.read_csv()` 函数加载 CSV 数据。

这个函数非常灵活,可能是我推荐的加载机器学习数据的方法。该函数返回一个 pandas.DataFrame,您可以立即开始对其进行总结和绘图。

下面的示例假定“pima-indians-diabetes.data.csv”文件位于当前工作目录中。

请注意,在此示例中,我们明确指定了每个属性的名称给 DataFrame。运行示例将显示数据的形状。

我们还可以修改此示例,以直接从 URL 加载 CSV 数据。

同样,运行该示例会下载 CSV 文件,解析它并显示加载的 DataFrame 的形状。

要了解更多关于 pandas.read_csv() 函数的信息,您可以查阅 API 文档。

总结

在这篇文章中,您发现了如何在 Python 中加载机器学习数据。

您学习了三种可以使用的特定技术

  • 使用 Python 标准库加载 CSV。
  • 使用 NumPy 加载 CSV 文件。
  • 使用 Pandas 加载 CSV 文件。

本文的操作步骤是输入或复制粘贴每个代码示例,并熟悉在 Python 中加载机器学习数据的不同方法。

您对在 Python 中加载机器学习数据或本文有什么疑问吗?请在评论中提出您的问题,我将尽力回答。

发现 Python 中的快速机器学习!

Master Machine Learning With Python

在几分钟内开发您自己的模型

...只需几行 scikit-learn 代码

在我的新电子书中学习如何操作
精通 Python 机器学习

涵盖自学教程端到端项目,例如
加载数据可视化建模调优等等...

最终将机器学习带入
您自己的项目

跳过学术理论。只看结果。

查看内容

《如何在 Python 中加载机器学习数据》的 111 条回复

  1. ML704 2017 年 1 月 17 日 晚上 7:17 #

    嗨!
    “使用 Python 标准库加载 CSV”部分中“您可以将 Pima Indians 数据集下载到您的本地目录”是什么意思?
    我的本地目录在哪里?
    我试了几种方法,但都不管用

    • Jason Brownlee 2017 年 1 月 18 日 上午 10:13 #

      这意味着将 CSV 文件下载到您编写 Python 代码的目录。您项目当前的工作目录。

      • ML704 2017 年 1 月 18 日 下午 2:56 #

        谢谢,我明白了!

      • V ABISHEK HEYER KRUPALIN 2020 年 10 月 21 日 下午 4:17 #

        谢谢你,伙计

        • Jason Brownlee 2020 年 10 月 22 日 上午 6:36 #

          不客气。

          • 匿名鼠标 2022 年 1 月 10 日 上午 6:05 #

            谢谢

          • James Carmichael 2022 年 1 月 10 日 上午 11:07 #

            不客气,匿名!

    • David Angwenyi 2023 年 6 月 7 日 晚上 10:46 #

      对于使用 Anaconda 的用户,您可以启动 Jupiter notebook 并在 notebook 上上传数据,这将成为您的工作目录。

      • James Carmichael 2023 年 6 月 8 日 上午 7:53 #

        感谢 David 的推荐!

  2. ruby 2017 年 7 月 17 日 下午 2:19 #

    你好
    如何在 Python 中加载视频数据集?不用 tensorflow、keras、…

  3. constantine 2017 年 7 月 30 日 上午 4:23 #

    你好,

    我只想从 CSV 文件中保留两列,并使用这些数字作为 x-y 点,用于我正在做的 k-means 实现。

    我现在生成点的方法是这样的
    ” points = np.vstack(((np.random.randn(150, 2) * 0.75 + np.array([1, 0])),
    (np.random.randn(50, 2) * 0.25 + np.array([-0.5, 0.5])),
    (np.random.randn(50, 2) * 0.5 + np.array([-0.5, -0.5])))) “,
    但我想将我的代码应用于实际数据。

    有什么帮助吗?

    • Jason Brownlee 2017 年 7 月 30 日 上午 7:52 #

      抱歉,我没有任何 Python 中的 k-means 教程。我可能不是提供建议的最佳人选。

      • constantine 2017 年 7 月 30 日 晚上 7:51 #

        我不想了解任何关于 k-means 的内容,我的代码——计算和所有——都已整理好。我只是想获得一些关于 CSV 文件的帮助。

  4. Steve 2017 年 8 月 3 日 上午 11:54 #

    感谢您详细解释如何加载数据。

    • Steve 2017 年 8 月 3 日 上午 11:55 #

      它们完美运行。

    • Jason Brownlee 2017 年 8 月 4 日 上午 6:47 #

      我很高兴它帮助了 Steve。

  5. Fawad 2017 年 8 月 8 日 下午 6:20 #

    非常感谢……真的很有帮助……

  6. komal 2017 年 9 月 5 日 晚上 7:18 #

    如何加载文本属性?我收到错误,说无法将字符串转换为浮点数:b'Iris-setosa'

    • Jason Brownlee 2017 年 9 月 7 日 下午 12:43 #

      您需要使用 Pandas 加载数据,然后将其转换为数字。

      我提供了这方面的例子。

  7. R 2017 年 10 月 10 日 上午 3:21 #

    我只是想知道,对于可能冗余的字段,将关系数据库模型中的内容转换为最佳 ML 格式的最佳实践是什么。理想情况下,导出将是 CSV 格式,但我知道它不会像每次导出那么简单。希望用一个简单的例子来说明我的问题:假设我有一个表,其中我将事物归因于动物。结构可以设置如下:
    ID, 动物, 颜色, 大陆
    1, 斑马, 黑色, 非洲
    2, 斑马, 白色, 非洲
    目标是能够说“如果颜色是黑白相间的,并且生活在非洲,那它很可能是斑马。”……所以每一行代表一个动物,与它相关联的是单一颜色,以及其他字段。这种格式是否是最佳实践,可以直接馈入模型?或者,将颜色串联到一行中并用分隔符分开更有意义吗?换句话说,它可能不总是 1:1 的关系,在数据集是这种情况时,最佳的格式化方式是什么?
    感谢您的时间。

  8. Hemalatha S 2017 年 11 月 17 日 晚上 6:52 #

    你能告诉我如何从 csv 文件中选择特征吗

  9. Disha Umarwani 2017 年 11 月 28 日 下午 12:41 #

    嗨,
    我正在尝试加载行分隔数据。
    姓名:Disha
    性别:女
    专业:计算机科学

    姓名
    性别
    专业

    对此有什么建议吗?

    • Jason Brownlee 2017 年 11 月 29 日 上午 8:13 #

      哎呀,看起来您可能需要编写一些自定义代码来加载每一“行”或实体。

  10. Hemalatha S 2017 年 12 月 1 日 上午 2:17 #

    你能告诉我如何加载 csv 文件并应用特征选择方法吗?你能发布灰狼优化器算法的代码吗?

  11. fxdingscxr 2018 年 1 月 17 日 下午 4:42 #

    我已将数据加载到 numpy 数组中。接下来我应该怎么做来训练我的模型?

  12. Ajinkya 2018 年 1 月 30 日 下午 6:29 #

    嗨,
    我想将 KDD cup 99 数据集用于入侵检测项目。该数据集由字符串和数值数据组成。那么我应该将整个数据集转换为数值数据还是按原样使用它?

  13. Bipin 2018 年 2 月 2 日 下午 5:11 #

    嗨,Jason,
    我有一个带有标题的 csv 数据集,并且所有列都具有不同的数据类型,
    在这种情况下,使用 loadtxt() 还是 genfromtxt() 会更好?
    另外,这两种方法之间是否存在重大的性能差异?

    • Jason Brownlee 2018 年 2 月 3 日 上午 8:34 #

      使用任何您可以使用的,如果速度是问题,可以考虑使用您的数据对这些方法进行基准测试。

  14. 机器学习初学者 2018 年 2 月 15 日 下午 3:41 #

    我收到一个 ValueError:无法将字符串转换为浮点数
    在读取此数据时

    http://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/breast-cancer-wisconsin.data

    你能回复我哪里做错了吗?

    • 机器学习初学者 2018 年 2 月 15 日 下午 3:45 #

    • Jason Brownlee 2018 年 2 月 16 日 上午 8:31 #

      您可能有一些“?”值。首先将它们转换为 0 或 nan。

  15. ro 2018 年 5 月 8 日 上午 4:25 #

    文件名 = 'C:\Users\user\Desktop\python.data.csv'
    原始数据 = open(文件名, 'rt')
    名称 = ['pixle1', 'pixle2', 'pixle3', 'pixle4', 'pixle5', 'pixle6', 'pixle7', 'pixle8', 'pixle9', 'pixle10', 'pixle11', 'pixle12', 'pixle13', 'pixle14', 'pixle15', 'pixle16', 'pixle17', 'pixle18', 'pixle19', 'pixle20', 'pixle21', 'pixle22', 'pixle23', 'pixle24', 'pixle25', 'pixle26', 'pixle27', 'pixle28', 'pixle29', 'pixle30', 'class']
    数据 = numpy.loadtxt(原始数据, names= 名称)

  16. AJS 2018 年 6 月 1 日 下午 1:22 #

    我有多个大小不一的 CSV 文件,我想用它们来训练我的神经网络。我有大约 1000 个文件,数据行数从 15000 到 65000 不等。在我预处理这些数据后,一个 CSV 文件可能是一个 65000 行 20 列的数组。我的电脑在处理一个 65000 行 20 列的数组时很快就耗尽内存,所以我无法将所有 1000 个文件合并成一个大的 CSV 文件。有没有一种方法可以使用 Keras 加载一个 CSV 文件,让模型学习该数据,然后加载下一个文件,让模型学习该文件,依此类推?有没有更好的方法来学习这么多数据?

  17. Hemant 2018 年 6 月 17 日 下午 2:32 #

    我有多个 200 个 CSV 文件和标签文件,其中包含 200 行输出。我想训练,但无法加载数据集。

    • Jason Brownlee 2018 年 6 月 18 日 上午 6:39 #

      您可能需要编写一些自定义代码来依次加载每个 CSV。例如,在目录中的文件循环中。

  18. Aman 2018 年 7 月 12 日 上午 4:10 #

    我收到错误

    回溯(最近一次调用)
    文件“sum.py”,第 8 行,在
    数据 = numpy.array(x).astype(float)
    ValueError:使用序列设置数组元素。

    为什么?

  19. Kikio 2019 年 1 月 17 日 下午 1:19 #

    你好,
    我有一个包含像 3,6e+12, 2.5e-3… 这样的数字的数据集。
    当将此数据集作为 CSV 文件读取时,我收到错误:“ValueError: cannot convert string to float”

    有解决方案吗?

    • Jason Brownlee 2019 年 1 月 17 日 下午 1:47 #

      这些数字以科学计数法表示,应该能够正确读取。

      文件中可能还有其他非数字字段?

      • Kikio 2019 年 1 月 17 日 晚上 11:54 #

        不,没有,错误信息是:“无法将字符串转换为浮点数:3.6e+12”
        谢谢你

        • Jason Brownlee 2019 年 1 月 18 日 上午 5:40 #

          这令人惊讶,也许尝试一种不同的加载方法,例如 numpy 或 pandas?

          也许可以尝试发布到 stackoverflow?

          • Kikio 2019 年 1 月 19 日 上午 11:14 #

            我试试看
            谢谢

  20. Sandeep Nithyanandan 2019 年 1 月 23 日 下午 6:00 #

    先生,
    假设我有 3 个 csv 文件,每个文件都包含一个特定的属性。所以这 3 个 csv 文件中的单行对应于一个特定的特征实例。那么在加载时,我可以将所有 csv 文件一起加载并把每一行转换为 numpy 数组吗?
    谢谢

    • Jason Brownlee 2019 年 1 月 24 日 上午 6:41 #

      我建议将所有数据加载到内存中,然后可以将 numpy 数组拼接起来(例如,hstack)。

  21. Sara 2019 年 1 月 26 日 上午 7:11 #

    如果我的数据集是 .data 文件扩展名,我如何在 python 中处理它?

    请帮忙

    • Jason Brownlee 2019 年 1 月 27 日 上午 7:36 #

      也许可以用文本编辑器打开它,确认它是 CSV 格式,然后像打开 CSV 文件一样在 Python 中打开它。

  22. francistien 2019 年 1 月 27 日 上午 9:05 #

    我复制您的代码如下:

    # 使用 NumPy 加载 CSV
    # 您可以使用 NumPy 和 numpy.loadtxt() 函数加载 CSV 数据。

    import numpy
    文件名 = 'pima-indians-diabetes.csv'
    原始数据 = open(文件名, 'rt')
    数据 = numpy.loadtxt(原始数据, delimiter=”,”)
    print(data.shape)

    ===============

    但是,我收到一条错误消息

    ValueError 回溯 (最近一次调用)
    in
    5 文件名 = 'pima-indians-diabetes.csv'
    6 原始数据 = open(文件名, 'rt')
    ----> 7 数据 = numpy.loadtxt(原始数据, delimiter=”,”)
    8 打印(数据.形状)

    ~\Anaconda3\lib\site-packages\numpy\lib\npyio.py in loadtxt(fname, dtype, comments, delimiter, converters, skiprows, usecols, unpack, ndmin, encoding)
    1099 # 转换数据
    1100 X = None
    -> 1101 对于 read_data(_loadtxt_chunksize) 中的 x
    1102 如果 X 为 None
    1103 X = np.array(x, dtype)

    ~\Anaconda3\lib\site-packages\numpy\lib\npyio.py in read_data(chunk_size)
    1026
    1027 # 根据其列转换每个值并存储
    -> 1028 项目 = [conv(val) for (conv, val) in zip(converters, vals)]
    1029
    1030 # 然后根据 dtype 的嵌套进行打包

    ~\Anaconda3\lib\site-packages\numpy\lib\npyio.py in (.0)
    1026
    1027 # 根据其列转换每个值并存储
    -> 1028 项目 = [conv(val) for (conv, val) in zip(converters, vals)]
    1029
    1030 # 然后根据 dtype 的嵌套进行打包

    ~\Anaconda3\lib\site-packages\numpy\lib\npyio.py in floatconv(x)
    744 如果 '0x' 在 x 中
    745 返回 float.fromhex(x)
    --> 746 返回 float(x)
    747
    748 类型 = dtype.type

    ValueError: 无法将字符串转换为浮点数:'Pregnancies'
    ========

    我不知道哪里出了问题。

  23. vinayak mr 2019 年 3 月 31 日 晚上 11:29 #

    如何从工作目录加载数据集到 colab?

  24. Jackson 2019 年 4 月 3 日 上午 5:52 #

    当我点击“更新:从此处下载”以下载 CSV 文件时,它会带我到一个空白页面,左侧显示数字,看起来像是数据。我如何将/下载此数据到 CSV 文件中?谢谢!

  25. Oscar 2019 年 4 月 8 日 上午 4:43 #

    嗨,Jason,

    希望您能帮助我处理以下预处理的 dataset.txt 文件。我如何在 python 中加载此数据集?它总共有 54,256 行和 28 列。我可以使用 pandas 吗?

    [0.08148002361739815, 3.446134970078908e-05, 4.747197881944017e-05, 0.0034219001610305954, 0.047596616392169624, 0.11278174138979659, 0.0011501307441196414, 1.0, 0.09648950774661698, 0.09152382450070766, 0.0032736389720705384, 0.02231715511892242, 0.0, -1.0, 0.0, -1.0, -1.0, -1.0, 0.0, -1.0, -1.0, -1.0, 0.0, 0.0, 0.0, -1.0, 1.0, -1.0]

    [0.0816768352686479, 2.929466010613462e-05, 1.2086789450560964e-06, 0.6246987951807229, 0.04743433880824845, 0.11350265074251698, 0.0011614423285977043, 1.0, 0.0965330892767645, 0.0914339631118999, 0.003190342698832632, 0.022268885790504313, 0.0, -1.0, 0.0, -1.0, -1.0, -1.0, 0.0, -1.0, -1.0, -1.0, 0.0, 0.0, 0.0, -1.0, 1.0, -1.0]

    [0.08226727022239716, 2.987144231823633e-05, 2.2329338947249727e-06, 0.047448165869218496, 0.04753095407349041, 0.11459941368369171, 0.0011702815567795678, 1.0, 0.0969906953433135, 0.09170354727832318, 0.003358412434012629, 0.022329898179060795, 0.0, -1.0, 0.0, -1.0, -1.0, -1.0, 0.0, -1.0, -1.0, -1.0, 0.0, 0.0, 0.0, -1.0, 1.0, -1.0]
    .
    .
    .
    .
    .
    .

    • Jason Brownlee 2019 年 4 月 8 日 上午 5:59 #

      您可以将其直接加载为 dataframe 或 numpy 数组。

      你到底遇到了什么问题?

      • Oscar 2019 年 4 月 8 日 上午 6:54 #

        当我尝试将其加载为 numpy 数组时,它再次返回列表。

        我在将 dataset.txt 文件加载到内存后使用以下代码

        import numpy as np

        数据集 = load_doc('dataset.txt')

        x = np.asarray(数据集)

        打印 (x)

        • Jason Brownlee 2019 年 4 月 8 日 下午 1:55 #

          试试看

          打印(type(x))

          • Oscar 2019 年 4 月 9 日 上午 6:51 #

            非常感谢!

            所以我的最后一个问题(希望如此)是,我拥有数据集、标签和 28 个列的标题列表。我正在尝试将它们加载到 Python 中,以便我可以将它们分割并创建我的训练和测试数据集。我不确定如何处理这些标题。我也需要加载它们吗?

          • Jason Brownlee 2019 年 4 月 9 日 下午 2:36 #

            您可以将列标题作为 CSV 文件的第一行,并使用 pandas 自动加载它们。

            或者,如果需要,您可以在 Python 中将它们指定为列。

            或者完全放弃它们。

  26. Shakil Ahmed 2019 年 5 月 4 日 晚上 9:39 #

    你好
    我是新手。
    请帮我将图像数据集转换为 csv。

  27. sahil 2019 年 5 月 23 日 上午 2:49 #

    如何从解析器加载数据?

    从 parser 导入 load_data #数据加载

    • Jason Brownlee 2019 年 5 月 23 日 上午 6:07 #

      抱歉,我不明白。也许可以尝试发布到 stackoverflow?

  28. Akshay Varshney 2019 年 6 月 23 日 晚上 11:27 #

    嗨,Jason,数据集已从上面的链接中删除,我想检查一下,因为您的整本书都基于该数据集,所以请提供数据集,这样我们就能更容易地理解您书中的概念,请提供数据集。
    谢谢你

  29. S M Abdullah Al Shuaeb 2019 年 8 月 31 日 上午 4:30 #

    先生,请帮我

    我只是想知道,
    如何使用 SVM 和 KNN 算法在 Python 中对分类图像进行分类

  30. Araz Sami 2019 年 9 月 6 日 上午 6:00 #

    你好,

    非常感谢您提供所有精彩的教程。我想使用一个多元时间序列数据集,首先我需要制作一个与 Python 中的 load_basic_motion 数据类似的格式。我有几个文本文件,每个文件代表一个特征,每个文件都有每个观测的时间序列数据。您对以所需格式准备数据有什么建议吗?

    谢谢!

  31. Sudhanshu varun 2019 年 9 月 7 日 下午 5:00 #

    你好,
    我成功加载了我的 csv 文件数据集。它基本上是一个字母数据集,现在我想用这个加载的数据集来训练我的 Python,以便以后可以用它来识别单词,你能帮我吗?
    谢谢你

  32. JJ 2019 年 10 月 6 日 晚上 7:07 #

    嗨,Jason,

    这里有一个问题,请问如何在不将非 csv 数据(而不是普通文件)转换为 csv 文件数据集的情况下,在 spyder python 上加载我的非 csv 数据?

    • Jason Brownlee 2019 年 10 月 7 日 上午 8:28 #

      是的,您可以根据您的数据集自定义对 read_csv() 函数的调用。

  33. Nauman 2019 年 10 月 10 日 上午 7:35 #

    X = list(map(lambda x: np.array(x), X))

    X = list(map(lambda x: x.reshape(1, x.shape[0], x.shape[1]), X))
    y = np.expand_dims(y, axis=-1)

    我使用了 Tcn 模型。当我运行它时,我收到了这个错误。索引超出范围,请帮助我如何解决这个错误。我也从 stackoverflow 搜索过,但没有找到。

  34. Ipsita Dalai 2019 年 11 月 30 日 下午 5:35 #

    感谢这篇精彩的文章。我想知道如果我们在数字分类问题中,最后一列包含类别。那么如何加载和打印数字而忽略最后一列?
    我试过了,它显示:

    ValueError: 无法将大小为 257 的数组重塑为形状 (16,16)

  35. Ipsita Dalai 2019 年 12 月 2 日 下午 5:32 #

    嗨。我通过将数据保留在 numpy 数组中的 csv 中,然后对数组进行切片来完成我的工作。但是您的教程非常好且有用。谢谢。

  36. Alam Noor 2019 年 12 月 4 日 上午 3:30 #

    亲爱的 Jason,
    我如何在 Python 中加载 .rek 数据集?如果可能,请评论。谢谢

  37. hima 2019 年 12 月 26 日 下午 3:33 #

    如何在 python 代码中加载图像数据集

  38. nazm 2020 年 5 月 21 日 上午 12:06 #

    嗨,杰森,我是个没有经验的新手。我该如何学习数据科学?你能给我一个路线图吗?那对我会有帮助。

  39. Aanya 2020 年 10 月 4 日 上午 12:11 #

    嘿,杰森,

    我实际上想使用 CSV 文件中的某些特定列来加载数据到机器学习模型中。你能帮我一下吗?

  40. Dan 2020 年 10 月 7 日 下午 4:50 #

    嗨!!是否可以使用 NLP 将 CSV 文件(2 列)中的相似行聚类在一起。如果可以,您能提供一个包含代码的帖子来帮助我吗?

    • Jason Brownlee 2020 年 10 月 8 日 上午 8:28 #

      是的,抱歉,我没有文本数据的聚类示例。

  41. Dhaval Maheta 博士 2022 年 10 月 4 日 晚上 8:18 #

    如果数据集中有 9 个变量,

    names = [‘preg’, ‘plas’, ‘pres’, ‘skin’, ‘test’, ‘mass’, ‘pedi’, ‘age’, ‘class’]

    那么在选择 X 数组时应该是
    X=array[:,1:8]

    Y =array[:,9]

    你能解释一下你为什么使用这个吗?
    X = array[:,0:8]
    Y = array[:,8]

    • James Carmichael 2022 年 10 月 5 日 上午 7:37 #

      你好……本教程仅用于说明目的。您是否在执行原始代码后查看了 X 和 Y 变量的内容?请告诉我们您的想法。

发表回复

Machine Learning Mastery 是 Guiding Tech Media 的一部分,Guiding Tech Media 是一家领先的数字媒体出版商,专注于帮助人们了解技术。访问我们的公司网站以了解更多关于我们的使命和团队的信息。