在开始机器学习项目之前,您必须能够加载数据。
机器学习数据最常见的格式是 CSV 文件。在 Python 中加载 CSV 文件有多种方法。
在这篇文章中,您将发现可以在 Python 中加载机器学习数据的不同方法。
通过我的新书《使用 Python 进行机器学习精通》**启动您的项目**,其中包括**分步教程**和所有示例的 **Python 源代码**文件。
让我们开始吧。
- **2017 年 3 月更新**:将加载从二进制(“rb”)更改为 ASCII(“rt”)。
- 2018年3月更新:添加了替代链接以下载数据集,因为原始链接似乎已被删除。
- **2018 年 3 月更新**:更新了 NumPy 从 URL 加载的示例,以适用于 Python 3。

如何在 Python 中加载机器学习数据
图片由 Ann Larie Valentine 提供,保留部分权利。
加载 CSV 数据时的注意事项
从 CSV 文件加载机器学习数据时需要考虑许多因素。
作为参考,您可以通过查阅名为《逗号分隔值 (CSV) 文件的通用格式和 MIME 类型》的 CSV 征求意见书来了解有关 CSV 文件期望的许多信息。
CSV 文件头
您的数据有文件头吗?
如果有,这有助于自动为每列数据分配名称。如果没有,您可能需要手动命名您的属性。
无论哪种方式,您在加载数据时都应明确指定 CSV 文件是否包含文件头。
注释
您的数据有注释吗?
CSV 文件中的注释以行首的哈希符 (“#”) 表示。
如果您的文件中有注释,根据用于加载数据的方法,您可能需要指示是否期望有注释以及表示注释行的字符。
分隔符
分隔字段值的标准分隔符是逗号(“,”)字符。
您的文件可能使用不同的分隔符,例如制表符(“\t”),在这种情况下,您必须明确指定它。
引号
有时字段值可能包含空格。在这些 CSV 文件中,值通常用引号引起来。
默认的引号字符是双引号“"”。可以使用其他字符,您必须指定文件中使用的引号字符。
需要 Python 机器学习方面的帮助吗?
参加我为期 2 周的免费电子邮件课程,探索数据准备、算法等等(附带代码)。
立即点击注册,还将免费获得本课程的 PDF 电子书版本。
机器学习数据加载秘籍
每个秘籍都是独立的。
这意味着您可以将其复制粘贴到您的项目中并立即使用。
如果您对这些食谱有任何疑问或改进建议,请留言,我将尽力回答。
使用 Python 标准库加载 CSV
Python API 提供了 `CSV` 模块和 `reader()` 函数,可用于加载 CSV 文件。
加载后,您可以将 CSV 数据转换为 NumPy 数组并用于机器学习。
例如,您可以将 Pima Indians 数据集下载到您的本地目录(从这里下载)。
所有字段均为数字,没有标题行。运行以下代码将加载 CSV 文件并将其转换为 NumPy 数组。
1 2 3 4 5 6 7 8 9 |
# 加载 CSV(使用 Python) 导入 csv import numpy 文件名 = 'pima-indians-diabetes.data.csv' 原始数据 = 打开(文件名, 'rt') 读取器 = csv.读取器(原始数据, 分隔符=',', 引用=csv.不引用) x = 列表(读取器) 数据 = numpy.数组(x).astype('float') print(data.shape) |
该示例加载一个可以迭代数据每一行的对象,并且可以轻松转换为 NumPy 数组。运行该示例将打印数组的形状。
1 |
(768, 9) |
有关 `csv.reader()` 函数的更多信息,请参阅 Python API 文档中的《CSV 文件读写》。
使用 NumPy 加载 CSV 文件
您可以使用 NumPy 和 `numpy.loadtxt()` 函数加载 CSV 数据。
此函数假定没有标题行,并且所有数据都具有相同的格式。下面的示例假定文件 `pima-indians-diabetes.data.csv` 位于您当前的工作目录中。
1 2 3 4 5 6 |
# 加载 CSV import numpy 文件名 = 'pima-indians-diabetes.data.csv' 原始数据 = 打开(文件名, 'rt') 数据 = numpy.loadtxt(原始数据, 分隔符=",") print(data.shape) |
运行示例将把文件加载为 numpy.ndarray 并打印数据的形状。
1 |
(768, 9) |
此示例可以修改为直接从 URL 加载相同的数据集,如下所示:
**注意**:此示例假定您使用的是 Python 3。
1 2 3 4 5 6 7 |
# 使用 NumPy 从 URL 加载 CSV 从 numpy 导入 loadtxt 从 urllib.request 导入 urlopen url = 'https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv' 原始数据 = urlopen(url) 数据集 = loadtxt(原始数据, 分隔符=",") print(dataset.shape) |
同样,运行该示例会生成相同的数据形状。
1 |
(768, 9) |
有关 numpy.loadtxt() 函数的更多信息,请参阅 API 文档(numpy 版本 1.10)。
使用 Pandas 加载 CSV 文件
您可以使用 Pandas 和 `pandas.read_csv()` 函数加载 CSV 数据。
这个函数非常灵活,可能是我推荐的加载机器学习数据的方法。该函数返回一个 pandas.DataFrame,您可以立即开始对其进行总结和绘图。
下面的示例假定“pima-indians-diabetes.data.csv”文件位于当前工作目录中。
1 2 3 4 5 6 |
# 使用 Pandas 加载 CSV import pandas 文件名 = 'pima-indians-diabetes.data.csv' 名称 = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class'] 数据 = pandas.read_csv(文件名, 名称=名称) print(data.shape) |
请注意,在此示例中,我们明确指定了每个属性的名称给 DataFrame。运行示例将显示数据的形状。
1 |
(768, 9) |
我们还可以修改此示例,以直接从 URL 加载 CSV 数据。
1 2 3 4 5 6 |
# 使用 Pandas 从 URL 加载 CSV import pandas url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv" 名称 = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class'] 数据 = pandas.read_csv(url, 名称=名称) print(data.shape) |
同样,运行该示例会下载 CSV 文件,解析它并显示加载的 DataFrame 的形状。
1 |
(768, 9) |
要了解更多关于 pandas.read_csv() 函数的信息,您可以查阅 API 文档。
总结
在这篇文章中,您发现了如何在 Python 中加载机器学习数据。
您学习了三种可以使用的特定技术
- 使用 Python 标准库加载 CSV。
- 使用 NumPy 加载 CSV 文件。
- 使用 Pandas 加载 CSV 文件。
本文的操作步骤是输入或复制粘贴每个代码示例,并熟悉在 Python 中加载机器学习数据的不同方法。
您对在 Python 中加载机器学习数据或本文有什么疑问吗?请在评论中提出您的问题,我将尽力回答。
嗨!
“使用 Python 标准库加载 CSV”部分中“您可以将 Pima Indians 数据集下载到您的本地目录”是什么意思?
我的本地目录在哪里?
我试了几种方法,但都不管用
这意味着将 CSV 文件下载到您编写 Python 代码的目录。您项目当前的工作目录。
谢谢,我明白了!
谢谢你,伙计
不客气。
谢谢
不客气,匿名!
对于使用 Anaconda 的用户,您可以启动 Jupiter notebook 并在 notebook 上上传数据,这将成为您的工作目录。
感谢 David 的推荐!
你好
如何在 Python 中加载视频数据集?不用 tensorflow、keras、…
我用谷歌搜索了“python load video”,找到了这个
http://opencv-python-tutroals.readthedocs.io/en/latest/py_tutorials/py_gui/py_video_display/py_video_display.html
是否可以将数据集存储在 E 盘,而我的 Python 文件存储在 C 盘?
我认为 Python 不关心您将文件存储在哪里。
你好,
我只想从 CSV 文件中保留两列,并使用这些数字作为 x-y 点,用于我正在做的 k-means 实现。
我现在生成点的方法是这样的
” points = np.vstack(((np.random.randn(150, 2) * 0.75 + np.array([1, 0])),
(np.random.randn(50, 2) * 0.25 + np.array([-0.5, 0.5])),
(np.random.randn(50, 2) * 0.5 + np.array([-0.5, -0.5])))) “,
但我想将我的代码应用于实际数据。
有什么帮助吗?
抱歉,我没有任何 Python 中的 k-means 教程。我可能不是提供建议的最佳人选。
我不想了解任何关于 k-means 的内容,我的代码——计算和所有——都已整理好。我只是想获得一些关于 CSV 文件的帮助。
感谢您详细解释如何加载数据。
它们完美运行。
很高兴听到这个消息!
我很高兴它帮助了 Steve。
非常感谢……真的很有帮助……
Fawad,我很高兴听到这个消息。
如何加载文本属性?我收到错误,说无法将字符串转换为浮点数:b'Iris-setosa'
您需要使用 Pandas 加载数据,然后将其转换为数字。
我提供了这方面的例子。
我只是想知道,对于可能冗余的字段,将关系数据库模型中的内容转换为最佳 ML 格式的最佳实践是什么。理想情况下,导出将是 CSV 格式,但我知道它不会像每次导出那么简单。希望用一个简单的例子来说明我的问题:假设我有一个表,其中我将事物归因于动物。结构可以设置如下:
ID, 动物, 颜色, 大陆
1, 斑马, 黑色, 非洲
2, 斑马, 白色, 非洲
目标是能够说“如果颜色是黑白相间的,并且生活在非洲,那它很可能是斑马。”……所以每一行代表一个动物,与它相关联的是单一颜色,以及其他字段。这种格式是否是最佳实践,可以直接馈入模型?或者,将颜色串联到一行中并用分隔符分开更有意义吗?换句话说,它可能不总是 1:1 的关系,在数据集是这种情况时,最佳的格式化方式是什么?
感谢您的时间。
好问题。没有硬性规定,一般来说,我建议尽可能多地探索不同的表示方式,看看哪种效果最好。
这篇文章可能会帮助您获得一些想法
https://machinelearning.org.cn/discover-feature-engineering-how-to-engineer-features-and-how-to-get-good-at-it/
你能告诉我如何从 csv 文件中选择特征吗
加载文件并使用特征选择算法
https://machinelearning.org.cn/feature-selection-in-python-with-scikit-learn/
嗨,
我正在尝试加载行分隔数据。
姓名:Disha
性别:女
专业:计算机科学
姓名
性别
专业
对此有什么建议吗?
哎呀,看起来您可能需要编写一些自定义代码来加载每一“行”或实体。
你能告诉我如何加载 csv 文件并应用特征选择方法吗?你能发布灰狼优化器算法的代码吗?
是的,请看这篇文章
https://machinelearning.org.cn/feature-selection-in-python-with-scikit-learn/
我已将数据加载到 numpy 数组中。接下来我应该怎么做来训练我的模型?
遵循这个过程
https://machinelearning.org.cn/start-here/#process
嗨,
我想将 KDD cup 99 数据集用于入侵检测项目。该数据集由字符串和数值数据组成。那么我应该将整个数据集转换为数值数据还是按原样使用它?
最终所有数据都需要是数字。
嗨,Jason,
我有一个带有标题的 csv 数据集,并且所有列都具有不同的数据类型,
在这种情况下,使用 loadtxt() 还是 genfromtxt() 会更好?
另外,这两种方法之间是否存在重大的性能差异?
使用任何您可以使用的,如果速度是问题,可以考虑使用您的数据对这些方法进行基准测试。
我收到一个 ValueError:无法将字符串转换为浮点数
在读取此数据时
http://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/breast-cancer-wisconsin.data
你能回复我哪里做错了吗?
您可能有一些“?”值。首先将它们转换为 0 或 nan。
文件名 = 'C:\Users\user\Desktop\python.data.csv'
原始数据 = open(文件名, 'rt')
名称 = ['pixle1', 'pixle2', 'pixle3', 'pixle4', 'pixle5', 'pixle6', 'pixle7', 'pixle8', 'pixle9', 'pixle10', 'pixle11', 'pixle12', 'pixle13', 'pixle14', 'pixle15', 'pixle16', 'pixle17', 'pixle18', 'pixle19', 'pixle20', 'pixle21', 'pixle22', 'pixle23', 'pixle24', 'pixle25', 'pixle26', 'pixle27', 'pixle28', 'pixle29', 'pixle30', 'class']
数据 = numpy.loadtxt(原始数据, names= 名称)
干得好!
我有多个大小不一的 CSV 文件,我想用它们来训练我的神经网络。我有大约 1000 个文件,数据行数从 15000 到 65000 不等。在我预处理这些数据后,一个 CSV 文件可能是一个 65000 行 20 列的数组。我的电脑在处理一个 65000 行 20 列的数组时很快就耗尽内存,所以我无法将所有 1000 个文件合并成一个大的 CSV 文件。有没有一种方法可以使用 Keras 加载一个 CSV 文件,让模型学习该数据,然后加载下一个文件,让模型学习该文件,依此类推?有没有更好的方法来学习这么多数据?
我这里有一些想法
https://machinelearning.org.cn/faq/single-faq/how-to-i-work-with-a-very-large-dataset
我有多个 200 个 CSV 文件和标签文件,其中包含 200 行输出。我想训练,但无法加载数据集。
您可能需要编写一些自定义代码来依次加载每个 CSV。例如,在目录中的文件循环中。
我收到错误
回溯(最近一次调用)
文件“sum.py”,第 8 行,在
数据 = numpy.array(x).astype(float)
ValueError:使用序列设置数组元素。
为什么?
这表明 x 不是数组或列表。
你好,
我有一个包含像 3,6e+12, 2.5e-3… 这样的数字的数据集。
当将此数据集作为 CSV 文件读取时,我收到错误:“ValueError: cannot convert string to float”
有解决方案吗?
这些数字以科学计数法表示,应该能够正确读取。
文件中可能还有其他非数字字段?
不,没有,错误信息是:“无法将字符串转换为浮点数:3.6e+12”
谢谢你
这令人惊讶,也许尝试一种不同的加载方法,例如 numpy 或 pandas?
也许可以尝试发布到 stackoverflow?
我试试看
谢谢
先生,
假设我有 3 个 csv 文件,每个文件都包含一个特定的属性。所以这 3 个 csv 文件中的单行对应于一个特定的特征实例。那么在加载时,我可以将所有 csv 文件一起加载并把每一行转换为 numpy 数组吗?
谢谢
我建议将所有数据加载到内存中,然后可以将 numpy 数组拼接起来(例如,hstack)。
如果我的数据集是 .data 文件扩展名,我如何在 python 中处理它?
请帮忙
也许可以用文本编辑器打开它,确认它是 CSV 格式,然后像打开 CSV 文件一样在 Python 中打开它。
我复制您的代码如下:
# 使用 NumPy 加载 CSV
# 您可以使用 NumPy 和 numpy.loadtxt() 函数加载 CSV 数据。
import numpy
文件名 = 'pima-indians-diabetes.csv'
原始数据 = open(文件名, 'rt')
数据 = numpy.loadtxt(原始数据, delimiter=”,”)
print(data.shape)
===============
但是,我收到一条错误消息
ValueError 回溯 (最近一次调用)
in
5 文件名 = 'pima-indians-diabetes.csv'
6 原始数据 = open(文件名, 'rt')
----> 7 数据 = numpy.loadtxt(原始数据, delimiter=”,”)
8 打印(数据.形状)
~\Anaconda3\lib\site-packages\numpy\lib\npyio.py in loadtxt(fname, dtype, comments, delimiter, converters, skiprows, usecols, unpack, ndmin, encoding)
1099 # 转换数据
1100 X = None
-> 1101 对于 read_data(_loadtxt_chunksize) 中的 x
1102 如果 X 为 None
1103 X = np.array(x, dtype)
~\Anaconda3\lib\site-packages\numpy\lib\npyio.py in read_data(chunk_size)
1026
1027 # 根据其列转换每个值并存储
-> 1028 项目 = [conv(val) for (conv, val) in zip(converters, vals)]
1029
1030 # 然后根据 dtype 的嵌套进行打包
~\Anaconda3\lib\site-packages\numpy\lib\npyio.py in (.0)
1026
1027 # 根据其列转换每个值并存储
-> 1028 项目 = [conv(val) for (conv, val) in zip(converters, vals)]
1029
1030 # 然后根据 dtype 的嵌套进行打包
~\Anaconda3\lib\site-packages\numpy\lib\npyio.py in floatconv(x)
744 如果 '0x' 在 x 中
745 返回 float.fromhex(x)
--> 746 返回 float(x)
747
748 类型 = dtype.type
ValueError: 无法将字符串转换为浮点数:'Pregnancies'
========
我不知道哪里出了问题。
听到这个消息我很难过,我这里有一些建议给你
https://machinelearning.org.cn/faq/single-faq/why-does-the-code-in-the-tutorial-not-work-for-me
如何从工作目录加载数据集到 colab?
抱歉,我没有使用过 colab。
当我点击“更新:从此处下载”以下载 CSV 文件时,它会带我到一个空白页面,左侧显示数字,看起来像是数据。我如何将/下载此数据到 CSV 文件中?谢谢!
这是直接链接
https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv
谢谢!
嗨,Jason,
希望您能帮助我处理以下预处理的 dataset.txt 文件。我如何在 python 中加载此数据集?它总共有 54,256 行和 28 列。我可以使用 pandas 吗?
[0.08148002361739815, 3.446134970078908e-05, 4.747197881944017e-05, 0.0034219001610305954, 0.047596616392169624, 0.11278174138979659, 0.0011501307441196414, 1.0, 0.09648950774661698, 0.09152382450070766, 0.0032736389720705384, 0.02231715511892242, 0.0, -1.0, 0.0, -1.0, -1.0, -1.0, 0.0, -1.0, -1.0, -1.0, 0.0, 0.0, 0.0, -1.0, 1.0, -1.0]
[0.0816768352686479, 2.929466010613462e-05, 1.2086789450560964e-06, 0.6246987951807229, 0.04743433880824845, 0.11350265074251698, 0.0011614423285977043, 1.0, 0.0965330892767645, 0.0914339631118999, 0.003190342698832632, 0.022268885790504313, 0.0, -1.0, 0.0, -1.0, -1.0, -1.0, 0.0, -1.0, -1.0, -1.0, 0.0, 0.0, 0.0, -1.0, 1.0, -1.0]
[0.08226727022239716, 2.987144231823633e-05, 2.2329338947249727e-06, 0.047448165869218496, 0.04753095407349041, 0.11459941368369171, 0.0011702815567795678, 1.0, 0.0969906953433135, 0.09170354727832318, 0.003358412434012629, 0.022329898179060795, 0.0, -1.0, 0.0, -1.0, -1.0, -1.0, 0.0, -1.0, -1.0, -1.0, 0.0, 0.0, 0.0, -1.0, 1.0, -1.0]
.
.
.
.
.
.
您可以将其直接加载为 dataframe 或 numpy 数组。
你到底遇到了什么问题?
当我尝试将其加载为 numpy 数组时,它再次返回列表。
我在将 dataset.txt 文件加载到内存后使用以下代码
import numpy as np
数据集 = load_doc('dataset.txt')
x = np.asarray(数据集)
打印 (x)
试试看
打印(type(x))
非常感谢!
所以我的最后一个问题(希望如此)是,我拥有数据集、标签和 28 个列的标题列表。我正在尝试将它们加载到 Python 中,以便我可以将它们分割并创建我的训练和测试数据集。我不确定如何处理这些标题。我也需要加载它们吗?
您可以将列标题作为 CSV 文件的第一行,并使用 pandas 自动加载它们。
或者,如果需要,您可以在 Python 中将它们指定为列。
或者完全放弃它们。
你好
我是新手。
请帮我将图像数据集转换为 csv。
您不需要这样做,而是将图像加载为数组。
https://machinelearning.org.cn/how-to-load-and-manipulate-images-for-deep-learning-in-python-with-pil-pillow/
如何从解析器加载数据?
从 parser 导入 load_data #数据加载
抱歉,我不明白。也许可以尝试发布到 stackoverflow?
嗨,Jason,数据集已从上面的链接中删除,我想检查一下,因为您的整本书都基于该数据集,所以请提供数据集,这样我们就能更容易地理解您书中的概念,请提供数据集。
谢谢你
我已在帖子中直接提供了更新的链接,这里再提供一次
https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv
先生,请帮我
我只是想知道,
如何使用 SVM 和 KNN 算法在 Python 中对分类图像进行分类
也许从这里开始
https://machinelearning.org.cn/spot-check-classification-machine-learning-algorithms-python-scikit-learn/
你好,
非常感谢您提供所有精彩的教程。我想使用一个多元时间序列数据集,首先我需要制作一个与 Python 中的 load_basic_motion 数据类似的格式。我有几个文本文件,每个文件代表一个特征,每个文件都有每个观测的时间序列数据。您对以所需格式准备数据有什么建议吗?
谢谢!
也许这个教程将提供一个有用的起点,并根据您的需求进行调整
https://machinelearning.org.cn/how-to-model-human-activity-from-smartphone-data/
你好,
我成功加载了我的 csv 文件数据集。它基本上是一个字母数据集,现在我想用这个加载的数据集来训练我的 Python,以便以后可以用它来识别单词,你能帮我吗?
谢谢你
是的,您可以在这里开始使用 Python 中的文本数据
https://machinelearning.org.cn/start-here/#nlp
嗨,Jason,
这里有一个问题,请问如何在不将非 csv 数据(而不是普通文件)转换为 csv 文件数据集的情况下,在 spyder python 上加载我的非 csv 数据?
是的,您可以根据您的数据集自定义对 read_csv() 函数的调用。
X = list(map(lambda x: np.array(x), X))
X = list(map(lambda x: x.reshape(1, x.shape[0], x.shape[1]), X))
y = np.expand_dims(y, axis=-1)
我使用了 Tcn 模型。当我运行它时,我收到了这个错误。索引超出范围,请帮助我如何解决这个错误。我也从 stackoverflow 搜索过,但没有找到。
这是我在这里回答的一个常见问题
https://machinelearning.org.cn/faq/single-faq/can-you-read-review-or-debug-my-code
感谢这篇精彩的文章。我想知道如果我们在数字分类问题中,最后一列包含类别。那么如何加载和打印数字而忽略最后一列?
我试过了,它显示:
ValueError: 无法将大小为 257 的数组重塑为形状 (16,16)
本教程将向您展示如何加载和显示图像数据
https://machinelearning.org.cn/how-to-load-and-manipulate-images-for-deep-learning-in-python-with-pil-pillow/
谢谢。但是图像的像素是 csv 格式的,数据集的最后一列包含我想要忽略的标签。我正在使用的数据集是 usps.csv 来分类数字。提前感谢。
这很奇怪。通常像素以图像格式存储。
我不确定我是否有能直接帮助您的教程,您可能需要编写一些自定义代码来加载 CSV 并将其转换为适当的 3D numpy 数组。
嗨。我通过将数据保留在 numpy 数组中的 csv 中,然后对数组进行切片来完成我的工作。但是您的教程非常好且有用。谢谢。
干得好!
谢谢 🙂
不客气。
亲爱的 Jason,
我如何在 Python 中加载 .rek 数据集?如果可能,请评论。谢谢
我不熟悉那种文件类型,抱歉。
谢谢 Jason
不客气。
如何在 python 代码中加载图像数据集
也许从这里开始
https://machinelearning.org.cn/how-to-load-and-manipulate-images-for-deep-learning-in-python-with-pil-pillow/
还有这里
https://machinelearning.org.cn/how-to-load-convert-and-save-images-with-the-keras-api/
嗨,杰森,我是个没有经验的新手。我该如何学习数据科学?你能给我一个路线图吗?那对我会有帮助。
就在这里
https://machinelearning.org.cn/start-here/
嘿,杰森,
我实际上想使用 CSV 文件中的某些特定列来加载数据到机器学习模型中。你能帮我一下吗?
是的,正常加载数据,然后选择您要使用的列,或删除您不想要的列。
如果您是 numpy 数组的新手,这将有所帮助
https://machinelearning.org.cn/gentle-introduction-n-dimensional-arrays-python-numpy/
还有这个。
https://machinelearning.org.cn/index-slice-reshape-numpy-arrays-machine-learning-python/
实际上,我使用的数据集包含两种信号的数据。我不想删除列。我想在一个模型中使用“一种信号的列”,在第二个模型中使用另一种信号的列。
请告诉我是否可以帮助我
谢谢
您可以使用 ColumnTransformer,有关示例请参阅此教程
https://machinelearning.org.cn/columntransformer-for-numerical-and-categorical-data/
嗨!!是否可以使用 NLP 将 CSV 文件(2 列)中的相似行聚类在一起。如果可以,您能提供一个包含代码的帖子来帮助我吗?
是的,抱歉,我没有文本数据的聚类示例。
如果数据集中有 9 个变量,
names = [‘preg’, ‘plas’, ‘pres’, ‘skin’, ‘test’, ‘mass’, ‘pedi’, ‘age’, ‘class’]
那么在选择 X 数组时应该是
X=array[:,1:8]
和
Y =array[:,9]
你能解释一下你为什么使用这个吗?
X = array[:,0:8]
Y = array[:,8]
你好……本教程仅用于说明目的。您是否在执行原始代码后查看了 X 和 Y 变量的内容?请告诉我们您的想法。