不平衡分类问题是指在训练数据集中,类别标签的分布存在倾斜的分类预测问题。
许多现实世界的分类问题都存在类别分布不平衡的情况,因此机器学习从业者熟悉处理这类问题非常重要。
在本教程中,您将发现一套用于不平衡分类的标准机器学习数据集。
完成本教程后,您将了解:
- 具有两个类别不平衡的标准机器学习数据集。
- 类别分布倾斜的多类别分类标准数据集。
- 用于机器学习竞赛的流行不平衡分类数据集。
开始您的项目,阅读我的新书 《Python不平衡分类》,其中包含分步教程和所有示例的Python源代码文件。
让我们开始吧。
- 2021 年 1 月更新:更新了 API 文档链接。

标准不平衡分类机器学习数据集
照片作者: Graeme Churchard,部分权利保留。
教程概述
本教程分为三个部分;它们是:
- 二元分类数据集
- 多类别分类数据集
- 竞赛及其他数据集
二元分类数据集
二元分类预测建模问题是指具有两个类别的分类问题。
通常,不平衡的二元分类问题描述一种正常状态(类别 0)和一种异常状态(类别 1),例如欺诈、诊断或故障。
在本节中,我们将详细介绍三个具有类别不平衡的标准二元分类机器学习数据集。这些数据集足够小,可以放入内存中,并且经过充分研究,为许多研究论文的调查提供了基础。
这些数据集的名称如下:
- 皮马印第安人糖尿病数据集 (Pima)
- 哈伯曼乳腺癌数据集 (Haberman)
- 德国信用数据集 (German)
我们将加载每个数据集并总结其类别不平衡的性质。
皮马印第安人糖尿病数据集 (Pima)
每条记录描述一位女性的医疗详细信息,预测是五年内是否会患上糖尿病。
下面提供了该数据集前五行的样本。
1 2 3 4 5 6 |
6,148,72,35,0,33.6,0.627,50,1 1,85,66,29,0,26.6,0.351,31,0 8,183,64,0,0,23.3,0.672,32,1 1,89,66,23,94,28.1,0.167,21,0 0,137,40,35,168,43.1,2.288,33,1 ... |
下面的示例加载并总结了该数据集的类别分布。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 |
# 总结皮马印第安人糖尿病数据集 from numpy import unique from pandas import read_csv # 加载数据集 url = 'https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.csv' dataframe = read_csv(url, header=None) # 获取值 values = dataframe.values X, y = values[:, :-1], values[:, -1] # 收集详细信息 n_rows = X.shape[0] n_cols = X.shape[1] classes = unique(y) n_classes = len(classes) # 总结 print('示例数:%d' % n_rows) print('输入数:%d' % n_cols) print('类别数:%d' % n_classes) print('类别:%s' % classes) print('类别分布:') # 类别分布 breakdown = '' for c in classes: total = len(y[y == c]) ratio = (total / float(len(y))) * 100 print(' - 类别 %s: %d (%.5f%%)' % (str(c), total, ratio)) |
运行该示例将提供以下输出。
1 2 3 4 5 6 7 |
示例数:768 输入数:8 类别数:2 类别:[0. 1.] 类别分布 - 类别 0.0:500 (65.10417%) - 类别 1.0:268 (34.89583%) |
想要开始学习不平衡分类吗?
立即参加我为期7天的免费电子邮件速成课程(附示例代码)。
点击注册,同时获得该课程的免费PDF电子书版本。
哈伯曼乳腺癌数据集 (Haberman)
每条记录描述患者的医疗细节,预测是患者五年后是否存活。
- 更多详情: haberman.names
- 数据集: haberman.csv
- 附加信息
下面提供了该数据集前五行的样本。
1 2 3 4 5 6 |
30,64,1,1 30,62,3,1 30,65,0,1 31,59,2,1 31,65,4,1 ... |
下面的示例加载并总结了该数据集的类别分布。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 |
# 总结哈伯曼乳腺癌数据集 from numpy import unique from pandas import read_csv # 加载数据集 url = 'https://raw.githubusercontent.com/jbrownlee/Datasets/master/haberman.csv' dataframe = read_csv(url, header=None) # 获取值 values = dataframe.values X, y = values[:, :-1], values[:, -1] # 收集详细信息 n_rows = X.shape[0] n_cols = X.shape[1] classes = unique(y) n_classes = len(classes) # 总结 print('示例数:%d' % n_rows) print('输入数:%d' % n_cols) print('类别数:%d' % n_classes) print('类别:%s' % classes) print('类别分布:') # 类别分布 breakdown = '' for c in classes: total = len(y[y == c]) ratio = (total / float(len(y))) * 100 print(' - 类别 %s: %d (%.5f%%)' % (str(c), total, ratio)) |
运行该示例将提供以下输出。
1 2 3 4 5 6 7 |
示例数:306 输入数:3 类别数:2 类别:[1 2] 类别分布 - 类别 1:225 (73.52941%) - 类别 2:81 (26.47059%) |
德国信用数据集 (German)
每条记录描述一个人的财务细节,预测是该人是否是良好的信用风险。
- 更多详情: german.names
- 数据集: german.csv
- 附加信息
下面提供了该数据集前五行的样本。
1 2 3 4 5 6 |
A11,6,A34,A43,1169,A65,A75,4,A93,A101,4,A121,67,A143,A152,2,A173,1,A192,A201,1 A12,48,A32,A43,5951,A61,A73,2,A92,A101,2,A121,22,A143,A152,1,A173,1,A191,A201,2 A14,12,A34,A46,2096,A61,A74,2,A93,A101,3,A121,49,A143,A152,1,A172,2,A191,A201,1 A11,42,A32,A42,7882,A61,A74,2,A93,A103,4,A122,45,A143,A153,1,A173,2,A191,A201,1 A11,24,A33,A40,4870,A61,A73,3,A93,A101,4,A124,53,A143,A153,2,A173,2,A191,A201,2 ... |
下面的示例加载并总结了该数据集的类别分布。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 |
# 总结德国信用数据集 from numpy import unique from pandas import read_csv # 加载数据集 url = 'https://raw.githubusercontent.com/jbrownlee/Datasets/master/german.csv' dataframe = read_csv(url, header=None) # 获取值 values = dataframe.values X, y = values[:, :-1], values[:, -1] # 收集详细信息 n_rows = X.shape[0] n_cols = X.shape[1] classes = unique(y) n_classes = len(classes) # 总结 print('示例数:%d' % n_rows) print('输入数:%d' % n_cols) print('类别数:%d' % n_classes) print('类别:%s' % classes) print('类别分布:') # 类别分布 breakdown = '' for c in classes: total = len(y[y == c]) ratio = (total / float(len(y))) * 100 print(' - 类别 %s: %d (%.5f%%)' % (str(c), total, ratio)) |
运行该示例将提供以下输出。
1 2 3 4 5 6 7 |
示例数:1000 输入数:20 类别数:2 类别:[1 2] 类别分布 - 类别 1:700 (70.00000%) - 类别 2:300 (30.00000%) |
多类别分类数据集
多类别分类预测建模问题是指具有两个以上类别的分类问题。
通常,不平衡的多类别分类问题描述了多种不同的事件,其中一些事件比其他事件常见得多。
在本节中,我们将详细介绍三个具有类别不平衡的标准多类别分类机器学习数据集。这些数据集足够小,可以放入内存中,并且经过充分研究,为许多研究论文的调查提供了基础。
这些数据集的名称如下:
- 玻璃识别 (Glass)
- 大肠杆菌 (Ecoli)
- 甲状腺 (Thyroid)
注意:在研究论文中,通常将不平衡的多类别分类问题转化为不平衡的二元分类问题,方法是将所有多数类别合并为一个类别,而保留最小的少数类别。
我们将加载每个数据集并总结其类别不平衡的性质。
玻璃识别 (Glass)
每条记录描述玻璃的化学成分,预测涉及玻璃的类型。
- 更多详情: glass.names
- 数据集: glass.csv
- 附加信息
下面提供了该数据集前五行的样本。
1 2 3 4 5 6 |
1.52101,13.64,4.49,1.10,71.78,0.06,8.75,0.00,0.00,1 1.51761,13.89,3.60,1.36,72.73,0.48,7.83,0.00,0.00,1 1.51618,13.53,3.55,1.54,72.99,0.39,7.78,0.00,0.00,1 1.51766,13.21,3.69,1.29,72.61,0.57,8.22,0.00,0.00,1 1.51742,13.27,3.62,1.24,73.08,0.55,8.07,0.00,0.00,1 ... |
第一列代表行标识符,可以移除。
下面的示例加载并总结了该数据集的类别分布。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 |
# 总结玻璃识别数据集 from numpy import unique from pandas import read_csv # 加载数据集 url = 'https://raw.githubusercontent.com/jbrownlee/Datasets/master/glass.csv' dataframe = read_csv(url, header=None) # 获取值 values = dataframe.values X, y = values[:, :-1], values[:, -1] # 收集详细信息 n_rows = X.shape[0] n_cols = X.shape[1] classes = unique(y) n_classes = len(classes) # 总结 print('示例数:%d' % n_rows) print('输入数:%d' % n_cols) print('类别数:%d' % n_classes) print('类别:%s' % classes) print('类别分布:') # 类别分布 breakdown = '' for c in classes: total = len(y[y == c]) ratio = (total / float(len(y))) * 100 print(' - 类别 %s: %d (%.5f%%)' % (str(c), total, ratio)) |
运行该示例将提供以下输出。
1 2 3 4 5 6 7 8 9 10 11 |
示例数:214 输入数:9 类别数:6 类别:[1. 2. 3. 5. 6. 7.] 类别分布 - 类别 1.0:70 (32.71028%) - 类别 2.0:76 (35.51402%) - 类别 3.0:17 (7.94393%) - 类别 5.0:13 (6.07477%) - 类别 6.0:9 (4.20561%) - 类别 7.0:29 (13.55140%) |
大肠杆菌 (Ecoli)
每条记录描述不同测试的结果,预测涉及蛋白质定位位点名称。
- 更多详情: ecoli.names
- 数据集: ecoli.csv
- 附加信息
下面提供了该数据集前五行的样本。
1 2 3 4 5 6 |
0.49,0.29,0.48,0.50,0.56,0.24,0.35,cp 0.07,0.40,0.48,0.50,0.54,0.35,0.44,cp 0.56,0.40,0.48,0.50,0.49,0.37,0.46,cp 0.59,0.49,0.48,0.50,0.52,0.45,0.36,cp 0.23,0.32,0.48,0.50,0.55,0.25,0.35,cp ... |
第一列代表行标识符或名称,可以移除。
下面的示例加载并总结了该数据集的类别分布。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 |
# 总结大肠杆菌数据集 from numpy import unique from pandas import read_csv # 加载数据集 url = 'https://raw.githubusercontent.com/jbrownlee/Datasets/master/ecoli.csv' dataframe = read_csv(url, header=None) # 获取值 values = dataframe.values X, y = values[:, :-1], values[:, -1] # 收集详细信息 n_rows = X.shape[0] n_cols = X.shape[1] classes = unique(y) n_classes = len(classes) # 总结 print('示例数:%d' % n_rows) print('输入数:%d' % n_cols) print('类别数:%d' % n_classes) print('类别:%s' % classes) print('类别分布:') # 类别分布 breakdown = '' for c in classes: total = len(y[y == c]) ratio = (total / float(len(y))) * 100 print(' - 类别 %s: %d (%.5f%%)' % (str(c), total, ratio)) |
运行该示例将提供以下输出。
1 2 3 4 5 6 7 8 9 10 11 12 13 |
示例数:336 输入数:7 类别数:8 类别:['cp' 'im' 'imL' 'imS' 'imU' 'om' 'omL' 'pp'] 类别分布 - 类别 cp:143 (42.55952%) - 类别 im:77 (22.91667%) - 类别 imL:2 (0.59524%) - 类别 imS:2 (0.59524%) - 类别 imU:35 (10.41667%) - 类别 om:20 (5.95238%) - 类别 omL:5 (1.48810%) - 类别 pp:52 (15.47619%) |
甲状腺 (Thyroid)
每条记录描述甲状腺的测试结果,预测涉及甲状腺的医疗诊断。
- 更多详情: new-thyroid.names
- 数据集: new-thyroid.csv
- 附加信息
下面提供了该数据集前五行的样本。
1 2 3 4 5 6 |
107,10.1,2.2,0.9,2.7,1 113,9.9,3.1,2.0,5.9,1 127,12.9,2.4,1.4,0.6,1 109,5.3,1.6,1.4,1.5,1 105,7.3,1.5,1.5,-0.1,1 ... |
下面的示例加载并总结了该数据集的类别分布。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 |
# 总结甲状腺数据集 from numpy import unique from pandas import read_csv # 加载数据集 url = 'https://raw.githubusercontent.com/jbrownlee/Datasets/master/new-thyroid.csv' dataframe = read_csv(url, header=None) # 获取值 values = dataframe.values X, y = values[:, :-1], values[:, -1] # 收集详细信息 n_rows = X.shape[0] n_cols = X.shape[1] classes = unique(y) n_classes = len(classes) # 总结 print('示例数:%d' % n_rows) print('输入数:%d' % n_cols) print('类别数:%d' % n_classes) print('类别:%s' % classes) print('类别分布:') # 类别分布 breakdown = '' for c in classes: total = len(y[y == c]) ratio = (total / float(len(y))) * 100 print(' - 类别 %s: %d (%.5f%%)' % (str(c), total, ratio)) |
运行该示例将提供以下输出。
1 2 3 4 5 6 7 8 |
示例数:215 输入数:5 类别数:3 类别:[1. 2. 3.] 类别分布 - 类别 1.0:150 (69.76744%) - 类别 2.0:35 (16.27907%) - 类别 3.0:30 (13.95349%) |
竞赛及其他数据集
本节列出了研究论文中使用的一些附加数据集,这些数据集使用较少、规模更大,或是机器学习竞赛的基础数据集。
这些数据集的名称如下:
- 信用卡欺诈 (Credit)
- Porto Seguro 汽车保险索赔 (Porto Seguro)
我们将加载每个数据集并总结其类别不平衡的性质。
信用卡欺诈 (Credit)
每条记录描述一笔信用卡交易,并将其归类为欺诈。
此数据未压缩时约为 144MB,压缩后约为 66MB。
下载数据集并将其解压缩到您当前的目录中。
下面提供了该数据集前五行的样本。
1 2 3 4 5 6 |
"Time","V1","V2","V3","V4","V5","V6","V7","V8","V9","V10","V11","V12","V13","V14","V15","V16","V17","V18","V19","V20","V21","V22","V23","V24","V25","V26","V27","V28","Amount","Class" 0,-1.3598071336738,-0.0727811733098497,2.53634673796914,1.37815522427443,-0.338320769942518,0.462387777762292,0.239598554061257,0.0986979012610507,0.363786969611213,0.0907941719789316,-0.551599533260813,-0.617800855762348,-0.991389847235408,-0.311169353699879,1.46817697209427,-0.470400525259478,0.207971241929242,0.0257905801985591,0.403992960255733,0.251412098239705,-0.018306777944153,0.277837575558899,-0.110473910188767,0.0669280749146731,0.128539358273528,-0.189114843888824,0.133558376740387,-0.0210530534538215,149.62,"0" 0,1.19185711131486,0.26615071205963,0.16648011335321,0.448154078460911,0.0600176492822243,-0.0823608088155687,-0.0788029833323113,0.0851016549148104,-0.255425128109186,-0.166974414004614,1.61272666105479,1.06523531137287,0.48909501589608,-0.143772296441519,0.635558093258208,0.463917041022171,-0.114804663102346,-0.183361270123994,-0.145783041325259,-0.0690831352230203,-0.225775248033138,-0.638671952771851,0.101288021253234,-0.339846475529127,0.167170404418143,0.125894532368176,-0.00898309914322813,0.0147241691924927,2.69,"0" 1,-1.35835406159823,-1.34016307473609,1.77320934263119,0.379779593034328,-0.503198133318193,1.80049938079263,0.791460956450422,0.247675786588991,-1.51465432260583,0.207642865216696,0.624501459424895,0.066083685268831,0.717292731410831,-0.165945922763554,2.34586494901581,-2.89008319444231,1.10996937869599,-0.121359313195888,-2.26185709530414,0.524979725224404,0.247998153469754,0.771679401917229,0.909412262347719,-0.689280956490685,-0.327641833735251,-0.139096571514147,-0.0553527940384261,-0.0597518405929204,378.66,"0" 1,-0.966271711572087,-0.185226008082898,1.79299333957872,-0.863291275036453,-0.0103088796030823,1.24720316752486,0.23760893977178,0.377435874652262,-1.38702406270197,-0.0549519224713749,-0.226487263835401,0.178228225877303,0.507756869957169,-0.28792374549456,-0.631418117709045,-1.0596472454325,-0.684092786345479,1.96577500349538,-1.2326219700892,-0.208037781160366,-0.108300452035545,0.00527359678253453,-0.190320518742841,-1.17557533186321,0.647376034602038,-0.221928844458407,0.0627228487293033,0.0614576285006353,123.5,"0" ... |
下面的示例加载并总结了该数据集的类别分布。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 |
# 总结信用卡欺诈数据集 from numpy import unique from pandas import read_csv # 加载数据集 dataframe = read_csv('creditcard.csv') # 获取值 values = dataframe.values X, y = values[:, :-1], values[:, -1] # 收集详细信息 n_rows = X.shape[0] n_cols = X.shape[1] classes = unique(y) n_classes = len(classes) # 总结 print('示例数:%d' % n_rows) print('输入数:%d' % n_cols) print('类别数:%d' % n_classes) print('类别:%s' % classes) print('类别分布:') # 类别分布 breakdown = '' for c in classes: total = len(y[y == c]) ratio = (total / float(len(y))) * 100 print(' - 类别 %s: %d (%.5f%%)' % (str(c), total, ratio)) |
运行该示例将提供以下输出。
1 2 3 4 5 6 7 |
示例数:284807 输入数:30 类别数:2 类别:[0. 1.] 类别分布 - 类别 0.0:284315 (99.82725%) - 类别 1.0:492 (0.17275%) |
Porto Seguro 汽车保险索赔 (Porto Seguro)
每条记录描述人们的汽车保险详情,预测是该人是否会提出保险索赔。
此数据压缩后约为 42MB。
下载数据集并将其解压缩到您当前的目录中。
下面提供了该数据集前五行的样本。
1 2 3 4 5 6 |
id,target,ps_ind_01,ps_ind_02_cat,ps_ind_03,ps_ind_04_cat,ps_ind_05_cat,ps_ind_06_bin,ps_ind_07_bin,ps_ind_08_bin,ps_ind_09_bin,ps_ind_10_bin,ps_ind_11_bin,ps_ind_12_bin,ps_ind_13_bin,ps_ind_14,ps_ind_15,ps_ind_16_bin,ps_ind_17_bin,ps_ind_18_bin,ps_reg_01,ps_reg_02,ps_reg_03,ps_car_01_cat,ps_car_02_cat,ps_car_03_cat,ps_car_04_cat,ps_car_05_cat,ps_car_06_cat,ps_car_07_cat,ps_car_08_cat,ps_car_09_cat,ps_car_10_cat,ps_car_11_cat,ps_car_11,ps_car_12,ps_car_13,ps_car_14,ps_car_15,ps_calc_01,ps_calc_02,ps_calc_03,ps_calc_04,ps_calc_05,ps_calc_06,ps_calc_07,ps_calc_08,ps_calc_09,ps_calc_10,ps_calc_11,ps_calc_12,ps_calc_13,ps_calc_14,ps_calc_15_bin,ps_calc_16_bin,ps_calc_17_bin,ps_calc_18_bin,ps_calc_19_bin,ps_calc_20_bin 7,0,2,2,5,1,0,0,1,0,0,0,0,0,0,0,11,0,1,0,0.7,0.2,0.7180703307999999,10,1,-1,0,1,4,1,0,0,1,12,2,0.4,0.8836789178,0.3708099244,3.6055512755000003,0.6,0.5,0.2,3,1,10,1,10,1,5,9,1,5,8,0,1,1,0,0,1 9,0,1,1,7,0,0,0,0,1,0,0,0,0,0,0,3,0,0,1,0.8,0.4,0.7660776723,11,1,-1,0,-1,11,1,1,2,1,19,3,0.316227766,0.6188165191,0.3887158345,2.4494897428,0.3,0.1,0.3,2,1,9,5,8,1,7,3,1,1,9,0,1,1,0,1,0 13,0,5,4,9,1,0,0,0,1,0,0,0,0,0,0,12,1,0,0,0.0,0.0,-1.0,7,1,-1,0,-1,14,1,1,2,1,60,1,0.316227766,0.6415857163,0.34727510710000004,3.3166247904,0.5,0.7,0.1,2,2,9,1,8,2,7,4,2,7,7,0,1,1,0,1,0 16,0,0,1,2,0,0,1,0,0,0,0,0,0,0,0,8,1,0,0,0.9,0.2,0.5809475019,7,1,0,0,1,11,1,1,3,1,104,1,0.3741657387,0.5429487899000001,0.2949576241,2.0,0.6,0.9,0.1,2,4,7,1,8,4,2,2,2,4,9,0,0,0,0,0,0 ... |
下面的示例加载并总结了该数据集的类别分布。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 |
# 总结 Porto Seguro 安全驾驶员预测数据集 from numpy import unique from pandas import read_csv # 加载数据集 dataframe = read_csv('train.csv') # 获取值 values = dataframe.values X, y = values[:, :-1], values[:, -1] # 收集详细信息 n_rows = X.shape[0] n_cols = X.shape[1] classes = unique(y) n_classes = len(classes) # 总结 print('示例数:%d' % n_rows) print('输入数:%d' % n_cols) print('类别数:%d' % n_classes) print('类别:%s' % classes) print('类别分布:') # 类别分布 breakdown = '' for c in classes: total = len(y[y == c]) ratio = (total / float(len(y))) * 100 print(' - 类别 %s: %d (%.5f%%)' % (str(c), total, ratio)) |
运行该示例将提供以下输出。
1 2 3 4 5 6 7 |
示例数:595212 输入数:58 类别数:2 类别:[0. 1.] 类别分布 - 类别 0.0:503955 (84.66815%) - 类别 1.0:91257 (15.33185%) |
进一步阅读
如果您想深入了解,本节提供了更多关于该主题的资源。
论文
- 几种平衡机器学习训练数据方法的行为研究 (A Study of the Behavior of Several Methods for Balancing Machine Learning Training Data), 2004.
- 关于集成方法在类别不平衡问题上的应用综述:基于 Bagging、Boosting 和混合的方法, 2011.
文章
总结
在本教程中,您发现了用于不平衡分类的一系列标准机器学习数据集。
具体来说,你学到了:
- 具有两个类别不平衡的标准机器学习数据集。
- 类别分布倾斜的多类别分类标准数据集。
- 用于机器学习竞赛的流行不平衡分类数据集。
你有什么问题吗?
在下面的评论中提出你的问题,我会尽力回答。
非常有用的信息,先生。我是一名研究员,我的研究领域是结肠癌检测,我需要结肠癌数据集,先生。
谢谢。
这个可能会有帮助
https://machinelearning.org.cn/faq/single-faq/where-can-i-get-a-dataset-on-___
我们是否应该总是对不平衡类别进行重采样?
不,尝试一系列方法,并使用满足项目目标并给出最佳结果的方法。
很棒的文章,Jason。我喜欢你的博客,继续这样写下去。
谢谢!
您在哪里教授如何处理不平衡数据集(例如 SMOTE 技术)?
我将在未来几周分享有关此主题的教程。
非常有益的帖子。
谢谢
不客气。
你好,Jason先生,您的帖子信息量很大,很有帮助。谢谢您发布它。我有一个关于洗钱的数据集。我需要构建一个分类模型。由于我是一名学生,刚开始接触机器学习,一直没做出来。有什么可以指导我的吗?
也许可以遵循这个流程
https://machinelearning.org.cn/start-here/#process
尊敬的Jason博士,
关于 zip 文件“creditcardfraud.zip”,位于 https://raw.githubusercontent.com/jbrownlee/Datasets/master/creditcardfraud.zip,该文件不存在。
您能否推荐其他下载地点?
谢谢你
悉尼的Anthony
谢谢,我已更新链接至:
https://github.com/jbrownlee/Datasets/blob/master/creditcard.csv.zip