什么是监督式机器学习?它与无监督式机器学习有何关联?
在这篇文章中,您将了解**监督式学习**、**无监督式学习**和**半监督式学习**。阅读本文后,您将了解:
- 关于分类和回归的监督式学习问题。
- 关于聚类和关联的无监督式学习问题。
- 用于监督式和无监督式问题的示例算法。
- 介于监督式和无监督式学习之间的问题,称为半监督式学习。
通过我的新书《掌握机器学习算法》**启动您的项目**,其中包括**分步教程**和所有示例的**Excel电子表格**文件。
让我们开始吧。

监督学习和无监督机器学习算法
照片由美国教育部提供,保留部分权利。
监督式机器学习
大多数实际的机器学习都使用监督式学习。
监督式学习是指您拥有输入变量 (x) 和输出变量 (Y),并使用算法学习从输入到输出的映射函数。
Y = f(X)
目标是很好地近似映射函数,以便当您有新的输入数据 (x) 时,您可以预测该数据的输出变量 (Y)。
它被称为监督式学习,因为算法从训练数据集中学习的过程可以被视为老师监督学习过程。我们知道正确答案,算法迭代地对训练数据进行预测,并由老师进行纠正。当算法达到可接受的性能水平时,学习停止。
获取您的免费算法思维导图

方便的机器学习算法思维导图样本。
我创建了一份方便的思维导图,其中包含60多种按类型组织的算法。
下载、打印并使用它。
还可以独家访问机器学习算法电子邮件迷你课程。
监督式学习问题可以进一步分为回归问题和分类问题。
- **分类**:分类问题是指输出变量是一个类别,例如“红色”或“蓝色”,或者“患病”和“未患病”。有时这些类别用数字表示,但其值没有实际意义。它们只是标签。
- **回归**:回归问题是指输出变量是一个实数,例如“美元”或“体重”。
一些基于分类和回归构建的常见问题类型分别包括推荐和时间序列预测。
监督式机器学习算法的一些流行示例是:
- 用于回归问题的线性回归。
- 用于分类和回归问题的随机森林。
- 用于分类问题的支持向量机。
无监督式机器学习
无监督式学习是指您只有输入数据 (X) 而没有相应的输出变量。
无监督式学习的目标是建模数据中的潜在结构或分布,以便更多地了解数据。
这些被称为无监督式学习,因为与上述监督式学习不同,没有正确答案,也没有老师。算法依靠自身发现并呈现数据中有趣的结构。
无监督式学习问题可以进一步分为聚类问题和关联问题。
- **聚类**:聚类问题是指您希望发现数据中固有的分组,例如按购买行为对客户进行分组。
- **关联**:关联规则学习问题是指您希望发现描述大部分数据的规则,例如购买X的人也倾向于购买Y。
无监督式学习算法的一些流行示例是:
- 用于聚类问题的k-means算法。
- 用于关联规则学习问题的Apriori算法。
- 用于文本段落主题建模的LDA,即发现关键词并将其与文本关联起来。
半监督式机器学习
如果您有大量的输入数据 (X),但只有部分数据被标记 (Y),则这些问题称为半监督式学习问题。
这些问题介于监督式和无监督式学习之间。
一个很好的例子是照片存档,其中只有部分图像被标记(例如狗、猫、人),而大部分未被标记。
许多现实世界的机器学习问题都属于这一领域。这是因为标记数据可能需要领域专家的参与,因此成本高昂或耗时。而未标记数据则便宜且易于收集和存储。
您可以使用无监督式学习技术来发现和学习输入变量中的结构。
您还可以使用监督式学习技术对未标记数据进行最佳猜测预测,将这些数据作为训练数据反馈给监督式学习算法,并使用该模型对新的未见过的数据进行预测。
机器学习中语言模型的最新发展是半监督式机器学习的一个很好的例子:对于给定的句子,学习算法根据句子中1到N的词来预测词N+1。标签 (Y) 可以从输入 (X) 中导出。
总结
在这篇文章中,您学习了监督式、无监督式和半监督式学习之间的区别。您现在知道:
- **监督式**:所有数据都已标记,算法学习从输入数据预测输出。
- **无监督式**:所有数据都未标记,算法学习从输入数据中固有的结构。
- **半监督式**:部分数据已标记,但大部分未标记,可以使用监督式和无监督式技术的组合。
您对监督式、无监督式或半监督式学习有任何疑问吗?请在评论中提出您的问题,我将尽力回答。
感谢这篇帖子。很有帮助。我的问题是如何确定在监督式学习中针对特定问题使用正确的算法?另外,用无监督式学习训练的网络能否用新的数据集(测试数据)进行测试,还是仅仅用于分组目的?
你好 Omot,一个好主意是在你的问题上尝试一套标准算法,并发现哪种算法表现最好。
通常,无监督方法应用于所有可用数据,以了解有关该数据和更广泛问题的一些信息。你可以说聚类“训练”数据集,如果想避免重新聚类数据,以后可以查看新数据最接近哪些聚类。
先生,k-means聚类能否在MATLAB中实现,以预测无监督学习的数据?
k-means是一种聚类算法。它不用于进行预测,而是用于对数据进行分组。在此处了解更多信息:
https://en.wikipedia.org/wiki/K-means_clustering
你好
聚类能否用于从多个数值自变量创建因分类变量?
我面临一个问题,我的数据集有多个独立的数值列,但我不确定因变量是否正确。
当然。试试看是否有帮助。
你好,Sabarish v!
在这里你可以更好地理解k-算法,解释得非常好
https://blog.carbonteq.com/practical-image-recognition-with-tensorflow/
感谢分享。
以下哪项是监督式学习问题?
A) 在社交网络中对人进行分组。
B) 根据历史数据预测信用审批。
C) 根据历史数据预测降雨量。
D) 以上所有选项
我宁愿不帮你做作业。
这个框架可以帮助你弄清楚任何问题是否是监督式学习问题。
https://machinelearning.org.cn/how-to-define-your-machine-learning-problem/
B
B和C
B和C
我需要帮助解决一个问题。我已利用所有可用资源,学校也找不到该学科的导师。我的问题是:如果您想训练一个能够区分高血压患者和患有高血压和糖尿病的患者的算法,最好的方法是什么?请帮助我理解!
你好 Angel,这听起来像是一个特定于问题的问题。
一般来说,我们无法知道哪种数据表示方式最好,或者哪种算法最好,它们必须通过经验来发现。
https://machinelearning.org.cn/a-data-driven-approach-to-machine-learning/
我教授一种系统地解决预测建模问题的流程,你可能会觉得有用。
https://machinelearning.org.cn/start-here/#process
这篇非常有启发性的文章阐述了监督式学习和无监督式学习之间的区别!
谢谢!
谢谢。
您可以使用交叉验证来优化您的算法或在算法之间进行比较,在监督式学习中,交叉验证试图找到用于训练和测试算法的最佳数据。
这个内容真的很有帮助。你能给出所有这些技术的最佳描述示例吗?或者简要介绍一下强化学习并附带示例?
请查看这篇文章,其中包含了很好的算法列表:
https://machinelearning.org.cn/a-tour-of-machine-learning-algorithms/
嗨,Jason,
感谢您对机器学习算法类型的总结。
如何使用聚类或无监督学习对新数据进行预测。我已使用层次聚类将输入数据聚类,现在我想检查新数据与已识别聚类的归属关系。这如何实现?R语言中有可用的算法吗?
你好 Naveen,通常我很少使用无监督方法,因为在实践中我从中获得的价值不大。
您可以使用聚类编号、聚类质心或其他详细信息作为建模的输入。
您能给我一个监督式、无监督式和半监督式学习的真实世界例子吗?
你好 Tashrif,
监督式学习是指您拥有大量已标记的狗和猫图片,并且您希望自动标记新的狗和猫图片。
无监督式学习是指您希望通过颜色或场景等方式查看图片之间的结构关系。
半监督式学习是指您拥有大量图片,其中只有部分被标记,您希望利用未标记和已标记的图片,在未来帮助您标记新图片。
这篇读物写得真好,谢谢您的撰写和发布。
问您一个问题。我构建了一个随机森林模型,所以我在使用监督式学习,现在有人要求我用一个未标记的数据集来运行它。但我无法获得这个模型的实际结果,所以在我获得实际结果之前,我无法确定它的准确性。
所以我的问题是……如果我没有标签,如何运行一组数据通过机器学习模型?
为了进一步澄清和背景,我正在运行一个随机森林模型来预测二元分类标签。我很快就能得到前几个数据点,但标签需要30天才能明确。
也许这些都不合理,但我非常感谢您可能提供的任何指导。
非常感谢,
弗兰克
谢谢弗兰克。好问题。
您将需要收集历史数据来开发和评估您的模型。
一旦创建,听起来您将需要等待30天,然后才能评估模型预测的持续性能。
嗨,Jason,
我已完成一个程序,用于分类客户(客户端)是否会认购定期存款。
使用的数据集:来自UCI机器学习存储库的银行数据集
使用的算法:1.使用CART生成决策树的随机森林算法,2.使用HAC4.5生成决策树的随机森林算法。
我的问题是,我如何确定1和2的准确性并找到最好的一个?
我真的是这个领域的新手...请原谅我的愚蠢。
先谢谢了
你好 安,干得好!
您可以使用一致的测试方法比较每种算法。例如,使用相同的随机数种子进行k折交叉验证(这样每种算法都能获得相同的折叠)。
这是有关比较算法的更多信息:
https://machinelearning.org.cn/how-to-evaluate-machine-learning-algorithms/
希望这些能作为一个开始有所帮助。
你好 Jason,你正在做一项伟大的工作,我祝你一切顺利,你应得的。
我的问题是:我想使用机器学习来解决网络基础设施数据信息的问题。你知道缺失、错别字、不一致等问题。知识和专业技能的基础是必不可少的,但还需要一些机器学习的方向和更多研究。你能提供或阐明一下吗?以及如何做到?如果你愿意,我们可以直接通过nkmahrooq@hotmail.com联系。
谢谢,如果这种方式显得有些笨拙,请原谅,作为初创公司和最近加入您的联系人,可能有些急躁!
你好 Nihad,这是一个有趣的应用。
机器学习可能不是修复错别字等问题的最佳方法。然而,第一步是收集数据集,并尝试深入理解算法需要学习的示例类型。
这篇帖子可能会帮助你更深入地研究你的问题。
https://machinelearning.org.cn/how-to-define-your-machine-learning-problem/
希望这能作为一个开始,祝你好运。
感谢您的教程,我一直在将您的机器学习大师应用于为律师、律师助理和法律学生构建的Casebook网络应用程序。
Nihad,非常欢迎!感谢您告诉我您的应用程序以及您如何利用我们的资料!
此致,
精彩的工作!对我的期末考试很有帮助。谢谢!
谢谢 Nischay。
你好 Jason,你正在做一项伟大的工作,我祝你一切顺利,你应得的。
我想找到一个在线算法来聚类科学工作流数据,以最小化运行时间和系统开销,从而将这些工作流任务映射到云等分布式资源。聚类数据应以平衡的方式映射到这些可用资源,以保证没有资源过度利用而其他资源闲置。
我遇到过水平聚类和垂直聚类,但这些技术是静态的,用户应该提前确定聚类数量和每个聚类中的任务数量...
你好 Sam,
谢谢你的支持。
就目前而言,这听起来更像是一个动态规划或约束满足问题,而不是机器学习。
你好 Jason,这篇文章对我的认知神经网络复习非常有帮助!
我有一个历史性问题,关于监督式学习算法是如何演进的。
一些早期的监督式学习方法允许在学习过程中调整阈值。为什么新的监督式学习算法不需要这样做?
这是因为它们(例如Delta规则)在运行时调整权重以最小化误差,从而取代了阈值调整的需要吗?或者在新的算法中有什么更微妙的东西消除了阈值调整的需要?感谢您提前提供的任何见解。
我想我没有足够的上下文,马库斯。听起来你可能特指随机梯度下降。
我并不是算法史学家,我会把你推荐给该领域的开创性论文。
你好 Jason - 非常感谢您提供的信息丰富的帖子。我想我错过了一些基本的东西。一旦模型用带标签的数据(监督式)进行训练,额外的未带标签数据如何帮助改进模型?例如,新上传到Google相册的图片(可能未带标签)如何进一步改进模型(假设它确实如此)?或者新的语音数据(同样未带标签)如何帮助基于机器学习的语音识别系统变得更好?我从概念上理解带标签数据如何驱动模型,但我不清楚如果您不知道数据代表什么,它如何提供帮助。
谢谢!戴夫
好问题,戴夫。
一般来说,我们可以使用未标记数据来帮助初始化大型模型,例如深度神经网络。
更具体地说,我们可以标记未标记数据,在需要时让它证实预测,并将其用作输入来更新或重新训练模型,以使其在未来的预测中表现更好。
这有帮助吗?
是的,谢谢。那么数据最终需要被标记才能有效地改进模型吗?以Google相册的使用场景为例,每天上传的数百万张照片是否都无法帮助模型,除非有人手动标记它们,然后将它们用于训练?我想我曾希望有某种方法可以从未标记数据(无监督)中识别出智能,以改进原始模型,但这似乎并非如此,对吗?再次感谢您的帮助 – 戴夫
很有可能,我只是没有深入研究。
对于使用机器学习的企业来说,认为有员工手动标记未标记数据以克服戴夫提出的问题是否正确?在这种情况下,未标记数据的数量会比Google相册中的所有照片少得多。
这是一个很好的方法,例如,使用本地或远程劳动力来准备/标记第一批数据集。
你能写一篇关于强化学习的博客文章,解释它在机器人学中是如何运作的吗?
我希望未来能详细介绍这个话题,Rohit。
嗨,Jason,
我正在尝试解决健康与安全行业事件的机器学习问题。
我想根据给定地点发生的事件推荐纠正或预防措施。
我正在尝试了解哪种算法最适合此问题。
您能分享您的想法吗?
此致,
Hansa
这个框架可能会帮助你构建你的问题。
https://machinelearning.org.cn/how-to-define-your-machine-learning-problem/
这个过程将帮助你解决它。
https://machinelearning.org.cn/start-here/#process
我需要帮助解决一个问题。我正在撰写关于土耳其语形态学无监督学习的论文。这是我关于这个领域的第一次论文。我的问题是:我必须编写形态学的数学模型,我正在尝试了解哪种算法最适合此问题。您能否给我一些重要的信息。请帮助我理解!
你必须通过实证来回答这个问题。
请看这篇文章
https://machinelearning.org.cn/a-data-driven-approach-to-machine-learning/
嗨,Jason,
请帮助我解决我的问题:我想对区域进行监督式聚类(将区域分类为响应变量:事故频率(数值响应)和解释变量,如:人口密度、交通密度)我想使用随机森林来实现,这可能吗?
抱歉,我没有聚类示例。
嗨,Json,
感谢这篇文章,它对初学者非常有帮助,我对分类有一点疑问。
我看到有些文章将监督式学习和无监督式学习以及强化学习分开。
半监督式和强化学习的意思一样吗?
不,强化学习又是另一回事。
在此处查看更多信息:
https://en.wikipedia.org/wiki/Reinforcement_learning
好极了!非常感谢。Jason,你做得太棒了!它太简化了。但我希望能在监督式机器学习中对线性回归算法有一个同样简化的见解。再次感谢
很高兴听到这个消息。
这是线性回归和其他算法的简化描述:
https://machinelearning.org.cn/start-here/#algorithms
好极了!我是机器学习新手。那么基于时间序列的预测模型属于哪一类?监督式、无监督式还是半监督式?为什么?
时间序列预测属于监督式学习。
任何人想在这个主题“预测葡萄牙高中生数学成绩”中进行数据挖掘,面临的10个困难或问题是什么?
听起来像一道家庭作业问题,弗雷德,我建议你自己好好思考一下。
你好 Jasan
内容简单易懂。
我是一位机器学习爱好者,正在寻找将重要和最常用的算法分组为监督式和无监督式的材料。
例如
监督式 - 回归、分类、决策树等。
无监督式 - 聚类等。
你有吗?
这个可能会有帮助
https://machinelearning.org.cn/a-tour-of-machine-learning-algorithms/
你可以看看这个关于无监督学习的视频。它展示了一些通常使用无监督学习的例子。https://www.youtube.com/watch?v=YulpnydYxg8
给定1000名医疗患者对实验药物的反应数据(例如治疗效果、副作用),发现患者在对药物的反应方面是否存在不同的类别或类型,如果存在,这些类别是什么。
这是监督式学习还是无监督式学习?
在我看来是无监督的。
我有超过100万个样本输入查询。我想将其分类为真实查询或恶意查询。每个查询都包含关键词,但有一些特定的关键词可能有助于识别是否为恶意查询。然而,并非所有可能的恶意关键词都会使整个查询被视为恶意。我不确定如何在这里呈现我的问题,但我先问这个:是否可能在解决此类问题时有两层分类(监督式)和一层聚类(无监督式)?
您首先需要一个高质量的训练数据集。
然后,这个过程可能会有所帮助。
https://machinelearning.org.cn/start-here/#process
我们能使用k均值和随机森林算法通过weka检测钓鱼网站来完成论文吗?请尽快回复。
我建议测试一套不同的算法,并发现哪种算法最适合您的特定数据集。
谢谢 Jason,它真的对我的期末考试很有帮助。
很高兴听到这个消息。
你好 Jason,感谢你的帖子。我有一个问题。无监督算法是否会寻找最终假设,如果是,这个假设是用来做什么的?无监督学习是否涉及目标函数?无监督算法实际做了什么?
我将监督学习理解为一种方法,其中训练数据被输入算法以学习估计目标函数的假设。然而,对于无监督学习,例如聚类,聚类算法实际做了什么?当涉及到无监督机器学习时,“概念学习”意味着什么?我注意到大多数书籍都将概念学习定义为与监督学习相关。谢谢
我通常不喜欢无监督方法——我不觉得它们的结果客观——我认为它们不可证伪,因此我无法判断它们是否有用。
它们通过将方法/过程应用于数据来获得结果,然后由实践者解释结果——希望是客观的。
你会注意到我没有在我的博客上介绍无监督学习算法——这就是原因。
嗨,Jason,
我最近几周一直在关注您的教程。感谢您为初学者提供了如此出色的教程。
我有一个问题,我想使用机器学习算法。我尝试了猫和狗的小数据集,并且可以使用二元交叉熵预测正确输出。
现在,为了应用到我自己的数据集问题,我想将图像分类为猫、狗或任何其他(如果我提供狮子图像)。但我只得到猫和狗类别的0和1。
如果图像不是猫或狗,Model.predict应该给我不同的输出。
另外,我如何获得百分比预测,例如“是,这张图像与猫/狗非常相似,测试结果准确率达到80%或更高”。如果我提供山/狮子的图像,它应该给我输出为10%或低于50%,这样我就可以说它不是猫或狗,而是其他东西?
您需要将您的模型从二元分类模型更改为多类分类模型。
请参阅此模型作为示例:
https://machinelearning.org.cn/multi-class-classification-tutorial-keras-deep-learning-library/
我想知道评分模型如何适应这种结构?我正在尝试将我的问题定义为机器学习问题,但是我没有任何标记数据,因为我才刚开始处理数据。在这种情况下,输出变量是根据数据集中选定的特征计算出的分数。您如何对这个问题进行分类,您会建议探索哪些技术?
这篇文章将帮助您定义您的预测建模问题:
https://machinelearning.org.cn/how-to-define-your-machine-learning-problem/
你好 Jason...感谢您的帖子...我是机器学习的新手...我应该如何开始机器学习...我应该先学习所有概念还是同时编写我所学习的算法?谢谢
我最好的入门建议在这里:
https://machinelearning.org.cn/start-here/#getstarted
它不适合所有人,但似乎对那些通过实践学习的开发者非常有效。
我有一些关于芒果病害的图片。我想进行分割、特征提取、分类...这个问题最好的常见算法是什么?
也许你可以使用特征选择方法来找出。
https://machinelearning.org.cn/an-introduction-to-feature-selection/
你好,Jason——很好的高层次信息。说实话,我发现语法和拼写错误很分散注意力。他们有专门的软件可以解决这个问题。😉
谢谢您的反馈,Scott。
半监督式学习算法有哪些例子
谢谢!这是一个很棒的解释。
谢谢,很高兴对您有帮助。
嗨,Jason,
干得好。您能帮我找到一个解决以下问题的算法吗?
我们有许多记录组是手动分组的。我们需要通过分析这些历史数据来实现这些分组的自动化。
这篇文章将帮助您将数据构建为预测建模问题。
https://machinelearning.org.cn/how-to-define-your-machine-learning-problem/
您能分享一些用于查找匹配模式的算法吗?
感谢您的建议。
你太棒了,非常感谢
不客气。
什么是监督式学习和无监督式学习?在特定的机器学习领域中,哪种学习技术更好?哪种技术有局限性,为什么?
这篇文章是否解释了其中的区别?
非常有帮助,能理解什么是监督式学习和无监督式学习。当你用真实的应用程序清晰地解释时,那就更好了。
谢谢。
您好,Jason爵士,我是机器学习新手,想从头开始学习。请指导我如何学习。
您可以从这里开始
https://machinelearning.org.cn/start-here/
你好,
我们使用哪种数据进行强化学习?
指导我。
我希望今年能详细介绍强化学习。
无言以对的学习,机器学习的解释如此简单,即使是历史教授也能使用。感谢您的时间和考虑。RITESH PATEL 博士 古吉拉特邦技术大学艾哈迈达巴德工商管理硕士系主任 9909944890 CUG 个人 9687100199 AP_CGS@GTU.EDU.IN
谢谢。
写得不错,但我需要更多关于无监督学习的解释
你对无监督学习到底有什么问题?
无监督式机器学习的例子
感谢您的建议。
嗨,Jason,
我的问题与自然语言处理(NLP)和情感分析有关。
我有一个数据集,包含几列。其中一列是自由文本,另一列是情感分数,从1(负面)到10(正面)。
我正在尝试对文本字段应用情感分析,并查看其与情感分数字段的比较效果。为此,我运行了一些现成的情感分析工具,例如Polyglot,但它们效果不佳。这就是为什么我决定将其作为一个分类问题来处理(负面、中性或正面)。
为了做到这一点,我获得了1、2和3元语法,并将其用作训练模型的特征。我尝试了支持向量机(SVM),也尝试了使用z-score为每个类别获取最具代表性的元语法,但结果比Polyglot差。
有什么建议吗?
谢谢!
这些教程将帮助你入门:
https://machinelearning.org.cn/develop-word-embedding-model-predicting-movie-review-sentiment/
有哪些广泛使用的Python库用于监督式学习?
scikit-learn。
预测保险索赔项目最适合使用什么算法?
尝试这个过程。
https://machinelearning.org.cn/start-here/#process
嗨,Jason,
你太棒了。如果我的问题没有意义,请原谅。简单来说,大数据、机器学习、R、Python、Spark、Scala和数据科学之间有什么关系?
谢谢,
斯里。
你可能可以查阅这些术语的定义。你为什么要问这个?
你好 Jason,
这很好,继续保持。
请问,您对一家希望使用机器学习来存档大数据、开发人工智能以准确检测相似解释并将其转换为软件程序的公司有何建议?
其次,除了这两个领域,您认为人工智能对工业家还有哪些帮助?请告诉我您的看法。
Chibuzor
我不确定这些方法如何帮助存档。
也许这篇文章会帮助你将你的问题定义为监督式学习问题。
https://machinelearning.org.cn/how-to-define-your-machine-learning-problem/
你好,
有趣的阅读。
您是否对给定输入(图像)选择特定点p会得到奖励r的情况有建议?目标是最大化r。可能存在多个点返回相同的最大r值,所以我看不出标准的CNN训练方法会起作用。每次试验都是独立的,因此强化学习似乎不正确。
这听起来像是一个多模态优化问题。如果您只需要一个结果,可以使用一系列随机优化算法之一。
如果您需要所有点,则可以使用多模态优化,例如生态位遗传算法(我硕士论文就是研究这个的)。
非常有用的资料,我正在准备考试,我已经完全理解了整个概念,解释得非常流畅。JAZAKALLAH(意思是愿上帝赐予你他的祝福)
很高兴它有帮助。
你能给我解释一下无监督方法在分割中使用的类别吗:按块、按像素、按区域。
抱歉,我不太明白。或许您可以提供更多上下文?
先生,您能举例说明有监督学习、无监督学习和半监督学习的实时应用吗?
线性回归是有监督学习,聚类是无监督学习,自编码器可以用于半监督学习。
先生,感谢您提供如此棒的信息。
但是我们如何将无监督学习用于任何类型的聚类呢?
抱歉,我没有关于聚类的材料。将来我可能会涉及这方面的内容。
感谢发布此内容。这是一个很棒的总结!解释非常直截了当。
很高兴它有帮助。
首先,这是一份非常棒且有用的报告,然后是我的问题。
我有一个包含人的无监督数据集,我想找出他们行为的一些模式以用于未来的营销。我正在使用聚类算法,但是如果我想训练一个模型用于未来的预测(对于数据集中的新条目,或者对于数据集中已注册人员的新交易),我应该将这些聚类作为类别来训练模型进行有监督分类吗?或者我该如何操作?我很困惑。
提前感谢!
也许可以从明确您需要的结果开始,然后反向操作。
https://machinelearning.org.cn/how-to-define-your-machine-learning-problem/
谢谢您的回复,但这对我帮助不大。
有些人,在使用无监督模型(例如 K-means)进行聚类后,会使用 K-means 预测来预测新条目所属的聚类。但另一些人,在找到聚类后,会训练一个新的分类器(例如,现在问题是有监督的,以聚类作为类别),然后使用这个分类器来预测新条目的类别或聚类。我无法理解这两种方法之间的区别。我不知道您是否明白我的意思,但如果您能尝试向我解释,我将不胜感激。
抱歉,我没有关于聚类的材料,无法给您提供好的建议。
感谢您提供更好的解释。
很高兴它有帮助。
假设有一些学生信息,例如(姓名、地址、GPA-1、GPA-2 和年级),我的任务是“根据他们的年级对学生进行划分”……所以我的问题是,这项任务是有监督学习还是无监督学习?哪种机器学习算法最适合完成这项任务……
我认为会是无监督学习,但我对哪种算法最适合这项任务(是聚类吗?)感到困惑……先生,我说的对吗?
这篇帖子可能会帮助您确定它是否是有监督学习问题。
https://machinelearning.org.cn/how-to-define-your-machine-learning-problem/
嗨,Jason,
我有一些文档,里面有手写和机器打印的文字。我想在文档中定位文字,并找出文字是手写的还是机器打印的。如果文字是手写的,我必须将其交给手写识别算法;如果文字是机器打印的,我必须将其交给 Tesseract OCR 算法。
您能否建议我如何进行文字定位并找出文字是手写的还是机器打印的。
提前感谢,
Harathi
我建议研究计算机视觉方法。抱歉,我不涉及这个领域。
你好,我是机器学习新手,在训练数据方面遇到了困难,请帮帮我,例如创建用于异常检测的 Keras 神经网络,请您能修复错误吗?我已经尝试了几次,但不知道问题出在哪里。
卡在任务3
查看 gist 网址
features = train_both[:,:-1]
labels = train_both[:,:-1]
gist 网址:https://gist.github.com/dcbeafda57395f1914d2aa5b62b08154
我很乐意帮忙,但我没有能力为您调试代码。
也许在 stackoverflow 上发帖?
你好 Jason,帖子写得很好。
我想知道 Hebb 规则、感知器、Delta 规则、反向传播等不同的神经网络有监督学习方法有什么区别和优缺点,以及每种方法最适合解决什么问题。
我们没有机器学习中问题与算法的映射。我们能做的最好的就是根据特定数据集对算法进行经验评估,以发现哪些效果好/最好。
我需要机器学习的简要描述及其应用方式。它在哪里、何时需要?
这个可能会有帮助
https://machinelearning.org.cn/what-is-machine-learning/
非常棒的帖子.. 提供了实际完整的定义.. 谢谢🙂
很高兴它有帮助。
先生您好
提前感谢您的文章,它非常精彩且有帮助
我是机器学习新手,我想了解深度学习的含义是什么?其次,远程监督是否类似于半监督?
提前感谢
这篇帖子解释了更多关于深度学习的内容
https://machinelearning.org.cn/what-is-deep-learning/
你好,Jason Brownlee,
我正在从事一个健康研究项目,该项目将从输入的 wav 文件中检测是否打鼾。您能否建议我应该选择有监督学习、无监督学习还是半监督学习?我是一名 iOS 开发者,也是机器学习新手。我应该从哪里开始?
您的建议将对我的项目有很大帮助。
提前感谢!
有监督学习。
从定义问题开始
https://machinelearning.org.cn/how-to-define-your-machine-learning-problem/
您能用例子再多解释一下半监督机器学习吗?
感谢您的建议。这里可能是一个不错的起点
https://en.wikipedia.org/wiki/Semi-supervised_learning
尊敬的布朗利教授
根据我的理解,基于无监督学习(不需要标签)的方法无法与基于有监督学习(需要标签)的方法进行比较,因为它们的比较前提不同。如果想要比较它们,应该将它们置于相同的问题场景下,只有这样,比较才是合理和公平的,不是吗?但假设问题场景是没有标签的应用,那么它们就无法相互比较,因为有监督学习方法需要标签来训练模型,但现在没有标签可供训练,因此我认为比较基于无监督学习的方法和基于有监督学习的方法是不合理和不可行的,对吗?我想听听您的看法,谢谢!
是的,它们不可比较。它们解决的是不同的问题。
嗨,Jason,
您的文章信息量很大,解除了我很多疑惑。我对机器学习有很多疑问。您能否通过 Skype 通话指导我,我愿意付费。
为什么关联规则属于无监督学习?
没有训练/教学部分,规则是从数据中提取的。
你好 Jason,
很好的解释,
我有一个问题,我正在用 JAVA 做机器学习,您能建议我如何为我的数据选择最好的算法吗?
我正在使用数字数据(温度传感器),哪种方法最好,有监督还是无监督?
希望您明白我的意思
我推荐这个框架
https://machinelearning.org.cn/start-here/#process
大家好,我是诺埃尔,我是机器学习新手,经验不足。我想建立一个机器学习模型来预测我的系统发生任何攻击或异常事件/行为的可能性。该模型应根据其安全级别对情况进行分类,并给我可预测的原因和解决方案。各位,该怎么做?
我建议新项目遵循此流程
https://machinelearning.org.cn/start-here/#process
非常感谢您这篇精彩的文章!
我很乐意继续关注您和您的文章。
谢谢。
在读您的文章之前,我从未真正理解半监督机器学习是什么。问题在于我们是否可以在处理后获得新标签,还是仅基于最初给定的标签。您举的例子让一切都清晰明了。所以,答案是,我们没有所有的标签,这就是为什么我们要加入未标记数据。
感谢您的精彩帖子!
谢谢。
嗨,Jason,
喜欢你的书和文章。你近期会给我们一个关于 K-Means 聚类的教程吗?
-Kate
谢谢你的建议,凯特。
嗨,Jason,
感谢您澄清我在有监督和无监督机器学习之间的疑惑。但我还有一个疑问,我如何为特定问题证明或应用正确的算法。有没有简单的方法可以找出最适合我们遇到的问题的算法。您能否告诉我?
这是我在这里回答的一个常见问题
https://machinelearning.org.cn/faq/single-faq/what-algorithm-config-should-i-use
非常感谢您投入时间教育和回复各位学习者。感谢您成为如此大的灵感来源。
谢谢,我只是想有所帮助。
在特定机器学习领域,哪种学习技术会更好?
好问题,这可能会有所帮助
https://machinelearning.org.cn/faq/single-faq/what-algorithm-config-should-i-use
训练数据的正确类别被称为有监督或无监督
预测类别是有监督问题。
你好 Jason,谢谢你的帖子。
我有一个关于如何在一个系统中最大限度地利用不同类型的回归算法的优点并克服其局限性的问题。是否有可能创建一个数据模型,其中我有一个“单一”数据存储库和两个机器学习算法,例如逻辑回归和随机森林?数据存储库每分钟都会填充(就像在信息系统中一样),但在15分钟后,它会通过逻辑回归进行处理;再过15分钟后,它会通过随机森林进行处理,依此类推。我的问题是
1. 是否有可能创建这样的系统?
2. 如果是,这是否能获得两种算法的优势?如果否,是否有其他方法可以实现这一点?
当然,我不明白为什么不能。问题是您为什么要这样做?
嗯,我想知道这是否可以被视为集成建模的延伸。
我认为一些数据关键型应用,包括物联网通信(比如说,5G的信号估计领域,车对车通信)和信息系统,可以利用多个数据模型进行交叉检查。这样,一个模型的不足可以由另一个模型来克服。当然,这不会是一个内存/硬件高效的解决方案,但这只是一个说法。
如果您见过类似这样的系统,即在一个地方使用多个数据模型,我将非常感谢您的分享,谢谢。
在集成中,两种方法的输出将以某种方式结合起来以进行预测。
你好,解释所有类型的机器学习算法做得很好。但我对 SVM 应该放在算法思维导图的哪个位置感到困惑?
谢谢!
也许在基于实例的方法下?
我已经学习了机器学习算法,
现在下一步要学习什么,也就是说,我应该首先学习哪种技术
例如,深度学习、OpenCV、NLP、神经网络或图像检测。
请一步一步告诉我哪些是相互关联的,以及应该先学习什么。
谢谢
也许选择一个你最感兴趣的话题,或者一个你可以立即应用的话题。
https://machinelearning.org.cn/start-here/
你好,
我查阅了您的帖子,因为我必须使用世界银行的 Findex 数据集来获取有关影响女性金融和数字包容性因素的论文信息。我正在考虑为这个项目使用 K-聚类。我想听听您的意见。
谢谢你
这真的取决于您项目的目标。
也许这个框架会有帮助
https://machinelearning.org.cn/how-to-define-your-machine-learning-problem/
你好,Jason
首先感谢您的帖子。我正在研究一个关于识别社交网络上虚假资料的课题,我拥有的数据未标记,所以我正在使用无监督学习,但我也需要进行有监督学习。所以我的问题是:我能否首先使用无监督学习来标记我的数据,以便我可以轻松地将其用于有监督学习?
无监督学习可以提出聚类,但您仍然必须使用专家来标记数据。
嗨 Jason,您提供的信息非常有帮助。我有一个问题,哪种机器学习算法最适合法医调查?
这是我在这里回答的一个常见问题
https://machinelearning.org.cn/faq/single-faq/what-algorithm-config-should-i-use
亲爱的 Jason,
上面提到有监督学习是:“所有数据都已标记”。但没有提到数据是否已标记是什么意思?
如果有人在阅读购买的电子书时遇到此类问题,是否提供支持?
注:目前我假设标记数据意味着对于特定输入 X,输出是/应该是 Y。
此致,
兰迪尔
标签可能是类别,也可能是目标数量。
嗨,Jason,
您有有监督学习和无监督学习的算法示例吗?
谢谢你
我有很多几百个例子,或许可以从这里开始
https://machinelearning.org.cn/start-here/
嗨 Jason,感谢这篇精彩的帖子。有监督方法会使用任何未标记数据吗?还是模型的性能仅根据其对测试数据(分类数据)的分类进行评估?我正在研究一个项目,我想比较几种有监督方法(支持向量机、逻辑回归、集成方法、随机森林和最近邻)和一种半监督方法(朴素贝叶斯)在识别罕见结果方面的性能,我大约有200万条已标记记录(分为训练集和测试集)和2亿条未标记记录。
有监督学习模型是在我们已知输出的未见数据上进行评估的。
感谢这篇精彩的帖子。我读过你的许多帖子。
谢谢,很高兴对您有帮助。
感谢您感兴趣的帖子,这是对机器学习领域的巨大贡献,上帝保佑您。
谢谢。
嗨,Jason,
对于未标记的数据,如果我们进行 K-means 聚类并找到标签,现在数据有了标签,我们是否可以继续进行有监督学习?
谢谢
K-means 将找到的是聚类,而不是标签。
标签必须由领域专家分配。
谢谢 Jason,如果他们说会有两个聚类,那么我们用 K=2 构建 K-means,得到两个聚类,在这种情况下,是否可以继续进行有监督学习?
为了更清楚地解释一下,
kmeansmodel = KMeans(n_clusters= 2)
kmeansmodel.fit(X_train)
predicted = kmeansmodel.labels_
kmf2labels = predicted.tolist()
raw_data[‘labels’] = kmf2labels
现在我们得到标签为0和1,那么我们现在可以进行二元分类吗?
是的。
有可能性。
谢谢 Jason,无监督学习之后的有监督分类是否会提高我们的预测结果,请您发表评论?
这取决于数据和模型。
我能说的最好的就是:试试看。
嗨,Jason,
DBSCAN 模型运行出现 MemoryError(32GB RAM 和 200,000 条记录,60 列),请问有什么解决方案吗?
dbscan_model = DBSCAN(eps=3, min_samples=5, metric=’euclidean’, algorithm=’auto’)
dbscan_model.fit(X_scaled)
我尝试将数据根据一个分类列进行分割,例如“已就业”(是和否),这样就得到了两个数据集分割,分别为 105,000 条和 95,000 条记录,所以我构建了两个模型,用于预测如果测试记录是“已就业是”,则运行 model_Employed_Yes,否则运行另一个。不确定这是不是一个好的选择?
谢谢
或许可以尝试对数据集样本进行操作?
或许可以尝试在内存更大的 EC2 实例上运行?
或许可以尝试探索更节省内存的实现方式?
嗨
我在我的论文中使用了这个笔记。
我该如何引用它?
请帮帮我
好问题,我在这里展示了如何操作
https://machinelearning.org.cn/faq/single-faq/how-do-i-reference-or-cite-a-book-or-blog-post
非常感谢。
我还有一个问题。我们有原始 SVM 函数吗?
它是什么?
“原始 SVM 函数”是什么意思?您是指核函数吗?
是的。核函数
也许从这里开始
https://machinelearning.org.cn/support-vector-machines-for-machine-learning/
谢谢您,先生,这篇帖子对我很有帮助。先生,我有一个疑问。无监督学习是否有数据集?
是的,无监督学习只有训练数据集。
训练还是测试?
是的。
先生您好。非常感谢您提供的这些有帮助的材料。
先生,我面临一个问题,就是如何为一个场景识别最合适的算法/模型。
例如,我有一张图片,我想通过机器学习模型找出三个变量的值,那么我可以使用哪个模型呢?
输入:图片
输出:图片中变量1、2、3的浓度。
或许可以尝试一系列用于图像分类的 CNN 模型?
这可能是一个很好的起点
https://machinelearning.org.cn/start-here/#dlfcv
我认为无监督学习的解决方案是制作一个程序,它只从相机中获取照片,然后让网络通过随机重建其面对的任何完整图像,并将其用作训练方法。
据我所知,网络可以从存储在网络中的碎片重建大量图像。这意味着通过拍摄相机所见的快照并将其作为训练数据,也许可以解决无监督学习问题。这样,网络会自动获取自己的训练数据。我的意思不是直接对数据进行分类,因为那会让你陷入有监督学习的困境。
一个网络是不够的。原因在于,需要两个参与者来共享信息。网络无法在重建的同时读取自身,因为那会抹去它正在重建的图像。
你需要第二个网络来重建第一个网络正在展示的东西。这也不是那么简单。你不能仅仅通过这个来解决问题,因为网络一次只能输出一个图像,所以我们需要将图像分解成更小的部分,然后让一个网络获得一个随机的片段,从另一个网络的重建总图像中重建整体。
通过在网络之间随机抛掷图像的一部分,你们之间就有了通信。这样,你们就可以创造一个拥有无限可能图像的梦境般的过程。
现在你需要第三个网络,它可以从其他两个网络接收随机图像,并使用来自相机输入的图像数据作为图像,将来自两个交替网络的随机建议与来自第三个网络的相机图像重建进行比较。这样,机器将自行分类与外部图像匹配的数据。
我们现在需要做的是通过一种算法将这些随机图像标签与声音数据或语音翻译与来自两个递归镜像辅助网络的随机图像(一个主网络)结合起来,该算法可以利用另一个专门网络识别的词语重复作为触发器,拍摄相机快照并重建该图像,然后通过随机递归镜像来比较该图像。如果它在随机递归网络中找到了相机中的目标图像,那么你就可以使用传统算法将识别出的词语与识别出的图像进行分类。
这样,机器就会学习并自行获取信息,随着时间的推移,它将能够回忆起你未曾教过它的分类对象。
这并不是整个问题的解决方案。你还没有实现通用人工智能。还有一个大问题没有解决。
现在你必须找到一种方法,让软件与人进行交流,以便它能够从他们的思维中学习并学习如何表达事物。
你之前所拥有的,只是一台非常智能的梦想机器,它能够学习。
现在我们必须反转这个过程。现在我们必须从一个人那里获取口头输入数据,并使用计算机自己创建的分类来重建主网络中的图像。这样,我们就成功了一半,让网络通过潜入自己的网络获取信息,并使用其以前的方法创建新的、更多的分类,从而从你的口头语言中学习。
此时,你已经创建了一个非常聪明的低智商程序,它只会像进化的猴子一样模仿你的话语。
为了解决这个问题,你必须通过将主网络变为辅助网络,然后创建一个新的网络作为三角形的顶点,并创建6个模仿主网络的辅助网络来增加网络的复杂性。这6个网络将作为句柄来存储可以向主网络输出提供建议的部分信息。
这样你就有了6个包含模式的网络,它们可以争夺更好的问题或答案。我不知道这是否让程序更智能。除此之外,我一无所知。无论如何,这只是一个想法。如果这太复杂了,那么世界上没有人能解决导致AGI的无监督学习问题。
感谢分享。
有监督和无监督算法是定义参数和非参数算法的另一种方式吗?
不行。
有些有监督算法是参数的,有些是非参数的。
有些无监督算法是参数的,有些是非参数的。
很棒的工作,
先生,您能举例说明有监督学习如何用于测试软件组件吗?
也就是说,如何使用有监督学习进行软件测试。任何例子都会有帮助。
感谢您的建议。
先生,您能帮我如何用有监督学习进行测试吗?请给我举个例子。我在这方面遇到了问题。
是的,博客上有很多例子。或许可以从这里开始
https://machinelearning.org.cn/machine-learning-in-python-step-by-step/
你做得非常好。我非常喜欢。 🙂
谢谢!
这是一篇非常有启发性的文章,讲述了有监督学习和无监督学习之间的区别!
谢谢!
不客气!
嗨 Jason!很棒的文章!我目前正在为一个 MBA 课程项目研究有监督/无监督学习。在这个项目中,我们必须识别工作中可以通过有监督和无监督学习解决的问题。
我为一个数字营销机构工作,该机构为中小型企业构建和管理营销活动(PPC、SEO、Facebook 广告、展示广告等)。对于我的无监督学习模型,我正在考虑在客户流失发生之前解决这个问题。
我将使用 K-means 聚类,模型的特征/列将是
– 取消的原因
– 客户在我们这里运行了多少个月才取消。(每当有人取消时,我们都会从 CRM 中的取消原因列表中选择。)
行将是客户正在运行的营销渠道类型。
通过对这些数据进行聚类,我们将能够了解在客户生命周期的各个阶段,按每个营销渠道细分,需要寻找哪些类型的取消。
这个问题适合无监督学习吗?如果是,我是否需要为其添加更多特征,还是两个就足够了?
感谢您抽出时间阅读此内容!
客户流失预测是一个有监督学习问题。聚类可以用作预处理步骤。
我明白了。您能详细解释一下聚类作为预处理步骤是什么意思吗?
是的,正如您所描述的,您可以通过无监督方式根据行为对客户进行分组,然后对每个组拟合模型,或者将组的归属作为有监督学习模型的输入。
这可能有用也可能没用,取决于问题的复杂性和所选模型,例如,大多数有监督学习模型无论如何都会做类似的事情。
好的,那么除了我提到使用无监督模型预测客户流失的部分,我说的其他一切都适用于无监督学习吗?(我概述的特征/行)
无法知道哪些特征最有用。我建议进行一些实验,看看哪些适用于您的数据集。
这可能会给您一些关于收集什么数据的想法
https://machinelearning.org.cn/how-to-define-your-machine-learning-problem/
有趣的帖子。现在请推荐无监督学习算法,用于检测恶意/钓鱼网址和合法网址。
那听起来像一个有监督学习问题。
非常感谢您这篇精彩的帖子,非常容易理解……谢谢您
不客气!
精彩的阅读,但我有一个问题:是否有可能在有监督学习模型上附加数据?
谢谢!
当然,您随时可以更新或重新拟合模型。
嗨,我需要预测特定班级学生的表现,并且我收集了所有其他人口统计数据和学生以前的班级数据。那么在这种情况下,我应该应用有监督学习算法还是无监督学习算法。
这听起来像有监督学习,这个框架会有所帮助。
https://machinelearning.org.cn/how-to-define-your-machine-learning-problem/
哪种有监督和无监督机器学习更好?
无效的二分法。
它们是解决不同问题的两类不同技术。
如果您必须选择一种最有用“在工作场所”学习的课程,那将是:有监督学习。
嗨,Jason,
结构清晰的写作,终于澄清了一些误解。我想了解未来的预测将属于哪种情况。
假设我的数据集中有一个变量 Y_p 和 3 个输入变量 X1、X2、X3,但我想预测一个未来的 Y 值,我们称之为 Y_f。这会是有监督问题还是无监督问题?
例如,Y_p 可能是我的当前速度,X1、X2 和 X3 可能是体重、身高、年龄,然后 Y_f 将是给定时间 t 后的预测(未来速度)。
期待您的回复。
谢谢。
有监督学习。
谢谢您。哪种算法最适合解决这个问题?考虑到这是一个回归问题。
我有点困惑,因为根据我对有监督学习的理解,目标变量通常在历史数据(训练集)中是已知的。然而,对于这个问题,历史数据中的目标变量是未知的,所以您能否给我指明方向,让我真正理解为什么它仍然是一个有监督学习问题,以及哪些算法最能解决这个问题。
好问题,这会有帮助
https://machinelearning.org.cn/faq/single-faq/what-algorithm-config-should-i-use
嗨,Jason,
是否有任何算法可以解决无监督多类别多标签问题?我知道 K-means 可以用于无监督多类别问题。它们有什么办法可以用于多类别多标签问题吗?
不。分类是有监督学习问题,不是无监督学习。
K-means 不识别类别,它不是分类算法。它是一种聚类算法,将数据分组到您指定的聚类中心数量中。
嗨,Jason,
KNN 是否需要一些初始标记数据,以便在此基础上创建聚类,还是通过其他技术完成?
是的,该模型需要一个良好且具有代表性的标记数据集用于“训练”。
一个简单明了的解释。谢谢
不客气!
感谢您的这篇文章。
我想知道在无监督学习中如何训练和测试图像数据集:在训练期间所有数据集都已标记,在测试期间数据集应该如何(我应该获取带掩码的数据集还是仅获取普通数据集)?
谢谢你
抱歉,我没有无监督学习的例子。
我可以在图像数据上进行聚类吗?
我想可以,您可能需要为图像数据设计的自定义技术。
我有个疑问,您能告诉我这是有监督学习(分类)还是无监督学习吗?
根据其他猫狗图像的历史数据,预测新图像是猫还是狗,其中您已提供了哪些图像是猫或狗的信息。
有监督学习。
停机问题如何影响无监督机器学习?感谢您的思考。
诚挚地,
沃德
嗨沃德……这是一个很好的问题!我对此没有深入研究,但我建议您阅读以下讨论以获取一些想法
https://ai.stackexchange.com/questions/148/what-limits-if-any-does-the-halting-problem-put-on-artificial-intelligence/170
先生,我的问题是写出2022年有监督学习和无监督学习相关的5个问题。
请尽快回复我。
嗨 Raheel…请阐明您的问题,以便我们更好地协助您。
您好。我有一个关于美国地区房价预测的数据集。如果您有五个输入变量和一个输出变量(即价格),那么什么模型适合这种情况?
您好,Dami……您可能会对以下资源感兴趣
https://medium.com/@manilwagle/predicting-house-prices-using-machine-learning-cab0b82cd3f
我想预测房屋的售价,例如城市人口、同一城市房屋的平均房间数、同一城市房屋的平均面积、房屋所在城市家庭的平均收入。数据集还包含地址。我只需要知道要使用什么模型。
线性回归