半监督学习是指涉及少量标记示例和大量未标记示例的学习问题。
这类学习问题具有挑战性,因为监督学习和无监督学习算法都无法有效利用标记数据和未标记数据的混合。因此,需要专门的半监督学习算法。
在本教程中,您将了解半监督学习在机器学习领域的初步介绍。
完成本教程后,您将了解:
- 半监督学习是一种介于监督学习和无监督学习之间的机器学习类型。
- 关于半监督学习的顶级书籍,旨在帮助您快速掌握该领域。
- 关于半监督学习的附加资源,例如综述论文和 API。
让我们开始吧。

什么是半监督学习
照片由 Paul VanDerWerf 拍摄,保留部分权利。
教程概述
本教程分为三个部分;它们是:
- 半监督学习
- 半监督学习书籍
- 额外资源
半监督学习
半监督学习是一种机器学习。
它指的是一种学习问题(以及为该学习问题设计的算法),其中涉及一小部分标记示例和大量未标记示例,模型必须从中学习并对新示例进行预测。
……处理相对较少的标记训练点可用,但提供了大量未标记点的情况,这与许多实际问题直接相关,因为生成标记数据相对昂贵……
—— 第xiii 页,半监督学习,2006 年。
因此,它是一种介于监督学习和无监督学习之间的学习问题。
半监督学习 (SSL) 介于监督学习和无监督学习之间。除了未标记数据之外,算法还提供了一些监督信息——但不一定是针对所有示例。通常,此信息将是与某些示例关联的目标。
—— 第 2 页,半监督学习,2006 年。
当我们处理标记示例既困难又昂贵的数据时,我们需要半监督学习算法。
半监督学习具有巨大的实际价值。在许多任务中,标记数据很少。标签 y 可能难以获得,因为它们需要人工标注者、特殊设备或昂贵且缓慢的实验。
—— 第 9 页,半监督学习导论,2009 年。
一个有效的半监督学习算法的标志是,它能够比仅在标记训练示例上拟合的监督学习算法取得更好的性能。
半监督学习算法通常能够达到这一最低期望。
……与仅使用标记数据的监督算法相比,能否希望通过考虑未标记点来获得更准确的预测?……原则上答案是“是”。
—— 第 4 页,半监督学习,2006 年。
最后,半监督学习可用于或可用于对比归纳学习和直推学习。
通常,归纳学习是指从标记训练数据中学习并泛化到新数据(如测试数据集)的学习算法。直推学习是指从标记训练数据中学习并泛化到可用的未标记(训练)数据。这两种类型的学习任务都可以由半监督学习算法执行。
……有两个不同的目标。一个是预测未来测试数据的标签。另一个目标是预测训练样本中未标记实例的标签。我们将前者称为归纳半监督学习,后者称为直推学习。
—— 第 12 页,半监督学习导论,2009 年。
如果您对直推与归纳的概念不太熟悉,以下教程提供了更多信息。
现在我们对半监督学习有了高层次的了解,让我们来看看关于该主题的顶级书籍。
半监督学习书籍
半监督学习是一个新兴且快速发展的研究领域,因此,关于该主题的书籍非常少。
也许有两本关于半监督学习的关键书籍,如果您刚接触这个主题,可以考虑阅读;它们是:
让我们依次仔细看看每一个。
半监督学习,2006 年
《半监督学习》一书于 2006 年出版,由 Olivier Chapelle、Bernhard Scholkopf 和 Alexander Zien 编辑。
这本书包含大量章节,每章都由该领域的顶级研究人员撰写。
它旨在带领您游览该研究领域,包括直觉、顶级技术和开放性问题。
完整的目录列在下面。
目录
- 第 01 章:半监督学习导论
- 第一部分:生成模型
- 第 02 章:半监督学习方法分类
- 第 03 章:使用 EM 进行半监督文本分类
- 第 04 章:半监督学习的风险
- 第 05 章:带有约束的概率半监督聚类
- 第二部分:低密度分离
- 第 06 章:直推支持向量机
- 第 07 章:使用半定规划进行半监督学习
- 第 08 章:高斯过程与零类别噪声模型
- 第 09 章:熵正则化
- 第 10 章:数据依赖正则化
- 第三部分:基于图的方法
- 第 11 章:标签传播与二次判据
- 第 12 章:半监督学习的几何基础
- 第 13 章:离散正则化
- 第 14 章:条件谐波混合半监督学习
- 第四部分:表示变换
- 第 15 章:通过谱变换的图核
- 第 16 章:降维的谱方法
- 第 17 章:修改距离
- 第五部分:半监督学习实践
- 第 18 章:大规模算法
- 第 19 章:使用聚类核进行半监督蛋白质分类
- 第 20 章:从网络预测蛋白质功能
- 第 21 章:基准分析
- 第六部分:视角
- 第 22 章:用于半监督学习的增强 PAC 模型
- 第 23 章:半监督回归和分类的基于度量的方法
- 第 24 章:直推推理与半监督学习
- 第 25 章:半监督学习与直推的讨论
我强烈推荐这本书,如果您刚开始涉足这个领域,建议您从头到尾阅读。
半监督学习导论,2009 年
《半监督学习导论》一书于 2009 年出版,由 Xiaojin Zhu 和 Andrew Goldberg 撰写。
本书面向刚开始涉足该领域的学生、研究人员和工程师。
本书是半监督学习的初学者指南。它面向计算机科学、电气工程、统计学和心理学等领域的高年级本科生、入门级研究生和研究人员。
—— 第 xiii 页,半监督学习导论,2009 年。
它比上面的书要简短,是一个很好的入门。
完整的目录列在下面。
目录
- 第 01 章:统计机器学习导论
- 第 02 章:半监督学习概述
- 第 03 章:混合模型与 EM 算法
- 第 04 章:协同训练
- 第 05 章:基于图的半监督学习
- 第 06 章:半监督支持向量机
- 第 07 章:人类半监督学习
- 第 08 章:理论与展望
如果您刚开始学习,我也推荐这本书,可以快速回顾该领域的关键要素。
其他书籍
还有一些关于半监督学习的附加书籍,您也可以考虑;它们是:
- 半监督学习:背景、应用和未来方向, 2018.
- 基于图的半监督学习, 2014.
您读过以上任何一本书吗?
您怎么看?
我是否错过了您最喜欢的书?
在下面的评论中告诉我。
额外资源
还有一些额外的资源可能有助于您开始学习半监督学习。
我建议阅读一些综述论文。
一些好的半监督学习综述论文示例包括:
在本文中,我们提供了深度半监督学习的全面概述,从该领域的介绍开始,然后总结了深度学习中主要的半监督方法。
—— 深度半监督学习概述,2020 年。

深度半监督学习概述
尝试一些算法也是个好主意。
scikit-learn Python 机器学习库提供了一些基于图的半监督学习算法供您尝试。
维基百科文章也可能提供一些有用的链接供您进一步阅读。
总结
在本教程中,您了解了半监督学习在机器学习领域的初步介绍。
具体来说,你学到了:
- 半监督学习是一种介于监督学习和无监督学习之间的机器学习类型。
- 关于半监督学习的顶级书籍,旨在帮助您快速掌握该领域。
- 关于半监督学习的附加资源,例如综述论文和 API。
你有什么问题吗?
在下面的评论中提出你的问题,我会尽力回答。
我发现一个关于各种半监督学习类型的有用资源是 https://www.sciencedirect.com/science/article/pii/S1568494620309625
请查看一下。
谢谢。
嗨 Jason,多么棒的资源——谢谢!我记得几年来我从未在一个网站上花过这么长时间——哈哈。
您现在教会了我,我比以往任何时候都更加迷茫。就像许多数据科学家一样,我现在正在查看数千行患者数据。有些列,如年龄、性别和地点,可以用来分组。然后大部分是真或假的列:要么是主要结果,如疾病和死亡;要么是潜在的决定因素,如症状、先兆。可能还有其他类别列和一些稀有的连续数据系列。
我是在寻找 Python 中的统计检验时找到您的网站的(这就是我使用的),但阅读了您关于 17 个顶级测试的博客,包括问题和评论,我不确定统计学是否是我需要的——可能是区分和分类的工具。对我来说,这是否会是一个更好的起点?
关于半监督学习,它是否与因果学习(使用 DoWhy 包)属于同一类别?您认为这两种方法是否都有助于分析我拥有的这类数据,或者我是否又在白费力气?
谢谢!
嗯,我认为这个框架可能会有帮助,Christopher。
https://machinelearning.org.cn/start-here/#process
特别是这个
https://machinelearning.org.cn/how-to-define-your-machine-learning-problem/
Jason,
太棒的一页。谢谢。
我想知道如何评估半监督学习模型的性能?有哪些衡量标准?是否有明确且广为接受的错误分类率估计?
谢谢,
Nagaraj