2014年11月,伯恩哈德·施尔科夫(Bernhard Scholkopf)因其对机器学习的贡献而荣获英国皇家学会颁发的米尔纳奖(Milner Award)。
在接受该奖项时,他发表了一个关于他统计和因果机器学习方法的通俗讲座,题为“机器学习的统计和因果方法”。
这是一个非常出色的一个小时的讲座,我强烈建议大家观看。
统计学习
在统计方面,施尔科夫谈论了经验推理和泛化。
他早期提出的一点有趣的、有启发的观点是关于困难的推理问题,这激励了他对核方法的研究。
具体来说,他引用了Sonnenburg等人2008年发表的题为“大规模多核学习”论文中提到的根据位置对DNA序列进行分类的问题。在论文中,作者们证明了算法的性能随可用数据的量的增加而提高。

大数据之需
图来自大规模多核学习
他称这是一个范式改变的事实,并将这些困难的推理问题归类为具有
- 高维度
- 复杂规律
- 少量先验知识
- 需要“大数据”集
他以统计学习部分的演讲结束,描述了核方法贡献的三个关键方面。
- 形式化了相似性的概念
- 将数据在向量空间中表示为线性形式,无论原始数据来自何处
- 编码了用于学习的函数类,核算法的解可以表示为核展开
因果学习
讲座的第二部分谈论了施尔科夫在因果建模方面的工作。
他描述了因果关系、因果关系图模型以及如何从数据中推断因果模型。
具体来说,他介绍了两种解决因果模型推断问题的新方法:
- 将原因与机制分离(噪声和函数独立性)
- 限制函数模型
对我来说,这次讨论中最有趣的部分是他谈到了他通过因果模型视角看待半监督学习的工作。这来源于他2012年发表的论文“关于因果和反因果学习”。

从X预测Y
图来自关于因果和反因果学习
他描述了两个例子:
- 示例1:根据mRNA序列预测蛋白质。在这里,X(mRNA)引起Y(蛋白质),这是一个因果问题。
- 示例2:根据手写数字预测类别成员。在这里,X(类别成员)引起Y(手写数字),这是一个反因果问题。
关键发现是,对P(X)进行建模并添加额外数据并不能帮助解决第一个问题。我们假设P(X)与P(Y|X)无关。但在第二个案例中,对P(Y)进行建模是有益的,因为P(Y)与P(X|Y)有关。
像示例2中的问题(根据效应Y预测原因X)将从半监督学习技术中受益。我惊讶于这个发现没有被更频繁地讨论,也许这对于领域内的深入研究者来说是显而易见的。
总结
这是一个很棒的视频,我相信它能让你对机器学习的两个重要领域产生动力。
您可以在这里再次观看视频:“机器学习的统计和因果方法”。
感谢您的指出。这确实非常重要,因为它指出了机器学习技术能力的一个并非完全显而易见的局限性。
从直观的意义上讲,这意味着您无法构建一台能够基于其起始输入预测另一台机器的输出行为的机器。机器学习所能做的只是确定给定输出,它“可能”源自哪些输入状态。
对我来说,这确实非常启发。在我读到它之前,我并不清楚。
谢谢!
说得对,这帮助我理清了问题。
谢谢!您能提供一些使用Python进行因果推断学习的代码吗?例如,一些实现DoWhy或类似库进行特征选择的因果推断的代码……
感谢您的建议。