Hal Varian是谷歌的首席经济学家,他于2013年11月在加州大学伯克利分校电子工程与计算机科学系为电子支持组做了一次讲座。
讲座的题目是机器学习与计量经济学,重点是机器学习可以从计量经济学领域借鉴哪些经验。
https://www.youtube.com/watch?v=EraG-2p9VuE
Hal首先总结了他最近的一篇题为《大数据:计量经济学的新技巧》(PDF)的论文,该论文评论了计量经济学界可以从机器学习界学到什么,具体来说是:
- 训练-测试-验证以避免过拟合
- 交叉验证
- 非线性估计(树、森林、SVM、神经网络等)
- Bootstrap、bagging、boosting
- 变量选择(lasso及其相关方法)
- 模型平均
- 计算贝叶斯方法(MCMC)
- 处理大数据的工具(SQL、NoSQL数据库)
- 文本分析(未讨论)
接着,他谈到了非独立同分布(i.i.d)数据,例如时间序列数据和面板数据。这类数据通常交叉验证的效果不佳。他建议将数据分解为趋势+季节性分量,并关注与预期行为的偏差。其中一个例子是Google Correlate显示,汽车经销商的销售数据与搜索“印度餐厅”的次数最相关(简直是疯了!)。
讲座的重点是因果推断,这是计量经济学中的一个重要课题。他涵盖了:
- 反事实:如果接受治疗的人没有接受治疗,会发生什么?他们平均而言会像对照组一样吗?阅读更多关于实证检验中的反事实。
- 混淆变量:与x和y(其他因素)都相关的未观察到的变量。当涉及人类选择时,通常是一个问题。阅读更多关于混淆变量。
- 自然实验:可能随机也可能不随机。一个例子是征兵抽签。阅读更多关于自然实验。
- 回归不连续性:治疗是基于某个截断值或阈值之上或之下应用的。你可以比较接近(任意)阈值的案例,以估计在无法进行随机化时可以获得的平均处理效应。一旦你能模拟因果关系,就可以调整阈值并进行“what-if”分析(不要把随机化留给运气)。阅读更多关于回归不连续设计(RDD)。
- 双重差分法 (DiD):仅查看治疗前后的变化是不够的,还需要用对照组来调整治疗组。治疗可能不是随机分配的。阅读更多关于双重差分法。
- 工具变量:X中独立于误差的变化。能够改变X(与X相关)但不会改变误差的某些因素。它提供了一个控制杠杆。随机化就是一个工具变量。阅读更多关于工具变量。
他总结了机器学习界可以从计量经济学中吸取的经验如下:
- 观测数据(通常)无法确定因果关系,无论它有多大(大数据是不够的)
- 政策制定需要因果推断
- 带有随机分配的治疗-对照组是黄金标准
- 有时你可以找到自然实验、回归不连续性等
- 预测对于处理选择问题和反事实的因果推断至关重要
- 在持续测试系统方面有非常有趣的研究
Hal最后推荐了两本书:
- 《Mostly Harmless Econometrics: An Empiricist’s Companion》
- 《统计学习导论:R语言应用》(An Introduction to Statistical Learning: with Applications in R)
该讲座于2014年还在斯坦福大学电气工程系举行,题为机器学习可以从计量经济学中学到什么,反之亦然。你可以查看第二次讲座的PDF幻灯片,内容基本相同。
我非常喜欢您的文章。请将此次研讨会添加到“机器学习与拍卖/博弈论”的列表中。
https://www.youtube.com/watch?v=eD758rKwQmA
谢谢Chandra,也谢谢你提供的相关视频链接。我会去看看的。
我们能多放些白痴吃东西的声音,少放些演讲者的声音吗?
说真的,这是YouTube上最糟糕的音频了,这还不是全部。
为什么人们不知道麦克风是怎么工作的?
我同意音频很糟糕。我所有的YouTube视频都用2倍速观看,然后暂停做笔记。这样在某种程度上可以克服声音问题,因为视频很快就结束了。
搞什么鬼?他衬衫上明显有麦克风。为什么音频听起来像是用相机录制的?
我没有2倍速播放选项(至少在这个视频上),而且我无法忍受听下去。由于音频太差,这个讲座无法观看。
感谢分享!