超越预测

你用预测模型做出的预测并不重要,重要的是对这些预测的使用。

Jeremy Howard 是竞争性机器学习平台 Kaggle 的总裁兼首席科学家。2012 年,他在 O’reilly Strata 会议上就他称之为“数据产品”的 Drivetrain 方法发表演讲,该方法超越了单纯的预测。

在本帖中,您将了解 Howard 的 Drivetrain 方法及其如何用于构建系统的开发流程,而不是仅仅做出预测。

The Drivetrain Approach

Drivetrain 方法
图片来自 O’Reilly,保留所有权利

方法的动机

Jeremy Howard 在投资并加入 Kaggle 公司之前,他是一位顶级的 Kaggle 参赛者。在“为数据科学运动做好准备”等演讲中,您可以深入了解 Howard 驾驭数据和构建有效模型方面的敏锐能力。

到了 2012 年的 Strata 会议,Howard 加入 Kaggle 已经有一两年了,他看到了大量的比赛和很多有竞争力的数学家。你不禁会想,他提出的更全面的方法论,源于他对人们只关注预测及其准确性的不满。

预测是显而易见的部分,它们成为比赛的焦点是合乎情理的。我认为他的 Drivetrain 方法是他吹响了号角,挑战社区追求更多。

Drivetrain 方法

Howard 在 2012 年的 Strata 会议上发表了题为“从预测建模到优化:下一个前沿”的 35 分钟演讲。

该方法还在一篇题为“设计出色的数据产品:Drivetrain 方法:构建数据产品的四步流程”的博文中进行了描述,该博文也可作为一本独立的免费电子书(据我所知,内容完全相同)。

在演讲中,他提出了他的 Drivetrain 方法的四步流程:

  1. 定义目标:我想实现什么结果?
  2. 杠杆:我们可以控制哪些输入?
  3. 数据:我们可以收集哪些数据?
  4. 模型:杠杆如何影响目标?

他描述了收集数据,因为他真正指的是对因果关系数据的需求,而这是大多数组织不收集的。必须通过执行大量随机实验来收集这些数据。

这是关键。它超越了简单地对新页面标题进行 A/B 测试,它涉及对无偏行为的评估,例如对随机推荐的响应。

第四步建模是一个包含以下子过程的管道:

  • 目标:我想实现什么结果。
  • 原始数据:无偏的因果数据
  • 建模器:数据中因果关系的统计模型。
  • 模拟器:能够插入临时输入(移动杠杆)并评估对目标的影响。
  • 优化器:使用模拟器搜索输入(杠杆值)以最大化(或最小化)期望的结果。
  • 可操作的结果:通过结果实现目标。

案例研究

该方法有点抽象,需要一些例子来阐明。

在演示中,Howard 以 Google 搜索为例。

  • 目标:您想阅读哪个网页?
  • 杠杆:在搜索结果页面上,您可以访问的网站的排序。
  • 数据:页面之间的链接网络。
  • 模型:未讨论,但人们会假设正在对页面的权威指标进行持续的实验和改进。

扩展这个例子,Google 很可能通过注入其他结果来在 SERP 中进行随机实验,并观察用户行为。这将允许构建一个预测模型,该模型基于点击的可能性、用户点击的模拟以及针对给定用户的可点击条目的优化。现在,我预计 Google 的广告也使用了类似的方法,这会是一个更清晰的例子。

Howard 还建议将营销作为一个改进领域。他评论说,目标是最大化 CLTV。杠杆包括产品推荐、优惠、折扣和客户服务电话。可以作为原始数据收集的因果关系是购买概率和喜欢产品(但不知道产品)的概率。

他还举了一个早期创业公司 Optimal Decisions Group 的例子,用于最大化保险利润。他还提到了 Google 自动驾驶汽车作为另一个例子,而不是像当前 GPS 显示那样仅仅进行路线查找。

我觉得有更大的机会来阐述这些想法。我认为,如果该方法能够以更清晰的方式呈现一个分步示例,那么这些想法将获得更大的反响。

总结

“超越预测”的理念需要经常重复。很容易陷入某个特定的问题。我们经常谈论预先定义问题,以尽量减少这种影响。

Howard 的 Drivetrain 方法是一个工具,您可以使用它来设计一个解决方案来解决复杂问题,该解决方案使用机器学习,而不是使用机器学习来做出预测然后就此打住。

这些想法与响应面法 (RSM) 有很多重叠之处。虽然没有明确说明,但在同一时期 Irfan Ahmad 的预测建模分类法的相关帖子中暗示了这一点,这有助于澄清 Howard 的一些术语。

暂无评论。

留下回复

Machine Learning Mastery 是 Guiding Tech Media 的一部分,Guiding Tech Media 是一家领先的数字媒体出版商,专注于帮助人们了解技术。访问我们的公司网站以了解更多关于我们的使命和团队的信息。