通过应用机器学习获得报酬

你可以用来成为机器学习顾问的阶梯式方法
机器学习顾问

你想从事机器学习并获得报酬吗?

小心你的愿望。

在这篇文章中,我概述了一个蓝图,你可以用它来学习足够的机器学习知识,以帮助小企业和初创公司满足其一般的数据需求。

这并不容易,你必须在舒适区之外努力工作。你将必须与现实世界中的真人交谈!

Ladder Approach to Machine Learning

机器学习的阶梯式方法
照片由 Jake Stimpson 拍摄,保留部分权利

蓝图

本文中提出的蓝图将带你从对机器学习的热情和学习的奉献精神,到有能力和信心解决中小型企业或初创公司的一般数据问题并提供解决方案。

这条路径的蓝图如下

  1. 建立基础
  2. 建立作品集
  3. 提供解决方案

根据你的背景和兴趣,你可以根据自己的需要调整路线图。

需要明确的是,我们只对应用机器学习感兴趣。我们只关心理论和工具,只要它们能让你更好地理解问题并在你正在处理的问题上取得更好的结果。

这是一种反直觉但非常高效的观点。即时学习你需要的东西,并专注于交付结果。关键在于可靠地取得好结果,而非完美。

1. 建立基础

你需要学习足够的应用机器学习知识,以便有信心从头到尾解决一个问题。准确定义问题,并交付项目成果所需的模型或报告。

  1. 挑选并学习一个流程。学习一个可以遵循的循序渐进的流程,它将带你从问题定义到交付结果。一些例子包括  KDDCrisp-DMOSEMN以及其他
  2. 挑选并学习一个工具。学习一个可以用来完成你所选流程的工具或库。我推荐以下其中之一:Wekascikit-learnR,具体取决于你的兴趣和偏好。
  3. 在小型数据集上练习。下载小型数据集进行练习。在 UCI 机器学习库上花大量时间。

当你自信并有能力选择一个任意的内存内问题,并使用你的工具从头到尾解决它时,你就可以进入下一步了。

2. 建立作品集

一旦你具备了解决问题的基础能力,你就需要一些客观指标,让别人可以评估你的能力。你需要已完成的项目来证明你的交付能力。

你可以通过建立一个已完成的机器学习项目作品集来实现这一点。

关于心态的插曲

暂停一下,站在一个有数据问题的经理或小企业主的角度思考。

作为这样一个人,你根据程序员在其他公司和开源项目中交付项目成果的能力来雇佣他们。你根据营销人员提升转化率以攻击底线的能力来雇佣他们。如果这样的经理需要一个“数据专家”来交付一份报告或一个模型,他们会看什么来评估候选人是否能交付结果?

如果我是那个职位,我会想看到已完成项目的证据。不仅如此,我还想看到与我所寻求的结果非常接近的已完成项目的证据。

你的作品集

  1. 选择一个主题。这是你想要从事的项目类型。一个显而易见的选择是关于客户数据的报告(高价值客户、潜在客户转化预测等)。
  2. 寻找开放数据集。你需要找到与你的主题相关或接近的数据集进行练习。可以从 KaggleKDDCup 这样的竞赛网站开始寻找。如今有很多公共数据集可供练习!
  3. 完成项目。将每个数据集都视为一个有客户的项目,并应用你的流程来交付结果。这可能需要你扮演客户的角色,并对他们所寻求的结果(针对特定问题的模型或报告等)做出有根据的猜测。
  4. 撰写报告。将你的发现写成半正式的工作成果,并公开发布在网上。

这最后一点是关键,我将详细说明。

理想情况下,让你流程的每个部分都脚本化,这样你就可以在发现错误或获得新见解时随时重新执行。考虑将你的所有代码和脚本上传到该项目的公共 GitHub 账户。

将每个项目的结果写成技术报告或 PowerPoint。考虑录制一个简短的视频来展示你的发现。将报告托管在 GitHub、你的博客或其他地方。在你公开的 LinkedIn 个人资料上写下这个项目。

你的目标是有一个地方,你可以指给别人看,他们可以一目了然地看到你完成的所有项目,并能深入了解其中一个,看看你做了什么以及你交付了什么。

当你能客观地说服别人你能够在你的主题上交付结果时,你就可以进入下一步了。我认为 3-5 个中等规模的已完成项目是合理的。

在文章“建立一个机器学习作品集:完成小型专注项目并展示你的技能”中了解更多关于建立机器学习作品集的信息。

3. 交付解决方案

现在你已经具备了交付能力和相关证据,是时候到现实世界中寻找项目来完成了。

你将不得不走出去与人交谈。这一步将是巨大的筛选器。这一步可能有点可怕,有点困难,它将是你真正的考验。

  1. 找一个你能帮助的人。利用你的社交网络。参加聚会、寻求介绍等。寻找一家你可以(理想情况下)面对面会谈的小公司或初创公司,了解他们的问题并获取他们的数据。
  2. 要诚实。说实话。解释你的背景,你做了什么,以及你能为他们做什么。考虑免费或低价完成第一份工作,以获得你的第一个项目经验。你的成长路径是一个优势,它表明你渴望、急于交付并且有动力。我们都想和这样的人一起工作。
  3. 交付成果。完成工作。准确地规定项目,保持范围小而清晰,并交付你承诺的东西。再次强调,不要承诺你以前没有做过或不知道如何做的事情。
  4. 重复.

保持项目范围小,时间短。理想情况下,在 1-2 周内交付。你需要动力、快速的结果和为你的客户带来的快速学习。

当你完成真实项目时,将它们添加到你的作品集中(以一种尊重客户隐私的模糊形式)。

总结

在这篇文章中,你发现了一个路线图,可以利用它将你对机器学习的热情转化为一份咨询工作。

这种方法没有太多手把手的指导。这让它既令人兴奋又充满力量。你可以根据自己的舒适程度来执行这种方法,从事一些兼职工作或开启一个全新的职业生涯。

如果你遵循了这条道路或认识这样做的人,请留言分享你的经历。

应用机器学习来获得报酬 的 5 条回应

  1. Mark 2015年3月4日 8:59 am #

    那么现在哪些作品集比较热门?哪些作品集能让你被录用?我在硅谷,也许回答这个问题需要考虑地理和人口相关的因素。

    除了 GitHub,写博客怎么样?

    • Sebastian Raschka 2015年3月7日 5:22 pm #

      嗨,Mark,

      为了补充 Jason 的出色路线图并尝试回答你的问题

      只需要几个不错的项目就能引起注意。在我看来,项目的质量比数量更重要。在这方面,我可能与 Jason 的观点略有不同:UCI 的数据集库对于个人练习来说很不错,但我认为更重要和有趣的是超越它,去处理“新的东西”或更具“创新性”的东西——一个“数据科学家”或机器学习实践者的重要技能也是提出新的、有趣的假设来解决现实世界的问题,并且不要忘记数据收集和清理在典型的 KDD/ML/数据挖掘流程中也占很大一部分。

      关于写博客:我认为这与 GitHub 是相辅相成的。GitHub 是你存放代码和文档的地方,而博客文章最终是真正展示你的工作、解释你的方法并得出结论的机会。我更多地将 GitHub 视为你工作中你希望在博客文章中引用的“方法”部分。

  2. Leo 2015年4月9日 5:10 pm #

    一如既往,感谢这篇好文章。你认为一个人该如何展示他的作品集?
    致敬
    Leo

  3. J Chouinard 2021年3月10日 1:34 pm #

    谢谢 Jason。我对这个想法很感兴趣。小企业主似乎不太可能有资源支付数据科学家的费用,还是我搞错了?

    • Jason Brownlee 2021年3月10日 2:03 pm #

      这取决于他们是否能处理一个直接影响公司利润的问题。

发表回复

Machine Learning Mastery 是 Guiding Tech Media 的一部分,Guiding Tech Media 是一家领先的数字媒体出版商,专注于帮助人们了解技术。访问我们的公司网站以了解更多关于我们的使命和团队的信息。