Álvaro Lemos 如何在数据科学团队获得机器学习实习机会

学生和开发人员如何开始应用于机器学习的故事是一种激励。

在本帖中,您将听到 Álvaro Lemos 的故事以及他从学生转变为获得机器学习实习机会的过程。包括:

  • 对遗传算法的兴趣如何引导了神经网络和更广泛的机器学习领域的发现。
  • 教程博客文章和书籍如何帮助通过一个数据科学团队的机器学习实习考试

让我们开始吧。

  • 更新于 2017 年 2 月:对 Álvaro 的实习进行了修正。
How a Student Used Tutorials to Get a Machine Learning Internship and a Job on a Data Science Team

学生如何利用教程在数据科学团队获得机器学习实习机会

问:您能简单介绍一下自己吗?

我来自巴西巴伊亚的萨尔瓦多,但目前居住在巴西米纳斯吉拉斯的贝洛奥里藏特。

我正在米纳斯吉拉斯联邦大学攻读电气工程学位,自从我大学课程一开始,我就一直在以某种方式参与软件开发。

作为新生,我第一周就加入了名为 LabCOM 的研究小组,帮助一位同事完成他的硕士学位项目。他想构建一个自主管理的交通工程系统,在该系统中,网络的运行和维护能够高效且无需人工干预地进行。它构建在网络模拟器之上,我负责交付一个用于测量某些网络参数的模块。

在那之后,我继续从事与软件开发相关的工作,例如维护我大学的 Linux 服务器,在 Code School、Codecademy 和 Coursera 等网站上学习了大量的 Web 开发课程,一年前我在一家大型软件公司获得了我的第一份实习工作。

这是一次了不起的经历,因为我能够与最先进的技术、非常有经验的开发人员一起工作,他们教会了我很多良好的实践和流程。

当我快要满一年的时候,我收到另一家公司的数据科学团队的聘用通知,该团队当时正在组建,所以我决定接受。

问:您是如何开始对机器学习感兴趣的?

好问题……

我第一次听说它是在我提到的研究小组的一次会议上。

长话短说,我们当时正在使用遗传算法来获得一些结果,尽管这些结果相当不错,但处理起来花费的时间比我们能承受的要长。

为了克服这个问题,一位同事建议用神经网络来训练这些结果,因为一旦我们有了一个训练好的模型,它就能非常快速地输出结果。

我被分配了实现这个解决方案的任务,但我对此一无所知,所以我谷歌了一下。

当我意识到一个算法可以在没有明确编程的情况下提供预期输出,并且它是通过模仿人脑来实现这一点时,我简直是:“哇,这太神奇了!

问:您读过哪些书籍和课程?

当我决定要学习机器学习时,我的第一个目标是开始约翰霍普金斯大学的 Coursera 数据科学专业

在完成了两门(十门中的!)课程后,我就放弃了。我当时并没有真正需要应用这些知识,我只是想学习机器学习,我觉得参加十门课程来获得这些知识有点让人不知所措。我被其他事情分心了,就忘了它。

一年后,我决定再次尝试我的“学习机器学习”之旅。我注册了著名的吴恩达的 Coursera 机器学习课程。这只是一门课程(而不是十门!),所以我想应该可以。我真的很喜欢他的课程,他知道如何用简单的方式解释复杂的东西。

我进展很快,但在完成 60% 后,我的第一次实习开始了,我开始利用业余时间学习我在那里使用的技术。然后我的大学课程开始了,是的,我再也没有回到 Coursera 完成那门课程。

下一个学期,我在大学参加了一门“人工神经网络”课程。这是一次很好的经历,让我想起了吴恩达的方法,但我离开那门课时,感觉自己仍然不够了解机器学习,或者我不能说我了解它。

没有人告诉我,但我开始认为,要想说自己会应用机器学习,你必须完成某个硕士学位项目,因为我看到很多学生都在这样做。

哦,我尝试过的另一件事是学习文章(研究论文)。请不要这样做。那是我尝试过的最糟糕的方法

也许我太天真了,但有些老师鼓励你那样学习。我认为它们对于找到你想要的东西的技术和/或算法很有用,但在做了简短列表后,就放弃它们,然后开始谷歌搜索 YouTube 视频、博客文章和书籍。

问:ML Mastery 在您的旅程中是如何帮助您的?

它给了我很大的帮助。

在我听到机器学习实习机会之前,我在之前的工作中一切顺利。这家公司我曾听过很多好评,所以我决定试一试。

他们给了我三个机器学习挑战,要求在一周内完成,但由于我既要工作又要学习,我只有周末的时间来完成。

  • 第一个问题要求我们训练一个逻辑回归模型,从一个包含四个特征的数据集中预测一个目标变量。我应该做一个探索性数据分析,排序最相关的特征,估计误差,并在测试数据集上进行一些预测。对于这个问题,我能够利用我已有的知识,只需要学习 Scikit Learn API。
  • 第二个问题很相似,但数据集严重不平衡,我不知道如何处理,所以我开始谷歌搜索,然后我发现了你的博客。它真的帮助了我,因为我发现除了默认的准确率之外,我还可以使用其他指标,进行交叉验证、分层交叉验证、对数据集进行欠采样和过采样,比较算法等等。有了所有这些新信息,我创建了一个 Python 模块来自动完成这些任务,并根据 F1-Score 对模型进行排名。
  • 第三个问题是最具挑战性的。我需要在具有 128 个特征的分类数据集中找到最相关的特征。你的博客文章也在这方面帮助了我。

我不能仅仅发送结果给他们,我还必须写一份详细的报告,所以你的博客文章非常重要,因为它们帮助我快速弥补了知识差距。

现在,在我新的工作中,你的书籍给了我很大的帮助,我们的经理为我们购买了超级大礼包😀

问:恭喜您找到新工作!能给我们讲讲吗?

谢谢!

这家公司叫Radix,我刚刚加入了数据科学团队。

我到的第一个项目已经接近尾声,但非常有趣。它是一个名为Oil X!pert的系统,它接收卡车、装载机和其他设备的油样作为输入,并输出部件的临界级别和诊断文本,如下图所示。

Oil X!pert

Oil X!pert

现在我们在其他项目中使用数据驱动的方法来达成更好的解决方案。

具体来说,我目前正在从事的项目旨在找出热交换器结垢的根本原因。

问:读者如何与您取得联系?

19 条关于《Álvaro Lemos 如何在数据科学团队获得机器学习实习机会》的回复

  1. Tamara 2017年2月17日上午6:51 #

    非常有趣:)

  2. Herman 2017年2月17日上午10:01 #

    太棒了。

  3. Nick 2017年2月17日下午12:33 #

    恭喜 Álvaro!

    • Álvaro Lemos 2017年2月19日上午4:03 #

      谢谢!😀

  4. Surya Kunju 2017年2月18日凌晨12:34 #

    很棒的故事!

  5. Ruben 2017年2月18日凌晨5:51 #

    Muitos Parabens Alvaro!! 我完成了吴恩达的 Coursera 课程并获得了荣誉,我可以告诉你,这是我学到的关于机器学习的最佳课程之一。作为统计学家,机器学习实际上是一个非线性优化问题,所以这也是一个深入研究这个主题的好方向。

    • Jason Brownlee 2017年2月18日上午8:44 #

      谢谢你的留言 Ruben。恭喜你完成课程!

    • Álvaro Lemos 2017年2月19日上午4:05 #

      Obrigado, Ruben! 是的,我很喜欢那门课程,但它不是我当时和现在的重点,但既然我已经开始上了,我会回去完成它。

  6. Matheus Castro 2017年2月18日上午8:33 #

    嘿,这真的很不错 Álvaro!

    • Álvaro Lemos 2017年2月19日上午4:06 #

      谢谢哥们!

  7. Lucas Borges 2017年2月18日上午10:51 #

    好样的 Álvaro,从巴伊亚走向世界!

    • Álvaro Lemos 2017年2月19日上午4:06 #

      谢谢哥们!哈哈

  8. Bruno Carneiro 2017年2月19日晚上11:29 #

    很棒的故事!读起来很有趣!
    恭喜 Álvaro!你值得拥有!

    • Álvaro Lemos 2017年2月20日晚上8:20 #

      谢谢我的朋友!

  9. PJ 2018年6月11日晚上9:41 #

    我想知道在这里,在美国,是否有人会看没有数据/工程/计算机科学/统计学硕士学位的简历。我看到实习生是博士生……这让我觉得,获得学位的布尔值(真/假)总是(希望是)意见的问题。而且它可能因就业市场和国家而异。我正试图对没有学术背景的人获得机器学习工作的机会保持乐观,但这很难……

留下回复

Machine Learning Mastery 是 Guiding Tech Media 的一部分,Guiding Tech Media 是一家领先的数字媒体出版商,专注于帮助人们了解技术。访问我们的公司网站以了解更多关于我们的使命和团队的信息。