如何从银行职员转变为 Target 的高级数据科学家

Santhosh Sharma 如何从
在银行贷款部门工作 转型为
获得 Target 的高级数据科学家职位。

Santhosh Sharma 最近联系我分享了他的励志故事,我想将它分享给你。

他的故事表明,对机器学习的热情、主动性、分享成果以及一点运气如何改变你的职业生涯,并让你深入应用机器学习领域。

阅读这篇采访后,你将了解

  • Santhosh 如何在 Kaggle 上公开展示他不断增长的机器学习技能。
  • Santhosh 所做的那种系统性工作的技术细节以及它为何值得关注。
  • 他如何利用公开的认可帮助他获得数据科学家的职位。

让我们开始吧。

你也有自己的成功故事吗?
请在评论中分享。

How to Go From Working in a Bank to Senior Data Scientist at Target

如何从银行职员转变为 Target 的高级数据科学家

问:请分享一些背景信息?

我拥有印度坎普尔理工学院的计算机科学与工程硕士学位,专业是并行与分布式计算。

问:你如何以及为何对机器学习产生兴趣?

我当时在银行的贷款部门工作。

该银行开发了一款软件,该软件使用机器学习来预测是否应该批准贷款申请。

在很多情况下,该软件的结果优于一些信贷员。

这项技术给我留下了深刻的印象,从那时起我就开始对机器学习产生兴趣。

问:机器学习大师是如何帮助你走上这条道路的?

机器学习大师帮助我精通了机器学习。就这样。

我没有数学和统计学背景。

我曾错误地认为我需要这些背景。

我花了近 3 年的时间才对机器学习算法有了很好的掌握。很多时间都浪费在学习许多理论性书籍中不必要的东西上。

使用机器学习大师书籍取得的进步,在很短的时间内极大地提高了我。我的技能。

问:分享你在 Kaggle 上的经历?

Kaggle 是一个学习机器学习的绝佳平台。

上面托管的数据集代表了真实的观察结果。世界各地的专家都在这些问题上发布解决方案。从这些解决方案中学习加速了我的学习过程。

这使得学习机器学习变得有趣且令人愉快。

问:你研究过哪个 Kaggle 数据集?

我研究了 Allstate 索赔严重性数据集。

我使用流行的回归算法,如 LR、Ridge、Lasso、Elastic Net 等,进行了抽查。

我使用 seaborn 库进行 EDA,使用 scikit-learn 库进行建模。

问:恭喜你获得了最受欢迎的 Kernel,它是怎么诞生的?

Santhosh Sharma Top Voted Kaggle Kernel

Santhosh Sharma 最受欢迎的 Kaggle Kernel
(目前是得票率第四的 Kernel)

所采取的方法灵感来自 ML Mastery Python 书籍中的食谱和方法。

在收到的 Kernel 反馈中,大多数用户表示它非常容易理解。

我感谢机器学习大师书籍教会了我如何处理机器学习问题。

我已将此应用到我所有的 Kernel 中。

问:你能否详细介绍一下你那个受欢迎的 Kernel 的步骤?

Kernel 可以直接在此处访问。

遵循的步骤与机器学习大师书籍中提到的方法一致。步骤如下。

Santhosh Sharma Top Voted Kaggle Kernel

Santhosh Sharma 最受欢迎的 Kaggle Kernel

数据统计

  • 训练集和测试数据集的形状
  • 预览 - 浏览数据
  • 描述 - 每列的最小值、最大值、平均值等
  • 偏度 - 每列数值的偏度,以检查是否需要进行校正

转换

  • 偏度校正 - 其中一列需要校正 - 我使用了对数转换

数据交互

  • 相关性 - 我只筛选了高度相关的对
  • 散点图 - 使用 seaborn 绘图

数据可视化

  • 箱线图和密度图 - 小提琴图显示了出色的可视化效果
  • 独热编码属性的分组 - 显示计数

数据准备

  • 分类数据的独热编码 - 许多列都是分类数据
  • 测试-训练分割 - 用于模型评估

评估与分析

  • 线性回归(线性算法)
  • 岭回归(线性算法)
  • Lasso 线性回归(线性算法)
  • 弹性网络回归(线性算法)
  • KNN(非线性算法)
  • CART(非线性算法)
  • SVM(非线性算法)
  • Bagged Decision Trees(装袋)
  • 随机森林(装袋)
  • Extra Trees(装袋)
  • AdaBoost(提升)
  • Stochastic Gradient Boosting(提升)
  • MLP(深度学习)
  • XGBoost

预测

  • 使用最佳模型(XGBRegressor)
  • 令人惊讶的结果:简单的线性模型,如 LR、Ridge、Lasso 和 ElasticNet,表现非常出色

问:恭喜获得新工作,你是怎么得到的?

我在 Kaggle 上最受欢迎的 Kernel 给我留下了深刻的印象,并将其展示给了面试官。

他对我的系统性方法和取得的结果印象深刻。

我将加入 Target 公司担任高级数据科学家。

问:你有什么计划在 Target 工作吗?

我下周就去上班。

我期待与团队合作,为 Target 数百万客户的购物体验带来微小的改变。

问:下一步是什么?

我期待 Machine Learning Mastery 关于时间序列的下一本书!

总结

在这篇文章中,你发现了 Santhosh 如何从银行职员转变为 Target 的高级数据科学家。

你了解到

  • Santhosh 将他学到的技能应用于 Kaggle 问题中的真实数据集。
  • 他公开分享了他的成果,展示了他人如何做到他所做的事情,从而通过顶级的 Kaggle Kernel 获得了信誉。
  • 最受欢迎的 Kernel 帮助 Santhosh 在 Target 获得了一份新的数据科学家工作。

那么,你能做什么?

  • 你是否正在使用真实数据集进行练习?
  • 你是否公开分享了你所学到的一切?
  • 你是否在帮助他人?

你的下一步是什么?
请在下方的评论中分享。

4 条回复关于如何从银行职员转变为 Target 的高级数据科学家

  1. Elie Kawerk 2016年12月7日 6:02 am #

    嗨,Jason,

    感谢这篇励志文章。你对完成 Udacity 的机器学习工程师 Nanodegree 有何看法?

    https://www.udacity.com/course/machine-learning-engineer-nanodegree–nd009

    它是与 Kaggle 合作创建的。

    此致

    • Jason Brownlee 2016年12月7日 8:57 am #

      抱歉,我不太了解。如果它看起来适合你,那就去吧。

      归根结底,学位和书籍要么被收进抽屉,要么放在架子上。

      你想要获得或支付的是交付成果的能力。

  2. Eagle4 2016年12月9日 10:46 am #

    恭喜 Santhosh 走上了职业道路!
    我的经历与 Santhosh 相似,在面试过程中也向我的老板展示了我的 Kaggle 成果!
    为了跟上 ML 的步伐,你的博客是我最喜欢阅读的网站之一,现在仍然是。

留下回复

Machine Learning Mastery 是 Guiding Tech Media 的一部分,Guiding Tech Media 是一家领先的数字媒体出版商,专注于帮助人们了解技术。访问我们的公司网站以了解更多关于我们的使命和团队的信息。