Santhosh Sharma 如何从
在银行贷款部门工作 转型为
获得 Target 的高级数据科学家职位。
Santhosh Sharma 最近联系我分享了他的励志故事,我想将它分享给你。
他的故事表明,对机器学习的热情、主动性、分享成果以及一点运气如何改变你的职业生涯,并让你深入应用机器学习领域。
阅读这篇采访后,你将了解
- Santhosh 如何在 Kaggle 上公开展示他不断增长的机器学习技能。
- Santhosh 所做的那种系统性工作的技术细节以及它为何值得关注。
- 他如何利用公开的认可帮助他获得数据科学家的职位。
让我们开始吧。
你也有自己的成功故事吗?
请在评论中分享。

如何从银行职员转变为 Target 的高级数据科学家
问:请分享一些背景信息?
我拥有印度坎普尔理工学院的计算机科学与工程硕士学位,专业是并行与分布式计算。
问:你如何以及为何对机器学习产生兴趣?
我当时在银行的贷款部门工作。
该银行开发了一款软件,该软件使用机器学习来预测是否应该批准贷款申请。
在很多情况下,该软件的结果优于一些信贷员。
这项技术给我留下了深刻的印象,从那时起我就开始对机器学习产生兴趣。
问:机器学习大师是如何帮助你走上这条道路的?
机器学习大师帮助我精通了机器学习。就这样。
我没有数学和统计学背景。
我曾错误地认为我需要这些背景。
我花了近 3 年的时间才对机器学习算法有了很好的掌握。很多时间都浪费在学习许多理论性书籍中不必要的东西上。
使用机器学习大师书籍取得的进步,在很短的时间内极大地提高了我。我的技能。
问:分享你在 Kaggle 上的经历?
Kaggle 是一个学习机器学习的绝佳平台。
上面托管的数据集代表了真实的观察结果。世界各地的专家都在这些问题上发布解决方案。从这些解决方案中学习加速了我的学习过程。
这使得学习机器学习变得有趣且令人愉快。
问:你研究过哪个 Kaggle 数据集?
我研究了 Allstate 索赔严重性数据集。
我使用流行的回归算法,如 LR、Ridge、Lasso、Elastic Net 等,进行了抽查。
我使用 seaborn 库进行 EDA,使用 scikit-learn 库进行建模。
问:恭喜你获得了最受欢迎的 Kernel,它是怎么诞生的?

Santhosh Sharma 最受欢迎的 Kaggle Kernel
(目前是得票率第四的 Kernel)
所采取的方法灵感来自 ML Mastery Python 书籍中的食谱和方法。
在收到的 Kernel 反馈中,大多数用户表示它非常容易理解。
我感谢机器学习大师书籍教会了我如何处理机器学习问题。
我已将此应用到我所有的 Kernel 中。
问:你能否详细介绍一下你那个受欢迎的 Kernel 的步骤?
Kernel 可以直接在此处访问。
遵循的步骤与机器学习大师书籍中提到的方法一致。步骤如下。

Santhosh Sharma 最受欢迎的 Kaggle Kernel
数据统计
- 训练集和测试数据集的形状
- 预览 - 浏览数据
- 描述 - 每列的最小值、最大值、平均值等
- 偏度 - 每列数值的偏度,以检查是否需要进行校正
转换
- 偏度校正 - 其中一列需要校正 - 我使用了对数转换
数据交互
- 相关性 - 我只筛选了高度相关的对
- 散点图 - 使用 seaborn 绘图
数据可视化
- 箱线图和密度图 - 小提琴图显示了出色的可视化效果
- 独热编码属性的分组 - 显示计数
数据准备
- 分类数据的独热编码 - 许多列都是分类数据
- 测试-训练分割 - 用于模型评估
评估与分析
- 线性回归(线性算法)
- 岭回归(线性算法)
- Lasso 线性回归(线性算法)
- 弹性网络回归(线性算法)
- KNN(非线性算法)
- CART(非线性算法)
- SVM(非线性算法)
- Bagged Decision Trees(装袋)
- 随机森林(装袋)
- Extra Trees(装袋)
- AdaBoost(提升)
- Stochastic Gradient Boosting(提升)
- MLP(深度学习)
- XGBoost
预测
- 使用最佳模型(XGBRegressor)
- 令人惊讶的结果:简单的线性模型,如 LR、Ridge、Lasso 和 ElasticNet,表现非常出色
问:恭喜获得新工作,你是怎么得到的?
我在 Kaggle 上最受欢迎的 Kernel 给我留下了深刻的印象,并将其展示给了面试官。
他对我的系统性方法和取得的结果印象深刻。
我将加入 Target 公司担任高级数据科学家。
问:你有什么计划在 Target 工作吗?
我下周就去上班。
我期待与团队合作,为 Target 数百万客户的购物体验带来微小的改变。
问:下一步是什么?
我期待 Machine Learning Mastery 关于时间序列的下一本书!
总结
在这篇文章中,你发现了 Santhosh 如何从银行职员转变为 Target 的高级数据科学家。
你了解到
- Santhosh 将他学到的技能应用于 Kaggle 问题中的真实数据集。
- 他公开分享了他的成果,展示了他人如何做到他所做的事情,从而通过顶级的 Kaggle Kernel 获得了信誉。
- 最受欢迎的 Kernel 帮助 Santhosh 在 Target 获得了一份新的数据科学家工作。
那么,你能做什么?
- 你是否正在使用真实数据集进行练习?
- 你是否公开分享了你所学到的一切?
- 你是否在帮助他人?
你的下一步是什么?
请在下方的评论中分享。
嗨,Jason,
感谢这篇励志文章。你对完成 Udacity 的机器学习工程师 Nanodegree 有何看法?
https://www.udacity.com/course/machine-learning-engineer-nanodegree–nd009
它是与 Kaggle 合作创建的。
此致
抱歉,我不太了解。如果它看起来适合你,那就去吧。
归根结底,学位和书籍要么被收进抽屉,要么放在架子上。
你想要获得或支付的是交付成果的能力。
恭喜 Santhosh 走上了职业道路!
我的经历与 Santhosh 相似,在面试过程中也向我的老板展示了我的 Kaggle 成果!
为了跟上 ML 的步伐,你的博客是我最喜欢阅读的网站之一,现在仍然是。
感谢分享,很高兴听到这个消息!