微软最近在其 Azure 云计算平台中增加了对机器学习的支持。在其技术文档中,有一些资源可能有助于您思考在不同情况下应使用哪种机器学习算法。在本帖中,我们将了解微软的建议 [...]

微软最近在其 Azure 云计算平台中增加了对机器学习的支持。在其技术文档中,有一些资源可能有助于您思考在不同情况下应使用哪种机器学习算法。在本帖中,我们将了解微软的建议 [...]
最近有一个问题是“如何避免在 ML 脚本运行时浪费时间/拖延?”。我认为这是一个重要的问题。我认为这个问题的答案反映了您工作方法中的组织程度或成熟度。我在这个问题上留下了一个小评论,但在本帖中我将详细阐述 [...]
在最近的一次演讲中,Ben Hamner 描述了他和他的同事在 Kaggle 竞赛中观察到的机器学习项目的常见陷阱。这次演讲的标题是“机器学习小妖精”,并于 2014 年 2 月在 Strata 上发表。在本帖中,我们将探讨 Ben 演讲中的陷阱,它们是什么样的以及如何 [...]
在 2010 年的一篇帖子中,Hilary Mason 和 Chris Wiggins 将 OSEMN 流程描述为数据科学家应该熟练掌握的任务分类。该帖子的标题是“数据科学分类法”,发表在已失效的 dataists 博客上。此流程也用作 [...]
在最近的 MLConf 会议上,Xavier Amatriain 描述了他作为 Netflix 研究/工程经理在构建机器学习系统时学到的 10 个经验。在本文中,您将从他的演讲和幻灯片摘要中发现这 10 个经验。10 个经验 Xavier 提出的 10 个经验可以总结为 [...]
最常报告的分类器性能度量是准确率:正确分类的百分比。该指标的优点是易于理解,并且可以轻松比较不同分类器的性能,但它忽略了在诚实评估性能时应考虑的许多因素 [...]
在应用机器学习中,您经常需要从一个问题跳到另一个问题,并且需要快速了解一个新数据集。您可以用来快速建立与新数据问题的关系的一种经典且未被充分利用的方法是探索性数据分析。在本帖中,您将了解探索性数据分析 (EDA) [...]
我们生活在一个数据泛滥的世界。互联网追踪、股票市场波动、基因测序技术及其类似技术都产生了海量数据。其中大部分数据是别人的责任,由别人生成,存储在别人的数据库中,而这个数据库由……您猜对了……别人维护和提供。但是。 [...]
我们都知道运行分析并看到结果如我们所愿的那种满足感:80% 的准确率;85%;90%?写报告时,我们很容易就转向报告的“结果”部分,然后把数字填进去。但是等等:一如既往,事情并没有那么简单。屈服于 [...]
在我的课程和指南中,我教授在深入研究算法的抽样检查之前准备基线结果。我的一个学生最近问:如果一个问题没有计算基线,这是否会使其他算法的结果受到质疑?他接着问:如果其他算法的准确率没有提高 [...]