面对海量的机器学习算法,很容易感到不知所措。有太多可供选择,很难知道从哪里开始以及尝试什么。
选择可能会让人举足不前。
你需要克服这种恐惧,开始行动。
没有神奇的书本或课程可以告诉你何时使用哪种算法。事实上,在实践中,你无法提前知道。 你必须通过反复试验来发现它。这意味着你会犯一些错误。
在这篇文章中,你将发现一个简单的技巧,让你开始应用机器学习。
它会激发你深入研究的疑问,让你能够避免偏爱某种算法或工具,并加速你的机器学习之旅。
这是一个简单的策略,即使是经验丰富的从业者也会因为它的简单而忽略或忘记它。

机器学习的“Hello World”
照片作者:Faris Algosaibi,部分权利保留
熟悉机器学习算法
你需要建立对各种不同算法的信心。
你在解决机器学习问题方面的技能,很大程度上取决于你可用的工具以及你自信使用它们的能力。
第一步是打开一个工具或库,开始应用算法。就像学习编程一样,你需要从 “Hello, world!” 开始。应用机器学习中的“Hello, world!”是加载数据集并运行算法。
仅仅运行算法就能建立信心。
你应该运行大量的算法。运行给定工具或库提供的所有算法。然后尝试另一个库或工具。
你不想选择最喜欢的。没有最好的机器学习算法,如果你对所有问题都使用一种算法或一类算法,你将严重限制你所能取得的成果。
运行你的第一个算法
你会惊讶于许多对应用机器学习感兴趣的人,但实际上从未在一个问题上运行过算法。
你也会惊讶于一旦你做过之后,它有多么的微不足道,以及你前面还有多少东西。
过程很简单
- 选择一个工具。如果你不是程序员,我推荐 Weka,因为它提供图形用户界面。如果你是程序员,我推荐 Python 中的 scikit-learn 或 R。
- 选择一个标准数据集。我推荐 UCI 机器学习存储库 中的标准数据集,鸢尾花分类问题是一个经典的“Hello, world!”分类问题。
- 找到或设计一个方法。确定你将如何使用该工具加载数据集,将其划分为训练集和测试集,并运行一个算法来对该数据集进行预测。如果你使用 Weka,可以 遵循这个方法。我也有 R 中的 方法 和 scikit-learn 方法供你使用。
- 运行方法.
- 审查结果。考虑你获得的准确率,这意味着什么。算法是否提供了某些信息,考虑那可能意味着什么。
- 重复。尝试不同的算法,不同的算法配置或不同的数据集。运行大量的算法。
这很容易。事实上,它如此简单,以至于你应该执行这个过程,并熟悉使用所有伟大的机器学习工具和库来处理简单的问题。
除了选择最喜欢的算法之外,另一个问题是选择最喜欢的工具或库。
要真正有效,你需要处理问题并使用任何能给你带来更好结果的工具。学会如何熟练使用每种工具,但也要准备好随时切换工具。
用好奇心培养你的动力
你不需要理解问题、工具或算法。现在还不需要。你正在建立对工具及其功能的信心和熟悉度。
你应该开始产生这样的问题:
- 这个算法是如何工作的?
- 为什么这个算法比那个算法的结果更好?
- 所有这些算法参数意味着什么?
应用机器学习领域有很多东西需要学习,这就是为什么它是一个令人兴奋和激动人心的领域。
希望这个练习能激励你稍微深入一点,开始研究某个算法或算法参数来回答其中一些问题。
除了克服选择的瘫痪,建立对工具的信心和熟悉度之外,我希望这个练习能激发你的好奇心。那种“想知道”的欲望会让你走得很远,帮助你克服那些你以前认为难以理解的内容。
知道你现在可以随时在演示数据集上运行某个算法的美妙之处在于,你可以从书籍、博客和其他材料转向你的工具,尝试你阅读和学到的内容。这种将想法付诸实践的能力将扩展你的动力并加速你的学习。
更进一步
市面上有大量的工具,几乎和机器学习算法一样多。
我喜欢尝试它们中的大多数,只是为了看看它们提供什么以及它们能做什么。
你可以使用的一个技巧是将你自己的小方法或执行计划保存在文本文件、Word 文档或程序代码中。如果你以后又回到这个工具,这可以让你快速开始处理一个问题或算法。
你的好奇心会带你走得更远,你可能想开始建立一个 机器学习算法列表,描述算法 甚至 在小型研究项目中调查它们。
行动步骤
在这篇文章中,你发现了一个可以用来克服算法不知所措的简单技巧。这个技巧是跳进去,开始使用现成的工具和库将算法应用于小型内存中问题。
这个技巧的妙处在于,它让你熟悉算法和工具,但更重要的是,它能激发你对算法、其行为及其参数的好奇心。这种好奇心可以激励你为了知道更多而深入研究。
这种新的熟悉度还将为你提供一个基础,以便在你机器学习的旅程中遇到想法时,能够尝试并付诸实践,从而加速你的学习。
选择一个工具并运行你的第一个算法。
如果你仍然卡住,请 遵循这个分步教程在 Weka 中运行你的第一个机器学习算法。然后运行更多算法。
分享你的经验。你选择了哪个工具,运行了哪个算法,它引发了哪些问题?
暂无评论。