机器学习是一个迭代过程,而不是线性过程,随着对所研究问题的了解加深,需要重新审视每个步骤。这个迭代过程可能需要为每个过程使用许多不同的工具、程序和脚本。
机器学习工作台是一个支持和促进一系列机器学习活动的平台或环境,减少或消除了对多种工具的需求。
一些统计和机器学习工作台(如 R)提供了非常先进的工具,但需要通过脚本和编程进行大量手动配置。这些工具也可能很脆弱,由学术界编写并用于学术研究,而不是为了稳健并在生产环境中使用而编写。
使用我的新书《Weka 机器学习精通》启动您的项目,其中包括所有示例的逐步教程和清晰的截图。
什么是 Weka
Weka 机器学习工作台是用于应用机器学习的现代平台。Weka 是 Waikato Environment for Knowledge Analysis 的首字母缩写。它也是新西兰鸟类 Weka 的名字。
Weka 我喜欢推广的五个特点是
- 开源:它根据 GNU GPL 作为开源软件发布。它是双重许可的,Pentaho 公司拥有在其自己的产品中将该平台用于商业智能的独家许可。
- 图形界面:它具有图形用户界面 (GUI)。这允许您无需编程即可完成您的机器学习项目。
- 命令行界面:该软件的所有功能都可以从命令行使用。这对于编写大型作业的脚本非常有用。
- Java API:它用 Java 编写,并提供了一个文档完善的 API,促进了与您自己的应用程序的集成。请注意,GNU GPL 意味着您的软件也必须以 GPL 形式发布。
- 文档:有书籍、手册、维基和大型开放式网络课程可以培训您如何有效地使用该平台。
我推广 Weka 的主要原因是,初学者可以使用图形界面完成应用机器学习的过程,而无需进行任何编程。这意义重大,因为初学者应该学习掌握过程、处理数据和试验算法,而不是学习另一种脚本语言。
Weka GUI 简介
现在我想稍微展示一下图形用户界面,并鼓励您下载并试用 Weka。工作台提供了三种主要解决问题的方式:用于探索和尝试的 Explorer,用于受控实验的 Experimenter,以及用于图形化设计问题管道的 KnowledgeFlow。
Weka 探索器
探索器是您处理数据、思考要对数据应用哪些转换以及要在实验中运行哪些算法的地方。
探索器界面分为 5 个不同的选项卡
- 预处理:加载数据集并将数据操作成您想要使用的形式。
- 分类:选择并运行分类和回归算法以对您的数据进行操作。
- 聚类:选择并运行聚类算法以对您的数据集进行操作。
- 关联:运行关联算法以从您的数据中提取洞察力。
- 选择属性:对您的数据运行属性选择算法,以选择与您想要预测的特征相关的属性。
- 可视化:可视化属性之间的关系。
Weka 实验器
此界面用于使用您选择的算法和数据集设计实验、运行实验和分析结果。
分析结果的工具非常强大,允许您考虑和比较多次运行中具有统计学意义的结果。
在Weka机器学习方面需要更多帮助吗?
参加我为期14天的免费电子邮件课程,逐步探索如何使用该平台。
点击注册,同时获得该课程的免费PDF电子书版本。
知识流
应用机器学习是一个过程,知识流界面允许您图形化地设计该过程并运行您创建的设计。这包括加载和转换输入数据、运行算法以及呈现结果。
它是一个功能强大的界面和隐喻,用于图形化地解决复杂问题。
入门技巧
以下是一些快速入门的技巧
立即下载 Weka
它支持三大主流平台:Windows、OS X 和 Linux。找到适合您平台的发行版,下载、安装并启动它。您可能需要先安装 Java。安装程序包含许多标准的实验数据集(在数据目录中),您可以加载并进行练习。
阅读 Weka 文档
下载包中包含一个 PDF 手册 (WekaManual.pdf),可以帮助您快速入门。它非常详细和全面,并附有截图。网上还有大量的补充文档,请查看
别忘了那本书。如果您喜欢 Weka,那么买下这本书。它提供了应用机器学习的介绍以及 Weka 平台本身的介绍。强烈推荐。
Weka 的扩展和插件
Weka 上有很多插件算法、扩展甚至平台
Weka 在线课程
有两门在线课程教授使用 Weka 进行数据挖掘
Rushdi Shams 有一个精彩的 YouTube 视频频道,向您展示如何在 Weka 中完成许多特定任务。在此处查看他的Weka YouTube 频道。
您使用过 Weka 吗?请留言分享您的经验。
感谢 Jason 提供的详细信息!我是机器学习的初学者,刚刚完成了您提到的 4 个入门步骤。我将按照您的建议使用 Weka,并且还购买了您推荐的“数据挖掘”书籍。期待在机器学习方面获得专业知识。感谢您在博客上发布精彩文章并激励像我这样的初学者在机器学习领域建立职业生涯。
嗨 Jason,我也是机器学习的初学者。我开始使用 R 来实现一些用于分类的机器学习。我不太擅长 R——我只是在线上了一门入门课程。我通常只是从教科书(例如《统计学习导论》和《应用预测建模》)复制代码来分析我的数据。我想知道使用 Weka 是否会对我来说容易得多。Weka 相对于 R 有哪些优缺点?
你好 Anne,
复制粘贴代码是入门的好方法!
Weka 非常适合一次性项目,无需任何代码即可解决问题和运行实验。R 要求您用一种奇怪的语言编写代码,但提供了可用于分析的一些最强大/灵活的工具。
希望这些能作为一个开始有所帮助。
嗨,Jason,
Weka 中的过滤分类器如何工作?我理解更基本的分类器,但不理解这些分类器背后的思想。
V
您可以在此处了解有关算法如何工作的更多信息
https://machinelearning.org.cn/start-here/#algorithms
你好,
我开始了关于“医疗保健数据挖掘”项目的博士研究,我是一名初学者,对于选择 Weka 还是 Python/R 感到非常困惑。您能建议我哪种方法有助于我实现医疗保健数据挖掘项目目标吗?
从一个强大的流程开始,然后将工具映射到该流程。选择您了解/喜欢或具有能让您更快获得结果的功能的工具。
这是我推荐的流程
https://machinelearning.org.cn/start-here/#process
对于处理文本数据,我将认真考虑 Python 和 LSTM 深度学习方法。
我在这里提供 Python、R 和 Weka 入门帮助
https://machinelearning.org.cn/start-here/
嘿,Jason,我刚开始用 R 学习机器学习,现在过了一段时间,接下来我应该用 R 做什么,也就是说,您会建议什么策略来实现大的飞跃。
用 R 还是 Python 更好呢。
这里有像 Weka 这样的 R GUI 吗?
我认为 Python 是一个很好的重点关注领域
https://machinelearning.org.cn/python-growing-platform-applied-machine-learning/
嗨,Jason,
希望您一切安好。非常感谢您的好笔记。我是一名 Java 开发人员,计划学习机器学习。我需要坚持 Java 本身,还是需要开始学习 Python 进行机器学习?因为我懂 Java,但对 Python 了解不多。由于 Java 8 引入了函数式编程,我们可以继续使用 Java 本身吗?每当我搜索机器学习工作时,他们都会要求 R 或 Python 知识
您可以从任何语言开始,Java 很好。
也许这篇文章会有所帮助:
https://machinelearning.org.cn/java-machine-learning/
哇!Weka 看起来很有趣且有用。我有一个问题:它只支持经典的机器学习算法,如决策树和回归吗?还是允许创建更大的深度学习算法,如 CNN?如果不是,您知道是否有类似的 GUI 可以创建深度学习工作流吗?
提前感谢您的时间和关注!继续努力!
据我所知,只有小内存方法。可能有一些第三方插件可以进行深度学习,但我不太了解它们。
您好 Jason,我正在努力理解一些文本,有一个问题,什么是“分类问题”和“回归问题”?我理解分类适用于标称数据,回归适用于连续数据,但我对这如何成为一个问题感到困惑。其次,用户如何定义问题?
-aj
很好的问题,这篇文章可以帮助您定义问题
https://machinelearning.org.cn/how-to-define-your-machine-learning-problem/