Weka 机器学习工作台巡览

Weka 是一个易于使用且功能强大的机器学习平台。

它提供了大量的机器学习算法、特征选择方法和数据准备过滤器。

在这篇文章中,您将了解 Weka 机器学习工作台,并对您可以在机器学习项目中使用的一些关键界面进行一次探索。

阅读本文后,您将了解

  • Weka 机器学习工作台支持的界面。
  • 推荐初学者用来解决问题的界面,以及不推荐的界面。
  • 如何至少点击 Weka 中所需的每个关键界面并生成结果。

通过我的新书《Weka 机器学习精通启动您的项目,其中包含所有示例的分步教程和清晰的截图

让我们开始吧。

Weka GUI 选择器

Weka 界面的入口点是 Weka GUI 选择器。

它是一个允许您选择并启动特定 Weka 环境的界面。

Weka GUI Chooser

Weka GUI 选择器的截图

除了提供对核心 Weka 工具的访问外,它还在菜单中提供了一些额外的实用工具。

“工具”菜单中有两个重要的实用工具需要注意

1. 包管理器,它允许您浏览和安装 Weka 的第三方附加组件,例如新算法。

Weka Package Manager

Weka 包管理器的截图

2. ARFF-Viewer,它允许您加载和转换数据集并将其保存为 ARFF 格式。

Weka ARFF-Viewer

Weka ARFF-Viewer 的截图

在Weka机器学习方面需要更多帮助吗?

参加我为期14天的免费电子邮件课程,逐步探索如何使用该平台。

点击注册,同时获得该课程的免费PDF电子书版本。

Weka 资源管理器

Weka 资源管理器旨在调查您的机器学习数据集。

当您考虑不同的数据转换和建模算法时,它很有用,您可以在以后通过受控实验进行调查。它非常适合获取想法和进行假设情景分析。

界面分为 6 个选项卡,每个选项卡都有特定的功能

预处理选项卡用于加载数据集并应用过滤器,将数据转换为更适合建模过程的问题结构形式。还提供了加载数据的摘要统计信息。

加载 Weka 安装的 data/ 目录中的标准数据集,具体是 data/breast-cancer.arff。这是一个二元分类问题,我们将在本次探索中使用它。

Weka Explorer Preprocess Tab

Weka 资源管理器预处理选项卡的截图

分类选项卡用于训练和评估不同机器学习算法在您的分类或回归问题上的性能。算法被分成组,结果保存在结果列表中,并在主分类器输出中进行汇总。

点击“开始”按钮,在数据集上运行 ZeroR 分类器并汇总结果。

Weka Explorer Classify Tab

Weka 资源管理器分类选项卡的截图

聚类选项卡用于训练和评估不同无监督聚类算法在您的未标记数据集上的性能。与分类选项卡一样,算法被分成组,结果保存在结果列表中,并在主聚类器输出中进行汇总。

点击“开始”按钮,在数据集上运行 EM 聚类算法并汇总结果。

Weka Explorer Cluster Tab

Weka 资源管理器聚类选项卡的截图

关联选项卡用于自动查找数据集中的关联。这些技术通常用于市场篮分析类型的数据挖掘问题,并且需要所有属性都是分类的数据。

点击“开始”按钮,在数据集上运行 Apriori 关联算法并汇总结果。

Weka Explorer Associate Tab

Weka 资源管理器关联选项卡的截图

选择属性选项卡用于对加载的数据集执行特征选择,并识别那些最有可能与开发预测模型相关的特征。

点击“开始”按钮,在数据集上使用 BestFirst 搜索运行 CfsSubsetEval 算法并汇总结果。

Weka Explorer Select Attributes Tab

Weka 资源管理器选择属性选项卡的截图

可视化选项卡用于查看加载数据集中每个属性与所有其他属性绘制的成对散点图矩阵。它有助于了解属性的形状和关系,这可能有助于数据过滤、转换和建模。

增加点大小和抖动,然后点击“更新”按钮,以获得加载数据集的分类属性的改进图表。

Weka Explorer Visualize Tab

Weka 资源管理器可视化选项卡

Weka实验环境

Weka 实验环境用于设计受控实验、运行它们,然后分析收集到的结果。

这是使用 Weka 资源管理器之后的下一步,您可以在其中加载一个或多个数据集视图和一套算法,并设计一个实验来找到导致最佳性能的组合。

界面分为 3 个选项卡。

设置选项卡用于设计实验。这包括结果写入的文件、算法评估方式的测试设置、要建模的数据集以及用于建模它们的算法。实验的详细信息可以保存以供以后使用和修改。

  • 点击“新建”按钮创建一个新实验。
  • 点击“数据集”窗格中的“添加新…”按钮,并选择 data/diabetes.arff 数据集。
  • 点击“算法”窗格中的“添加新…”按钮,然后点击“确定”添加 ZeroR 算法。
Weka Experiment Environment Setup Tab

Weka 实验环境设置选项卡的截图

运行选项卡用于运行您设计的实验。实验可以启动和停止。没有太多内容。

点击“开始”按钮运行您设计的小实验。

Weka Experiment Environment Run Tab

Weka 实验环境运行选项卡的截图

分析选项卡用于分析从实验中收集到的结果。结果可以从文件、数据库或工具中刚刚完成的实验中加载。从给定实验中收集了许多性能指标,可以使用统计显著性等工具在算法之间进行比较。

  • 点击“来源”窗格中的“实验”按钮,加载您刚刚运行的实验结果。
  • 点击“执行测试”按钮,汇总实验中单个算法的分类准确率结果。
Weka Experiment Environment Analyse Tab

Weka 实验环境分析选项卡的截图

Weka KnowledgeFlow 环境

Weka KnowledgeFlow 环境是一个图形化工作流工具,用于设计从数据源到结果摘要的机器学习管道,以及更多功能。一旦设计完成,管道可以在工具内执行和评估。

Weka KnowledgeFlow Environment

Weka KnowledgeFlow 环境的截图

KnowledgeFlow 环境是一个强大的工具,我不建议初学者在掌握了 Weka 资源管理器和 Weka 实验环境的使用之前使用。

Weka 工作台

Weka 工作台是一个将所有 GUI 界面组合到一个界面中的环境。

如果您发现自己在两个或更多不同的界面之间频繁跳转,例如在资源管理器和实验环境之间,这将非常有用。这可能发生在您在资源管理器中尝试了许多假设情景,并迅速将所学知识应用于受控实验时。

Weka Workbench

Weka 工作台的截图

Weka SimpleCLI

Weka 可以通过简单的命令行界面 (CLI) 使用。

这功能强大,因为您可以编写 shell 脚本,通过带参数的命令行调用来使用完整的 API,从而无需图形用户界面即可构建模型、运行实验和进行预测。

SimpleCLI 提供了一个环境,您可以在其中快速轻松地试验 Weka 命令行界面命令。

Weka SimpleCLI

Weka SimpleCLI 的截图

与 Weka KnowledgeFlow 环境一样,这是一个强大的工具,我不建议初学者在掌握了 Weka 资源管理器和 Weka 实验环境的使用之前使用。

Weka Java API

Weka 也可以通过 Java API 使用。

这适用于 Java 程序员,当您想将学习或预测功能集成到自己的应用程序中时会很有用。

这是一个高级功能,我不建议初学者在掌握了 Weka 资源管理器和 Weka 实验环境的使用之前使用。

总结

在这篇文章中,您了解了 Weka 机器学习工作台。您探索了可以用于探索和开发自己的问题上的预测机器学习模型的关键界面。

具体来说,您学习了

  • 用于数据准备、特征选择和评估算法的 Weka 资源管理器。
  • 用于设计、运行和分析受控实验结果的 Weka 实验环境。
  • 用于图形化设计和执行机器学习管道的 Weka KnowledgeFlow 环境。
  • Weka 工作台,它将所有 Weka 工具整合到一个方便的界面中。
  • 用于从命令行使用 Weka API 的 Weka SimpleCLI。
  • Weka Java API,可用于将学习和预测功能集成到您自己的应用程序中。

您对 Weka 机器学习工作台或本文有任何疑问吗?请在下面的评论中提出您的问题,我将尽力回答。

探索无需代码的机器学习!

Master Machine Learning With Weka

在几分钟内开发您自己的模型

...只需几次点击

在我的新电子书中探索如何实现
使用 Weka 精通机器学习

涵盖自学教程端到端项目,例如
加载数据可视化构建模型调优等等...

最终将机器学习应用到你自己的项目中

跳过学术理论。只看结果。

查看内容

对《Weka 机器学习工作台一览》的 10 条回复

  1. Hunaina 2016 年 6 月 22 日 下午 8:47 #

    不错。

  2. Jon 2018 年 4 月 29 日 上午 4:52 #

    我必须承认,直到我看到您的博客,我才听说过 Weka。甚至我正在合作的一位经验丰富的数据科学家承包商,当我提到我将使用它起草一个即将到来的项目时,他甚至没有眨一下眼睛,我猜测他也不熟悉它。

    设置过程有些坎坷,但我已经腾出了明天的时间,准备认真钻研它。等不及了!

    • Jason Brownlee 2018 年 4 月 29 日 上午 6:29 #

      干得好,乔恩。

      对于小型一次性项目和无需代码探索问题来说,它是一个很棒的平台。

  3. Sifa 2020 年 11 月 3 日 下午 3:05 #

    多么精彩的概述,这也是我第一次听说这个了不起的平台。期待从中获得最大的收获。
    谢谢你

  4. Alausa 2022 年 3 月 24 日 下午 3:31 #

    这是我第一次听说 WEKA 工具。我真的需要这个平台来解决我的项目主题。使用数据挖掘技术从医疗记录中发现知识

    • James Carmichael 2022 年 3 月 25 日 下午 2:39 #

      谢谢你的反馈,Alausa!

  5. Sam 2024 年 1 月 5 日 下午 4:20 #

    亲爱的 Jason,
    我是 Weka 的初学者,对时间序列预测非常感兴趣。您能告诉我如何使用 Weka 的时间序列预测功能同时预测未来时间点的多个属性值吗?

    您是否必须逐个属性进行训练和预测?
    如果属性之间存在内在联系,“逐个”方法会产生错误的预测吗?

    感谢您的见解!

  6. Princess Leja 2024 年 6 月 1 日 下午 4:46 #

    Jason

    我浏览了整个教程,非常感谢。我的 CLI 无法显示光标在哪里。

发表回复

Machine Learning Mastery 是 Guiding Tech Media 的一部分,Guiding Tech Media 是一家领先的数字媒体出版商,专注于帮助人们了解技术。访问我们的公司网站以了解更多关于我们的使命和团队的信息。