Weka 中机器学习问题处理模板

当你开始使用 Weka 时,你可能会感到不知所措。

可供选择的数据集、过滤器和算法太多了。

选择太多了。你可以做的事情太多了。

Too much Choice

选择过多
照片作者:emilio labrador,保留部分权利。

结构化的流程是关键。

我曾谈论过流程以及诸如算法抽样检查等任务的必要性,以克服不知所措并开始了解有关你问题有用信息。在这篇文章中,我想给你一个简化的流程版本,你可以用它来练习应用机器学习。

通过我的新书《Weka 机器学习精通》开始你的项目,书中包含分步教程和所有示例的清晰截图

问题解决模板

此模板是一个简化的流程,侧重于了解问题、找到一个好的解决方案,并且能够非常快速地完成。

它分为应用机器学习的六个步骤。每个步骤都分解为具体的要回答的问题,你可以通过使用Weka ExplorerWeka Experimenter 图形用户界面来回答。

流程的六个步骤及其目标如下:

  1. 问题定义
  2. 数据分析
  3. 数据准备
  4. 评估算法
  5. 4. 改进结果
  6. 5. 呈现结果

在接下来的部分中,我将总结流程每个步骤的关键问题。你可以打印出这些问题,或者将它们复制到一个文档中,创建你自己的模板文档。

在Weka机器学习方面需要更多帮助吗?

参加我为期14天的免费电子邮件课程,逐步探索如何使用该平台。

点击注册,同时获得该课程的免费PDF电子书版本。

1. 问题定义

问题定义的目的是理解并清楚地描述正在解决的问题。

问题描述

  1. 问题的非正式描述是什么?
  2. 问题的正式描述是什么?
  3. 你对这个问题有哪些假设?

提供的_数据_

  1. 选择数据时施加了哪些约束?
  2. 定义所提供数据集中的每个属性。

2. 数据分析

数据分析的目的是了解可用于开发模型的信息。

Attribute Histograms

显示类别值的属性直方图

  1. 属性是什么数据类型?
  2. 是否存在缺失或损坏的值?
  3. 回顾属性的分布,你注意到什么?
  4. 回顾类别值的分布,你注意到什么?
  5. 通过直方图回顾具有类别值的属性分布,你注意到什么?
  6. 回顾属性的成对散点图,你注意到什么?

3. 数据准备

数据准备的目的是发现并揭示数据集中的结构。

  1. 标准化数据集
  2. 标准化数据集
  3. 平方数据集
  4. 离散化属性(如果是整数)
  5. 删除和/或替换缺失值(如果存在)
  6. 创建数据集的转换,以检验在问题定义中提出的假设

4. 评估算法

评估算法的目的是开发一个测试平台和基线准确性,以供改进。

Algorithm ranking when analyzing results in the Weka Experimenter

在 Weka Experimenter 中分析结果时的算法排名

  1. 探索不同的分类算法
  2. 设计并运行一个抽样检查实验
  3. 审查和解释算法排名
  4. 审查和解释算法准确性
  5. 根据需要重复流程

5. 改进结果

改进结果的目的是利用结果开发更准确的模型。

算法调优

  1. 探索不同的算法配置
  2. 设计并运行一个算法调优实验
  3. 审查和解释算法排名
  4. 审查和解释算法准确性
  5. 根据需要重复流程

集成方法

  1. 探索不同的集成方法
  2. 设计并运行一个算法集成实验
  3. 审查和解释集成排名
  4. 审查和解释集成准确性
  5. 根据需要重复流程
  6. 能否通过其他元算法(例如阈值处理)来改进结果?
  7. 能否通过使用与表现良好的算法属于同一族的算法来改进结果?

6. 呈现结果

呈现结果的目的是描述问题和解决方案,以便第三方能够理解。

完成以下部分,以总结问题和解决方案。

  1. 问题是什么?
  2. 解决方案是什么?
  3. 有哪些发现?
  4. 有哪些局限性?
  5. 有哪些结论?

如何使用

Weka 安装的“data”目录中有许多有趣的数据集。在 UCI 机器学习存储库 上也有许多你可以下载和处理的数据集。

选择一个问题,并使用此模板来解决它。你会惊讶于自己学到了多少东西,以及这样一个结构化的流程可以在多大程度上帮助你保持专注。

总结

在这篇文章中,你了解了一个用于处理应用机器学习流程的结构化模板。此模板可以打印出来,并按步骤使用,以解决 Weka 机器学习工作台中的问题。

回答模板中每个步骤的具体问题,将能快速建立对问题和你解决方案的更深层次的理解,因为它们会逐渐展开。这非常有价值,就像实验室里的科学家笔记本一样。

探索无需代码的机器学习!

Master Machine Learning With Weka

在几分钟内开发您自己的模型

...只需几次点击

在我的新电子书中探索如何实现
使用 Weka 精通机器学习

涵盖自学教程端到端项目,例如
加载数据可视化构建模型调优等等...

最终将机器学习应用到你自己的项目中

跳过学术理论。只看结果。

查看内容

《Weka 机器学习问题解决模板》的 2 条回复

  1. Jesús Martínez 2018年3月9日 上午3:18 #

    很好且有用的流程,Jason。谢谢分享。

留下回复

Machine Learning Mastery 是 Guiding Tech Media 的一部分,Guiding Tech Media 是一家领先的数字媒体出版商,专注于帮助人们了解技术。访问我们的公司网站以了解更多关于我们的使命和团队的信息。