预测建模入门简介

当你是一个彻头彻尾的初学者时,这可能会非常令人困惑,甚至令人沮丧。

即使是那些事后看来如此简单的想法,在你第一次遇到它们时也会觉得陌生。你需要学习一种全新的语言。

我最近收到了这个问题

所以,如果以 鸢尾花练习 为例,如果我从花园里摘一朵花,我将如何使用算法来预测它是哪种花?

这是一个很好的问题。

在这篇文章中,我想对预测建模进行一个温和的介绍。

How to Develop an Auxiliary Classifier GAN (AC-GAN) From Scratch with Keras

预测建模入门简介

1. 样本数据

数据是关于你正在处理的问题的信息。

想象一下,我们想根据花的测量值来识别花的种类。

数据由四个厘米单位的花朵测量值组成,这些是数据的列。

数据的每一行都是一个经过测量且已知种类的花朵示例。

我们要解决的问题是,根据样本数据创建一个模型,该模型可以仅根据花朵的测量值来判断它属于哪种种类。

Sample of Iris flower data

鸢尾花数据样本

2. 学习一个模型

上面描述的这个问题被称为监督学习。

监督学习算法的目标是获取一些具有已知关系的数据(实际的花朵测量值和花朵的种类),并创建这些关系的模型。

在这种情况下,输出是一个类别(花朵种类),我们将这类问题称为分类问题。如果输出是一个数值,我们则称之为回归问题。

算法负责学习。模型包含学习到的关系。

模型本身可能只是一些数字以及一种利用这些数字将输入(以厘米为单位的花朵测量值)与输出(花朵的种类)关联起来的方法。

我们希望在从样本数据中学习到模型后保留它。

Create a Predictive Model

使用训练数据和算法创建预测模型。

3. 进行预测

我们不需要保留训练数据,因为模型已经总结了其中包含的关系。

我们保留从数据中学到的模型,是因为我们想用它来做预测。

在这个例子中,我们使用模型通过测量我们不知道种类特定花朵的尺寸。

我们的模型将读取输入(新的测量值),用其内部数字进行某种计算,并对它属于哪种花卉做出预测。

预测可能不完美,但如果你有良好的样本数据和从该数据中学到的健壮模型,它将相当准确。

Make Predictions

使用模型对新数据进行预测。

总结

在这篇文章中,我们对预测建模进行了非常温和的介绍。

我们探讨了预测建模的三个方面:

  1. 样本数据:我们收集的描述我们问题的数据,其中包含输入和输出之间的已知关系。
  2. 学习模型:我们对样本数据使用的算法,以创建一个我们可以反复使用的模型。
  3. 进行预测:在不知道输出结果的新数据上使用我们学习到的模型。

我们以根据花朵测量结果对植物种类进行分类为例。

这实际上是机器学习中一个著名的例子,因为它是一个干净的数据集,而且问题很容易理解。

行动步骤

花点时间真正理解这些概念。

它们是你可能在机器学习中进行的任何思考或工作的基础。

你的行动步骤是思考这三个方面(数据、模型、预测),并将它们与你想解决的问题联系起来。

如有任何问题,请在评论中提出。我在这里提供帮助。

预测建模的温和介绍的79条回复

  1. 沙扎德·巴达尔 2015年9月8日下午5:37 #

    确实是对基于机器学习的预测建模非常清晰、简洁的高层次概述,读得很棒,期待后续更多关于基于数据创建模型/假设的文章,同样在高层次的抽象上,将统计魔法留给高级阅读。

  2. Rhymeface 2015年9月8日下午10:26 #

    那么,除了机器学习,还有其他进行预测建模的方法吗?

    此外:所有机器学习算法(神经网络、决策树、支持向量机等)都可以被视为预测建模的一部分吗?

    • Jason Brownlee 2015年9月9日上午5:15 #

      好点子,Rhymeface。

      机器学习是我们用来创建预测模型的工具集。我们不一定要使用机器学习。例如,最简单的预测类型是使用平均值。
      我将它改写为预测建模是我们用机器学习解决的最常见问题类型(例如分类和回归问题)。

  3. 艾斯瓦娅 2015年9月9日下午6:36 #

    还有其他哪些预测建模方法?

    • Jason Brownlee 2015年9月13日上午9:02 #

      当然,如果有一个回归数据集,我可以给出迄今为止看到的平均值或最后看到的值作为对接下来预期值的预测。

      在分类问题中,我们可以将类别估计为最常观察到的类别。

      这些方法是纯粹的统计学,通常不那么有趣,但它们是未使用机器学习的预测建模示例。

    • Benjamin W 2021年11月25日下午5:11 #

      太棒了!简单到初学者都能理解。

  4. 保罗 S 2015年9月12日下午10:16 #

    您的文章非常清晰,我很高兴能从您的网站上阅读更多内容。我是机器学习和编码新手。我在数据可视化方面经验很少。但我在统计学方面有基本知识。我想,此时此刻,我想知道我应该从哪里开始学习创建算法来学习数据集。谢谢!

    • Jason Brownlee 2015年9月13日上午5:47 #

      保罗,很高兴你来到这里。

      我希望我能帮助你进行你的机器学习之旅。

  5. 2015年9月22日下午11:45 #

    你好,

    哪些学习机器可以用于预测?

    我已经阅读了你的以下文章
    (https://machinelearning.org.cn/a-tour-of-machine-learning-algorithms/#comment-316878)

    我能采用您提到的所有算法吗?以及支持向量机在您的列表中位于何处?

    致敬

  6. 拉梅什 2015年11月12日上午12:36 #

    你好,Jason

    这是一篇好文章。您有展示从训练数据创建模型的例子吗?我们是使用机器学习算法来创建预测模型,还是在用新数据创建模型之后使用算法?

    我是机器学习新手,正在探索将其用于故障检测问题。

  7. Justin Fong 2016年9月3日上午8:58 #

    这是一篇很棒的文章,谢谢。我正在努力成为一名数据科学家,并正在学习IBM的大数据大学课程,我需要这一部分关于什么是预测建模的澄清。

  8. Harshitha P K 2016年9月30日下午8:59 #

    这是一篇好文章,谢谢。如果有人能帮我开发一个模型或算法,以最佳方式加权移动窗口中的数据样本,那将非常有帮助。

  9. koti 2016年11月11日下午11:14 #

    我从未读过如此精彩的文章!我一次就完全理解了这个主题。感谢您的分享!!

  10. 斯坦福 2017年8月4日上午5:22 #

    我必须说,这是一篇好文章。我是机器学习新手,正在探索如何将其用于职业匹配或配对问题。我想知道这种类型的问题应该使用哪种算法和技术?

  11. Chanyawat 2018年2月28日下午8:48 #

    你能告诉我机器学习与预测建模有何不同吗?

  12. Chioma 2018年3月1日上午12:24 #

    这对我来说是个好消息。作为一个初学者,这正是我所需要的。我仍在努力消化它,根据我的工作——为我的语言构建一个形态分析器。需要更清晰的方向。谢谢Jason,你真是个福星!

  13. Cristiano 2018年4月10日下午11:08 #

    感谢杰森花时间整理这些资源,它们对我的学习非常有帮助,也很有趣。

  14. 沙拉斯 2018年5月11日下午5:50 #

    你好 Jason,

    感谢您的文章,我读得很开心。我渴望阅读更多内容。请进一步指导。我喜欢您的机器学习课程,并且正在亲自动手实践 🙂

    干杯,杰森!

  15. 阿莫 2018年5月19日下午3:40 #

    非常感谢 Jason。你让这些帖子尽可能简单,但没有遗漏深入研究该主题所需的最重要信息。

  16. 库马南 2018年5月25日下午5:31 #

    我如何将这些应用于美容院
    请给我一些建议

  17. 马赫什 2018年5月29日下午4:42 #

    嗨,Jason – 我对机器学习模型和机器学习算法之间有点困惑。我倾向于互换使用这两个词,这可能是错误的。您能举例说明一下吗?

  18. 穆尔塔扎 2018年7月3日下午3:57 #

    我对预测建模完全陌生,我应该从哪本书开始学习建模呢?
    我拥有工程学学士学位,所以我已经学过基础知识。

  19. Vajradehi 2018年9月4日下午10:19 #

    嗨,Jason,
    这是一篇非常好的文章。我正计划将机器学习用于不同零件的机械组装。建议用户选择哪些零件以便于组装。

    您能分享您在排序方面的经验吗?我想将排序与预测算法结合使用。我的思路正确吗?

    此致,

    Vajradehi Yadav

  20. 阮江 2018年10月3日下午8:12 #

    嗨,Jason,

    据我所知,机器学习有两种应用:回归和分类。那么,我如何将机器学习用于回归(非线性回归)呢?

    非常感谢!!

  21. 伊佐杜瓦 2018年10月6日上午11:42 #

    您的哪本书包含此解释?

    • Jason Brownlee 2018年10月6日上午11:44 #

      我没有一本关于机器学习绝对基本概念的书。我专注于教授如何“做”机器学习。

  22. 克里希那 2018年10月16日下午6:07 #

    杰森,文章写得太棒了。

    请写一篇关于在生产环境中部署机器学习模型的文章。

  23. 纳伦德拉 2018年11月1日下午6:17 #

    尊敬的杰森·布朗利先生,在阅读了您的博客后,我正朝着正确的方向努力成为机器学习专家。
    非常感谢。

  24. 阿萨德·汗 2018年11月29日上午12:44 #

    亲爱的杰森,读完你的书和文章后,我成了机器学习专家。请写一些关于大数据分析的文章。

    此致
    阿萨德·汗

  25. 唐·阿里亚斯 2019年1月9日下午7:40 #

    感谢上帝赐予你清澈如水的介绍,愿上帝保佑你。

  26. 苏拉吉 2019年5月23日上午7:14 #

    亲爱的杰森兄弟。
    几周以来,我一直在关注你的每一篇文章……感谢不足以表达……你简直太棒了……

    您能分享一下黑箱模型(特别是预测模型)的列表吗?

  27. 苏拉吉 2019年5月23日上午7:15 #

    我的另一个问题
    物联网是预测模型吗?

  28. 尼古拉斯·海姆佩尔 2019年6月13日上午7:14 #

    嗨 Jason,感谢您的文章!

    我有两个问题想问您。

    1) 本文所指的内容与更经典的统计方法(例如逻辑回归)有何不同?在我的领域,我们收集样本,对数据应用统计方法,并从数据中得出结论。对我来说,这似乎与步骤1、2和3相同。

    2) 有没有办法使您描述的过程是递归的?换句话说,通过重复抽样,以一种贝叶斯方式动态调整预测?我设想一个通过接触新数据而反复调整和改进的预测,最终接近“真实”参数。我对此类建模很感兴趣,因此欢迎任何关于Python库或ML技术的建议!

    祝好,
    尼克

    • Jason Brownlee 2019年6月13日下午2:29 #

      好问题。

      有很多重叠之处。应用机器学习的主要区别在于,重点从描述性模型转向了预测模型。例如,牺牲可解释性以追求预测能力,或者以结果优先(机器学习)而非模型优先(统计学)进行。

      一个很好的例子是,在统计学中,我们首先考虑使用线性回归或逻辑回归,然后将数据调整成符合我们预先选择的模型期望/要求的形状。在机器学习中,我们不太关心模型是什么,只关心什么效果最好。

      当然,模型可以在进行新观察或对数据进行新重新采样时重新拟合和重新评估。这可能会给你一些启发。
      https://machinelearning.org.cn/spot-check-machine-learning-algorithms-in-python/

  29. 阿卜迪 2019年7月7日下午5:59 #

    真的很有用的信息,我以前从未见过,感谢我们尊敬的Jason。

    我有6个月的移动网络历史数据,所以我需要使用非线性自回归技术预测这些时间序列数据,但我对提取数据集的训练和测试数据感到困惑。请大家支持我的Matlab模拟。
    使用非线性自回归技术预测这些时间序列数据,但我对提取数据集的训练和测试数据感到困惑。请大家支持我的Matlab模拟。

  30. 桑迪潘·萨卡尔 2019年7月19日上午4:14 #

    你好,杰森,
    我刚在“班加罗尔(印度)的JIGSAW ACADEMY”完成了数据科学课程,但我仍然对“预测建模”的含义有疑问。读完这篇文章后,我产生了一个新的灵感来源。
    这句话是最神奇的,它解释了一切:“你的行动步骤是思考三个方面(数据、模型、预测),并将它们与你想解决的问题联系起来。”

    此致
    桑迪潘·萨卡尔

  31. 切里内特·莫里斯 2019年8月4日下午9:54 #

    Jason Brownlee J,感谢您帮助年轻的开发者。我们感谢您为帮助感兴趣的人所做的努力。现在,我有一个问题。您能尝试解决这个问题吗:“如何将遗传算法应用于神经网络的反向传播学习阶段?”非常感谢。
    一个神经网络使用反向传播”??非常感谢。

    • Jason Brownlee 2019年8月5日上午6:52 #

      很抱歉,我没有使用遗传算法来寻找神经网络权重的例子。

      我希望将来能提供一个例子。

  32. 切里内特·莫里斯 2019年8月4日下午9:56 #

    它用于解决回归问题,如房价预测。

  33. 托西 2019年8月9日下午10:36 #

    我认为“我们不需要保留训练数据”这里有一个拼写错误。

    很棒的网站!我学到了很多,谢谢!

  34. 齐亚 2019年9月14日下午12:58 #

    感谢您对预测建模如此好的解释,您能提供代码链接吗?

  35. 约翰 2019年9月23日下午12:33 #

    如果我只有一个数据输入,并且没有输入,我应该应用什么技术和Python代码来预测,因为我只有一个随时间变化的变量,并且希望从它进行预测……

  36. 穆库尔·库马尔 2020年2月9日上午3:32 #

    先生,我没有信用卡,请问如何购买您的书?

  37. Guy Mak 2020年5月26日 下午1:32 #

    这是对预测建模“基本”概念的完美解释。向您致敬!!!

  38. Ariya Watthanakarnkitikun 2021年2月8日 上午2:06 #

    谢谢你。

  39. Shiv Malhotra 2021年4月22日 下午10:24 #

    对预测建模的精彩解释

  40. Akash V B 2023年12月28日 下午11:33 #

    很好的解释,对我们的学习很有帮助。
    谢谢先生。

    • James Carmichael 2023年12月29日 上午10:10 #

      你好Akash……不客气!感谢您的支持!

  41. Raakhi 2024年5月17日 下午3:22 #

    解释非常简洁明了。非常感谢!!

    • James Carmichael 2024年5月18日 上午7:35 #

      感谢您的反馈,Raakhi!我们感谢您的支持!

发表回复

Machine Learning Mastery 是 Guiding Tech Media 的一部分,Guiding Tech Media 是一家领先的数字媒体出版商,专注于帮助人们了解技术。访问我们的公司网站以了解更多关于我们的使命和团队的信息。