机器学习中分类与回归的区别

分类和回归问题之间存在重要区别。

从根本上说,分类是关于预测一个标签,而回归是关于预测一个数量。

我经常看到诸如

如何计算我的回归问题的准确性?

诸如此类的问题,是由于不真正理解分类和回归之间的区别以及准确性试图衡量什么而造成的。

在本教程中,您将了解分类与回归的区别。

完成本教程后,您将了解:

  • 预测建模是关于学习输入到输出的映射函数的问题,称为函数逼近。
  • 分类是预测示例的离散类标签输出的问题。
  • 回归是预测示例的连续数量输出的问题。

让我们开始吧。

Difference Between Classification and Regression in Machine Learning

机器学习中分类与回归的区别
照片作者:thomas wilson,保留部分权利。

教程概述

本教程分为5个部分,它们是:

  1. 函数逼近
  2. 分类
  3. 回归
  4. 分类与回归
  5. 将回归问题转换为分类问题

函数逼近

预测建模是利用历史数据构建模型,对我们没有答案的新数据进行预测的问题。

预测建模可以描述为逼近输入变量 (X) 到输出变量 (y) 的映射函数 (f) 的数学问题。这被称为函数逼近问题。

建模算法的任务是在可用时间和资源的情况下找到最好的映射函数。

有关应用机器学习中函数逼近的更多信息,请参阅此帖

通常,我们可以将所有函数逼近任务分为分类任务和回归任务。

分类预测建模

分类预测建模是逼近输入变量 (X) 到离散输出变量 (y) 的映射函数 (f) 的任务。

输出变量通常称为标签或类别。映射函数预测给定观测值的类别或分类。

例如,一封电子邮件可以被分类为属于两个类别之一:“垃圾邮件”或“非垃圾邮件”。

  • 分类问题要求将示例分类到两个或多个类别之一。
  • 分类可以具有实值或离散的输入变量。
  • 具有两个类别的问題通常称为二分类或二元分类问题。
  • 具有两个以上类别的问題通常称为多分类问题。
  • 将示例分配给多个类别的问題称为多标签分类问题。

分类模型通常会预测一个连续值,作为给定示例属于每个输出类别的概率。概率可以解释为给定示例属于每个类别的可能性或置信度。通过选择概率最高的类别标签,可以将预测概率转换为类别值。

例如,一封特定的电子邮件文本可能被分配“垃圾邮件”的概率为 0.1,而“非垃圾邮件”的概率为 0.9。我们可以通过选择“非垃圾邮件”标签(因为它具有最高的预测可能性)将这些概率转换为类别标签。

有许多方法可以估计分类预测模型的技能,但也许最常见的是计算分类准确率。

分类准确率是所有预测中正确分类的示例的百分比。

例如,如果一个分类预测模型进行了 5 次预测,其中 3 次正确,2 次错误,那么仅基于这些预测的模型分类准确率将是

能够学习分类预测模型的算法称为分类算法。

回归预测建模

回归预测建模是逼近输入变量 (X) 到连续输出变量 (y) 的映射函数 (f) 的任务。

连续输出变量是实值,例如整数或浮点值。这些通常是数量,例如金额和尺寸。

例如,房屋的预测售价可能为特定美元价值,可能在 100,000 美元到 200,000 美元之间。

  • 回归问题需要预测一个数量。
  • 回归可以具有实值或离散的输入变量。
  • 具有多个输入变量的问题通常称为多元回归问题。
  • 输入变量按时间顺序排列的回归问题称为时间序列预测问题。

由于回归预测模型预测的是数量,因此必须将模型技能报告为这些预测中的误差。

有许多方法可以估计回归预测模型的技能,但也许最常见的是计算均方根误差,其缩写是 RMSE。

例如,如果一个回归预测模型进行了 2 次预测,一次是 1.5,预期值为 1.0,另一次是 3.3,预期值为 3.0,那么 RMSE 将是

RMSE 的一个好处是误差分数的单位与预测值的单位相同。

能够学习回归预测模型的算法称为回归算法。

有些算法的名称中包含“回归”一词,例如线性回归和逻辑回归,这可能会造成混淆,因为线性回归是回归算法,而逻辑回归是分类算法。

分类与回归

分类预测建模问题与回归预测建模问题不同。

  • 分类是预测离散类别的任务。
  • 回归是预测连续数量的任务。

分类和回归的算法之间存在一些重叠;例如

  • 分类算法可能会预测一个连续值,但该连续值是类别标签的概率形式。
  • 回归算法可能会预测一个离散值,但该离散值是整数数量的形式。

有些算法可以通过小修改同时用于分类和回归,例如决策树和人工神经网络。有些算法则不能,或不能轻易用于两种问题类型,例如用于回归预测建模的线性回归和用于分类预测建模的逻辑回归。

重要的是,我们评估分类和回归预测的方式各不相同,而且不重叠,例如

  • 分类预测可以使用准确率进行评估,而回归预测则不能。
  • 回归预测可以使用均方根误差进行评估,而分类预测则不能。

将回归问题转换为分类问题

在某些情况下,可以将回归问题转换为分类问题。例如,要预测的数量可以转换为离散的桶。

例如,介于 0 美元和 100 美元之间的连续范围内的金额可以转换为 2 个桶

  • 类别 0:0 美元至 49 美元
  • 类别 1:50 美元至 100 美元

这通常称为离散化,所得的输出变量是一个分类,其中标签具有有序关系(称为序数)。

在某些情况下,可以将分类问题转换为回归问题。例如,标签可以转换为连续范围。

有些算法已经这样做了,通过预测每个类别的概率,然后可以将该概率缩放到特定范围

或者,类别值可以排序并映射到连续范围

  • 类别 1:0 美元至 49 美元
  • 类别 2:50 美元至 100 美元

如果分类问题中的类别标签没有自然的序数关系,那么从分类到回归的转换可能会导致意外或糟糕的性能,因为模型可能会学习到一个虚假的或不存在的从输入到连续输出范围的映射。

进一步阅读

如果您想深入了解,本节提供了更多关于该主题的资源。

总结

在本教程中,您了解了分类与回归问题之间的区别。

具体来说,你学到了:

  • 预测建模是关于学习输入到输出的映射函数的问题,称为函数逼近。
  • 分类是预测示例的离散类标签输出的问题。
  • 回归是预测示例的连续数量输出的问题。

你有什么问题吗?
在下面的评论中提出你的问题,我会尽力回答。

240 条对《机器学习中分类与回归的区别》的回复

  1. Rizwan ali 2017年12月11日 7:14 am #

    很好的帖子,用于理清基本概念。

  2. shivaprasad 2017年12月11日 6:47 pm #

    真的很好,先生,我在这两个概念上有点困惑。非常感谢。

    • Jason Brownlee 2017年12月12日 5:27 am #

      很高兴它有帮助。

    • Bilal 2021年9月9日 9:12 pm #

      我对这个感到兴奋,谢谢。

  3. Kishore 2017年12月11日 8:54 pm #

    非常具体和清晰明了……希望您的书中也有更多这样的内容。

  4. James 2017年12月13日 12:02 am #

    “有些算法的名称中包含“回归”一词,例如线性回归和逻辑回归,这可能会造成混淆,因为线性回归是回归算法,而逻辑回归是分类算法。”

    感谢您的澄清,即使经历了这么长时间的机器学习,这个问题也一直困扰着我。

  5. Andrey Koch 2017年12月15日 5:36 am #

    这个主题我已知晓,但这篇文章直击要点,谢谢!

    有一点,在“分类可以具有实值或离散的输入变量”中,您可能指的是连续与离散。

  6. Derek Amah 2017年12月15日 5:44 am #

    非常基础且富有洞察力。我在招聘人才时也遇到过类似的误解,有时也会向人们解释这些概念。今后我将借鉴您的解释。谢谢!!!!

  7. Monsef 2017年12月15日 6:12 am #

    有价值的教程,Jason。

    非常感谢

  8. youssef 2017年12月15日 8:25 am #

    Merci bien pour votre clarification de la différences entre les deux types ..

  9. Manika.rao 2017年12月15日 4:15 pm #

    非常感谢您,先生。这确实是一篇关于机器学习基础知识的好文章……

  10. JP 2017年12月16日 3:20 am #

    嗨,Jason,

    这对初学者来说真的很有帮助。
    您能否为以下部分提供一个示例
    “将回归问题转换为分类问题”

  11. MJ 2017年12月18日 7:13 am #

    对重要概念的出色解释。喜欢您关于逻辑回归是分类问题的评论。回归这个词在刚开始时确实会让人感到困惑。

    • Jason Brownlee 2017年12月18日 3:22 pm #

      很高兴它有帮助!

    • Shivani Gupt 2020年7月27日 8:06 am #

      解释得非常好!非常感谢。
      请给我们一个将分类和回归预测模型相互转换的好例子!

  12. Idrees 2017年12月18日 5:32 pm #

    我真的开始关注机器学习了,对它完全是新手。感谢您富有启发性和深刻的解释。

  13. alejandro Camargo 2017年12月20日 5:31 am #

    谢谢!

  14. Mark 2017年12月29日 8:14 am #

    鉴于信息丢失,如何进行离散化过程的反向操作?例如,遵循上述示例,0 美元至 49 美元的值将由类别值 0 表示。

    我无法弄清楚反向操作是如何进行的,除非知道原始值(在本例中为美元价格)。

  15. Kamran 2018年1月1日 8:45 am #

    有没有关于使用 Python 和 Pima Indians 数据集实现 CNN 和 RNN 的帮助?

  16. JOHN JEFFRY MENDEZ 2018年1月22日 8:01 pm #

    很棒的博客!您能否解释一下如何确定模型预测的方差和偏差?

  17. doupanpan 2018年1月25日 5:11 am #

    感谢这篇帖子,解释得很清楚。另外,我正在考虑使用 Python 来尝试这些分类、回归模型等,是否有有用的在线教程可以学习?

  18. Oussama 2018年1月25日 7:37 am #

    很好的解释。谢谢。

  19. Dhanashree 2018年2月1日 9:08 pm #

    非常感谢,解释得很清楚!!

  20. Phil Mckay 2018年2月6日 1:56 am #

    嗨 Jason

    我是一名专利律师,以前是物理学爱好者。我写过几百篇关于软件的专利申请,主要是网络安全和云安全系统专利。最近,和所有领域一样,人工智能和机器学习尤其无处不在。我不害怕数学,但词汇量是个问题——直到我读了您的帖子。

    我无法告诉你我有多感激。如您所知,词汇量,至少是一致的词汇量使用,在数据科学和软件领域是个问题。您的帖子在短短几分钟的阅读中就澄清了许多问题——谢谢您!

    你是一个很棒的作家和老师。

  21. Wafa 2018年2月9日 4:04 am #

    你好,

    感谢您的精彩教程。
    您能否为我们提供一个关于如何使用迁移学习和 Tensorflow 对图像进行分类的教程?
    或者指导我去哪里可以找到像您一样出色的教程?

  22. Ali Shan 2018年2月21日 6:05 am #

    感谢您的努力和清晰的帮助。
    谢谢!

  23. hans 2018年3月5日 6:39 am #

    简单而有价值,谢谢。

  24. KK 2018年3月15日 6:06 pm #

    解释得非常清楚,实际上解决了我的问题。
    “如何计算我的回归问题的准确性?”这是我的实际问题,但现在已经清楚了。
    谢谢你,伙计!!

  25. Frederick Alfhendra 2018年3月30日 2:58 am #

    您好,您是否有关于参考资料的建议,例如期刊或书籍,我可以用来解释回归预测建模?

    谢谢你

  26. Frederick Alfhendra 2018年3月30日 12:50 pm #

    问题是,“为什么我们使用回归预测建模来进行股票指数预测”,任何建议都将不胜感激,谢谢您,先生。

  27. Abhijeet 2018年4月1日 下午4:57 #

    感谢 Jason 提供这么精彩的文章……你太棒了 Jason!!!

  28. disouja 2018年4月12日 下午7:38 #

    请举例说明什么是分类问题,什么是回归问题。如何知道一个问题是分类问题还是回归问题。

    • Jason Brownlee 2018年4月13日 上午6:39 #

      分类是预测一个标签(例如“红色”)。回归是预测一个数量(例如 100)。

      这有帮助吗?

  29. Julio Lee 2018年4月24日 下午1:28 #

    太棒了!谢谢分享!我最近在训练一个模型作为二元分类问题,使用 sigmoid 作为单一输出。然而,我发现使用 MSE 比二元交叉熵效果更好。既然 MSE 主要用于回归,这是否意味着我被迫将其转换为回归问题?这个问题一直在困扰我……

    • Jason Brownlee 2018年4月24日 下午2:51 #

      谢谢。

      MSE 搭配 sigmoid 输出函数?哇,它运行正常吗?

      在评估模型技能时要小心,确保它做的是你认为的。

  30. Rupesh 2018年5月2日 下午4:22 #

    谢谢……

  31. Danilo 2018年5月9日 上午3:25 #

    非常棒的文章!我非常欣赏您的工作,Jason Brownlee 博士。
    我有一个问题。如果我的因变量观测值是二分的,但我需要推断连续值,我应该执行哪种类型的任务?

    • Jason Brownlee 2018年5月9日 上午6:27 #

      如果您有分类输入并需要实值输出,这听起来像是回归,而且是一个具有挑战性的案例。

      也许您可以尝试将其直接建模为回归问题,看看效果如何。您可能需要对输入进行整数编码或独热编码。

      • Danilo 2018年5月9日 上午7:25 #

        非常感谢您的帮助!
        我使用了两种变体来确定我的连续输出:
        1. 分类模型中属于正类的概率。
        2. 回归模型的输出。
        就 CMC 曲线而言,分类模型的准确率优于回归模型。但我不敢确定我是否误解了某些结果。
        假设分类模型中属于正类的概率就是相似度,这是否可行?当分类器输出属于负类的概率 (p) 时,我计算的属于正类的概率为 1-p。

        • Jason Brownlee 2018年5月9日 下午2:55 #

          预测类别概率是一个分类问题。某些算法可以预测概率。

          • Danilo 2018年5月9日 下午3:17 #

            Jason 博士,非常感谢您的建议!您的建议对我的工作很有帮助。您非常 gentil 地分享了您的伟大知识!!!!

          • Jason Brownlee 2018年5月10日 上午6:26 #

            很高兴它有帮助。

  32. Jefferson Sankara 2018年6月6日 上午5:54 #

    亲爱的 Jason,

    这篇文章很好地解释了这些概念。感谢您提供使用 Python 的教程链接。

  33. damak 2018年6月15日 下午11:00 #

    这简直太棒了,并且它帮助我澄清了 ML 中的许多问题。谢谢 Brownlee 博士。

  34. Dhanushka Sanjaya 2018年6月16日 上午12:49 #

    谢谢这篇文章。非常有帮助。

  35. alejo 2018年7月9日 上午5:07 #

    你好,Jason。

    当一个问题有许多有序类别时会发生什么?例如,如果我想预测(我不知道)一场比赛的进球数(通常在 0 到 10 的范围内),这到底是分类问题还是回归问题?

    • Jason Brownlee 2018年7月9日 上午6:37 #

      没有规定。两者都尝试一下,看看哪一个能产生更好或更稳定的模型。

  36. James Y 2018年7月18日 上午4:48 #

    一个基本问题:分类器通常比回归器快,因为离散输出更容易计算吗?

  37. Shailendra 2018年7月19日 下午2:55 #

    非常感谢分享这个美丽的概念,我还在寻找更多。

  38. Vinit Tanna 2018年7月20日 上午8:16 #

    真的很有帮助。
    现在我的概念非常清晰了!!
    谢谢 🙂

  39. william 2018年7月29日 上午1:37 #

    这太棒了,再次感谢 Jason!

    是否存在一个特定的 RMSE 阈值,用于将回归问题转化为有序分类问题?例如 0.5?

    我可能完全错了,但似乎将回归的输出离散化只是人为地提高了预测模型的精度准确性……

    你怎么看?

    • Jason Brownlee 2018年7月29日 上午6:13 #

      我认为这取决于问题,以及将输出解释为离散数量是否有意义。

  40. Brandon 2018年8月11日 上午1:28 #

    谢谢

  41. Rawan 2018年9月13日 下午2:54 #

    谢谢 Jason!您的语言易于理解。

  42. Urise 2018年9月20日 下午5:39 #

    谢谢 Jason,这对我帮助很大。

    有一件事我需要确认,如果我使用 movielens 数据集来预测评分,回归预测是正确的,对吗?如果我在此情况下使用分类预测,我是否会得到错误的预测?

    • Jason Brownlee 2018年9月21日 上午6:25 #

      您可以选择将其建模为回归或分类。

      在机器学习中没有客观的“正确”,只有数据集和您的目标/利益相关者。

  43. Jani 2018年10月1日 上午4:06 #

    您能否举出一些具体的场景,例如一个要求实现线性回归的问题,另一个要求实现逻辑回归(分类)的问题,以便我们在 R 中实现?

    • Jason Brownlee 2018年10月1日 上午6:31 #

      预测数量时,使用线性回归。

      预测二元标签时,使用逻辑回归。

  44. JG 2018年10月2日 上午1:45 #

    你好 jason,
    谢谢。

    这个教程对我关于回归与分类(类别)的问题来说更加方便。

    如果您可以将模型从回归转换为分类,如您最后一节所述,应用回归(连续)还是分类(离散标签,例如您将连续输出分段并关联到一些人为的范围,如非常低、低、中、高、超级、超极、超绝,就像当前的频率频谱一样……)哪种模型表现更好?使用相同的通用层(输出层和激活函数除外)?

    • Jason Brownlee 2018年10月2日 上午6:27 #

      我们无法知道哪种方法对特定问题最有效,您必须进行系统性的实验并找出最有效的方法。

      这是应用机器学习的工作。

      • JG 2018年10月2日 上午8:09 #

        好的。谢谢。

  45. Data Scientist 2018年10月2日 上午3:51 #

    根据内容,您提到“分类算法可以预测一个连续值,但连续值是类别标签的概率。”

    根据摘要,您提到“分类是预测示例的离散类别标签输出的问题。”

    有点令人困惑。

    • Jason Brownlee 2018年10月2日 上午6:29 #

      抱歉,也许暂时忽略预测概率,然后专注于回归预测实值,分类预测标签。

  46. Anuja Deokar 2018年10月9日 上午2:47 #

    何时适合使用回归而不是分类?

    • Jason Brownlee 2018年10月9日 上午8:46 #

      当您想预测数量时,使用回归。

      当您想预测标签时,使用分类。

      这有帮助吗?

  47. Kotrappa 2018年10月16日 下午9:47 #

    讨论得很好,谢谢 Jason,我对分类和回归问题在现实世界中的应用很感兴趣,例如在汽车行业。

  48. Farhad 2018年10月28日 下午7:13 #

    嗨 Jason – 我希望输入是事件的名称,例如“游泳”,输出是“身体:80%,社交:10%,情感:10%”。

    另一个例子
    “烹饪”是“职业:30,社交:20,营养:50”。

    这显然不是分类问题,因为输出不是二元的。您是否同意最好使用回归模型来实现?

    谢谢,

    • Jason Brownlee 2018年10月29日 上午5:55 #

      这是多标签分类任务。

      抱歉,我没有此类任务的示例。

  49. Boo 2018年10月30日 上午10:48 #

    嗨 Jason。我希望您能帮助澄清。您说预测数量用回归,预测标签用分类。如果我感兴趣的是预测某物属于特定类别的概率,这是否仍然是分类问题?

  50. Vipin Chauhan 2018年11月9日 下午9:34 #

    您总是很棒,Jason。感谢您的所有努力。它澄清了我对这两种 ML 方法的疑问。

  51. Praveena Chandra 2018年11月12日 下午2:01 #

    嗨,Jason,
    感谢这篇非常有信息量的博文。我有一个问题。我想预测 Y,它可以根据自变量 (X) 取值 0 到 9 来取值 0、1 或 2。但是,还有 8 个额外的分类变量是我的控制变量。我想知道 X 是否能预测 Y。我执行了有序逻辑回归,但有人告诉我分类是更好的方法。我的问题是,如果还要考虑控制变量,如何进行分类?

    • Jason Brownlee 2018年11月12日 下午2:11 #

      也许模型可以接受因变量和控制变量作为输入并预测 y?

      另外,如果变量是序数/分类的,也许可以尝试独热编码。

  52. Max L. 2018年11月14日 下午7:48 #

    嗨,Jason,

    是否可以泛化回归和分类问题所需的数据量?
    依我之见,要给出关于某物数量的有效答案,需要更多的数据来学习,而不是“仅仅”说它是 1 或 0。或者回归/分类问题所需的数据量没有区别?
    感谢回答!

  53. Lolo 2018年12月19日 上午3:37 #

    谢谢您写了这篇很棒的文章。回到您开头的问题:“我如何计算回归问题的准确性?”我仍然不确定为什么这个问题不成立。如果您的回归模型预测的金额在 0 到 100 之间,我们是否仍然可以使用各种指标来评估预测的准确性(平均百分比误差、最大百分比误差、误差方差等)?

    • Jason Brownlee 2018年12月19日 上午6:38 #

      不。您计算回归问题的预测误差。

      您可以将回归问题转换为分类问题,预测标签(例如,以 10 美元的增量)并报告其准确性,但这可能不是建模问题的最佳方式(例如,更难)。

  54. nikita 2018年12月19日 上午6:34 #

    这个解释太棒了,伙计。我一个月前就已经深入学习过这些概念了。但直到我读了您的帖子,许多概念对我来说似乎都非常困难。我将在几天后开始一个 ML 项目,我无法表达您的帖子是多么清晰地澄清了我的概念。非常感谢!

  55. Kp 2018年12月27日 上午4:45 #

    对令人困惑的话题进行了精彩的解释。

  56. Abhishek 2018年12月29日 上午12:26 #

    为什么回归问题的输出被称为连续的?

    • Jason Brownlee 2018年12月29日 上午5:53 #

      这是一个实值数字,例如小数或无中断——连续的。

    • Gull Mohammad 2019年10月9日 上午5:50 #

      非常感谢,先生,精彩的解释。如何将单分类问题转换为回归问题?

      • Jason Brownlee 2019年10月9日 上午8:16 #

        这取决于问题,也许您可以将您的类别划分为在该领域有意义的有序值?

  57. Smriti 2019年1月11日 上午1:14 #

    非常清晰的解释!感谢您的努力。

  58. Adelin 2019年1月24日 下午8:10 #

    真是篇很棒的文章!非常感谢????

  59. Akanksha 2019年1月30日 下午7:17 #

    这是一篇很棒的文章!我读了很多文章来理解这个区别,但没有一篇能像这样清晰!谢谢!

  60. Aaron Dantley 2019年2月18日 上午6:43 #

    这真的很有帮助,Jason!谢谢这篇帖子。

  61. Mahmud 2019年2月19日 下午11:34 #

    您的文章太精彩了。
    您能否指导或撰写一篇关于 ML 其他问题(如聚类、排名、关联和相关性)的文章?

  62. Andana Anugrah 2019年2月23日 下午9:17 #

    如果我想进行具有离散输出的预测,该怎么做?例如,我想预测产品总数,输入是客户行为。我可以用回归来预测吗?

    • Jason Brownlee 2019年2月24日 上午9:07 #

      是的,我看不出有什么理由不行。

      • Andana Anugrah 2019年2月24日 下午11:06 #

        但是如果我用回归进行预测,输出将是连续的。
        假设输出是 67.3,实际上产品不能是小数。
        我该怎么办?我可以四舍五入输出吗?

        • Jason Brownlee 2019年2月25日 上午6:42 #

          也许您可以编写一些代码来进行后处理输出?

          也许您可以找到一种模型输出的替代表示方法,该方法可以正确地约束输出值。例如,离散类别?

  63. sam McCall 2019年2月28日 下午1:31 #

    你好医生!一个二类或双组分回归数据是什么意思?

  64. Javad 2019年3月16日 上午6:46 #

    你好,
    感谢您的教程。多类多标签分类问题的最佳策略是什么?例如,我们有三个输出,每个输出有三个类别。
    谢谢。

    • Jason Brownlee 2019年3月16日 上午8:02 #

      我希望很快会有关于这个主题的帖子。

  65. jessy 2019年4月24日 上午10:39 #

    你好 Jason,
    对于分类问题——预测是否可能……

  66. Balaji 2019年6月1日 下午8:08 #

    非常感谢!这篇帖子非常有帮助且简洁。

  67. elle 2019年7月2日 下午3:35 #

    Jason你好,读完这里我还是有点困惑。如何区分分类和回归方法?我的响应可能是分类的,但我的目的是估计每个类别的概率。这仍然是分类问题吗?响应类型是由方法决定的,还是由目的类型决定的?我好困惑。

  68. Jiawei Zhang 2019年7月4日 下午2:47 #

    嗨,Jason!

    非常感谢您进行这次教程。
    能否展示一些关于如何实现“范围在$0到$100之间可以转换为2个桶”的代码示例?

    我现在完成了一个LSTM回归模型,想将其转换为分类模型。我该如何确切地做到这一点?

    • Jason Brownlee 2019年7月4日 下午2:51 #

      抱歉,我无法为您准备代码。

      • Jiawei Zhang 2019年7月4日 下午3:14 #

        明白了。如果我想要预测的输出是-1、0、1,那么使用LSTM分类的最佳方法是什么?

        非常感谢您的回答

        • Jason Brownlee 2019年7月4日 下午3:18 #

          只有当输入是序列时,LSTM才适用。

          在这种情况下,您可以使用带有线性或tanh激活函数的Dense输出层,并使用MSE进行拟合。

  69. Vish 2019年7月27日 上午1:55 #

    将分类问题转换为回归问题。我正在采取类似的方法,并想了解更多细节。

    在哪里可以找到它?

    • Jason Brownlee 2019年7月27日 上午6:11 #

      这取决于具体的数据。

      也许可以尝试探索问题的几种不同表述方式,看看哪种效果更好?

  70. Francisco 2019年8月19日 上午11:48 #

    非常感谢您的帖子!!!!!

  71. Udaya Rayapur (Udax) 2019年8月26日 上午1:00 #

    感谢Jason提供宝贵信息和付出的努力。

  72. Nick 2019年9月23日 上午7:07 #

    Jason你好,我有点困惑。按照您的定义,逻辑回归不是回归而是分类,对吗?

    • Jason Brownlee 2019年9月23日 上午8:53 #

      没错!

      它是一个分类算法,名字取得糟糕透顶:)

      这是一个常见的困惑点,你不是一个人。

  73. Manish Rai 2019年11月1日 下午3:29 #

    很好的解释

  74. Jenny 2019年11月10日 下午9:14 #

    我数学不太好,但您解释和教授这些复杂事物的方式,即使像我这样普通人也能理解。

    谢谢!!

  75. Murilo Souza 2019年11月13日 下午10:32 #

    你好!我这几天一直在阅读您的教程,学到了很多!谢谢!

    我有一个关于为我的分类问题定义激活函数的问题。假设我有两个输出,一个有3个类别,另一个有2个类别,类似于这样

    输出 1

    类别 0:$0 到 $50
    类别 1:$51 到 $100
    类别 2:大于 $100

    输出 2

    类别 0:小于 $2000
    类别 1:大于 $2000

    我能否简单地将这些类别标记(抱歉,不知道这个术语是否正确)为-1、0、1表示第一个输出,以及-1、1(输出2)并使用双曲正切作为激活函数?

  76. George Zhou 2019年11月20日 上午4:56 #

    我经常听到人们在谈论回归问题时说“模型有多准确”。这是人们从小就习惯的说法。我该如何纠正他们?与其说“模型有多准确”,我们应该说什么?

    • Jason Brownlee 2019年11月20日 上午6:23 #

      您的模型误差是多少?
      您的模型的预测误差是多少?

  77. Herve 2019年11月22日 下午6:24 #

    非常清晰简洁,谢谢!

  78. Harish Varma Alluri 2019年12月14日 上午3:45 #

    先生,我正在进行种子分类和质量评估的机器学习工作。用于质量评估的指标是什么?是回归还是分类?

    • Jason Brownlee 2019年12月14日 上午6:24 #

      如果您预测的是一个数字,那么它是回归,您计算预测的误差。

      如果您预测的是一个标签,那么它是分类,您计算预测的准确性。

  79. Shiva Golla 2020年1月31日 下午2:35 #

    Jason你好,这篇帖子很有帮助,但我还有一些疑问。

    1) 我选择了AirBnb数据,并想根据用户的标准预测价格。我的意思是,我构建了一个模型,将我的示例数据输入以预测价格,它会给我一个特定的价格。这称为回归,对吗?

    2) 对于上述问题,我如何知道我的模型有多好?(例如计算方法)

    请帮助我。
    先谢谢您了。

  80. Najeh 2020年2月8日 下午8:48 #

    Jason你好,感谢您提供的精彩教程。
    我正在使用多重分形分析进行分类过程,您是否有关于这方面的教程?

  81. G. Hulli 2020年2月22日 上午2:44 #

    感谢Jason清晰的解释。

    网上有很多关于区分的文章,但没有一篇像您在这里总结得那样清晰简洁。

    很棒!
    祝好!

  82. David 2020年2月27日 上午9:33 #

    非常感谢您的文章,我比以前更能理解了。对了,我有一个关于您所写短语的小问题,因为我是机器学习的新手。这些短语
    具有两个以上类别的问題通常称为多分类问题。
    将示例分配给多个类别的问題称为多标签分类问题。
    我对这两个短语感到困惑。您能否在它们之间给我一些小例子?非常感谢。

    • Jason Brownlee 2020年2月27日 下午1:32 #

      谢谢。

      是的。

      多类别分类有 n 个互斥的类别,例如红色或蓝色。

      多标签分类有 n 个不互斥的类别,例如红色和/或蓝色,或者都不是。

  83. Fayaz Ahmad 2020年3月12日 下午9:13 #

    感谢Jason清晰的解释。

  84. Karon 2020年6月12日 上午11:53 #

    能否将一个包含回归+分类组合的问题分解?例如,一个数据集有两个度量,度量1是连续的,度量2是二元的。使用回归来处理度量,使用分类来处理度量2?

    • Jason Brownlee 2020年6月12日 下午1:38 #

      分类和回归指的是被预测的目标,通常是只有一个变量。您可能有一个或多个输入变量是标签或数字,但这不会影响预测问题是回归还是分类。

      这有帮助吗?

  85. Joachim 2020年7月1日 上午11:56 #

    线性回归和逻辑回归有什么区别?是否正确,在将所有训练数据都提高了指数并且然后对所有训练数据进行了归一化之后,逻辑回归使用了与线性回归完全相同的公式?

    • Jason Brownlee 2020年7月1日 下午1:23 #

      线性回归用于预测数值。

      逻辑回归用于预测二元类别标签。

  86. Heba 2020年7月4日 上午9:24 #

    感谢您提供如此有用的澄清。

    我有一个关于可解释人工智能(XAI)的担忧。根据文献,XAI通常应用于分类算法,而不是回归算法。这有令人信服的理由吗?

    谢谢…

    • Jason Brownlee 2020年7月5日 上午6:51 #

      抱歉,我不是可解释人工智能方面的专家,希望将来能写这方面的文章。

  87. Alan 2020年7月9日 下午8:20 #

    逻辑回归与分类有什么不同?

    如果逻辑回归给出0或1,是/否,这与分类有区别吗?

  88. Isa Bashir Salisu 2020年7月14日 下午9:54 #

    非常有信息量!!!
    非常感谢您的澄清。

  89. Kumar Amit 2020年8月24日 下午11:10 #

    嗨,Jason,

    可以使用 SGD 分类器进行少样本学习吗?

    我的需求是使用 NEW 离散类标签对模型进行增量训练(partial_fit),但在第一次 partial_fit 训练时,对于 NEW 类没有先验知识,就像 SGD 分类器使用 partial_fit 时那样。

    • Jason Brownlee 2020年8月25日 上午6:42 #

      我猜这取决于具体的数据集。

      也许可以尝试一下。

  90. Atta 2020年8月27日 上午4:51 #

    嗨,Jason,

    很棒的帖子,非常有信息量,特别是对于那些仅将其用作工具的人来说。

    您能否提供一些参考资料(书籍、论文等)?这样我们就可以购买书籍或引用您的信息。

  91. yanamandra sai sarvana 2020年9月5日 下午4:09 #

    很棒的帖子

  92. Dominic Stalder 2020年9月7日 下午2:57 #

    清晰直接的解释,谢谢!

  93. Jana 2020年9月14日 上午11:09 #

    发布的所有内容都很有道理。但是,请考虑一下,如果您
    创建一个很棒的标题?我不是说您的信息不好,但如果您添加
    一些能吸引人眼球的东西呢?我的意思是“机器学习中分类与回归的区别”有点无聊。
    您可以看看雅虎的首页,看看他们是如何创建帖子
    标题来吸引观众的。您可以尝试
    添加视频或图片来吸引人们对您所写内容的兴趣。
    这只是我的意见,也许会让您的帖子
    更生动一些。

  94. Dr S P Sreenivas Padala 2020年11月4日 下午8:08 #

    很棒的帖子。不仅是这篇文章,而是这个博客上的所有文章。这个博客是机器学习的维基百科。

    这些帖子是否都以目录或思维导图的形式进行了总结?我想将这些帖子按顺序连接起来。我觉得这比随机访问每篇文章更能帮助我们理解机器学习。

  95. Ammar Sani MY 2020年12月4日 上午4:55 #

    我曾经来这里是为了理解分类与回归。我认为我应该理解这些概念,因为WEKA中的简单逻辑回归是我分类问题的最佳分类器。

    但是,似乎这个分类器实际上在使用逻辑回归,我被它名字中的“回归”一词弄糊涂了。我正在思考并寻找答案,看我是否采取了正确的行动来确定我的最佳分类器。

    幸运的是,仅仅阅读这篇帖子就解决了我的所有问题。

    谢谢您!

  96. Dinesh Durgadas Darp 2021年1月14日 上午5:14 #

    非常棒且易于理解的文章。我喜欢这个页面并将其加入了书签。这篇文章将我的理解从0分类到了1(+ve)..

  97. Noel 2021年2月1日 下午3:27 #

    对于10岁的孩子来说,解释得非常棒。我非常需要这个。

  98. leonardo 2021年2月3日 上午10:36 #

    嗨,Jason,
    非常非常感谢!这(以及许多其他)对我的机器学习回归问题非常有帮助!

  99. Michael Owusu-Adjei 2021年4月16日 下午6:03 #

    很棒的教程

  100. mo 2021年5月4日 上午12:34 #

    逻辑回归实际上是分类问题。很高兴他们明确提到了这一点。

    • Jason Brownlee 2021年5月4日 上午6:46 #

      是的,逻辑回归用于二元分类。有史以来最糟糕的名字。

  101. tilkesh 2021年5月10日 下午8:32 #

    图像到图像的变换使用U-net是回归问题吗?

  102. Celiwe Kgowedi 2021年7月11日 上午6:25 #


    非常感谢您的教程。它帮助我为我的硕士研究获得了更多见解。

  103. Alfredo Soto 2021年7月25日 上午12:36 #

    对这些概念的解释非常清晰。
    非常感谢

  104. MAKAN 2022年2月7日 上午2:48 #

    Jason你好,我真的很喜欢您的教学,但我有一个问题。当我使用一个基本的神经网络来建模一个非线性回归时,我得到了比使用分类或聚类更好的结果。您认为我的哪个步骤出了问题?我使用的是一个简单的神经网络,有两层(输入和输出)。但是例如使用决策树等,我得到的结果很差。提前感谢🙂。

    • James Carmichael 2022年2月7日 12:07 下午 #

      你好 Makan…感谢你的反馈!你触及了一个关键的考虑因素…即在某些情况下,“简单”的网络实际上可以比更复杂的网络在给定应用中表现更好。因此,建议选择满足所需性能标准的最简单的模型。

  105. Elif A 2022年2月21日 上午5:10 #

    非常感谢你的澄清,这将对我项目的帮助很大????

    • James Carmichael 2022年2月21日 上午9:23 #

      不客气,Elif A!

  106. Christossy 2022年3月5日 上午6:50 #

    亲爱的Jason
    问候,
    抱歉,我旧的电脑坏了,里面的所有数据,包括我2022年2月10日购买的书籍都一起丢失了,我无法找回。所以,我恳请您能让我重新下载这些书籍,我真的需要您的帮助。这些书籍对我的学习和职业未来非常重要。这是转发的文件

    我希望您能考虑我的请求。

  107. shalini 2022年9月4日 下午11:43 #

    有些算法不能,或不容易用于两种问题类型,例如线性回归用于回归预测建模,逻辑回归用于分类预测建模?这个说法应该是反过来了,对吗?

    • James Carmichael 2022年9月5日 上午8:44 #

      你好 Shalini…你的理解是正确的!

  108. Adrian Olszewski 2023年11月17日 下午6:03 #

    逻辑回归“不是回归”,这仅限于机器学习领域。在其他领域,例如经典统计分析,实验研究(如临床试验)中,它主要用于回归和推断目的
    – 评估参数的方向、大小和统计推断
    – 分析边际效应(方向、大小、推断)
    – 推断主效应和交互效应(ANOVA、ANCOVA;此处称为偏差分析)
    – 推断具体比较(简单效应)通过对比;计划内和事后评估
    – 扩展十几种比例和优势比以及随机优越性的经典检验(z/chi2检验、Cochran-Mantel-Haenszel、Cochran-Armitage、Breslow-Day、McNemar / Cochran Q / Friedman、Mann-Whitney (Wilcoxon))
    – 实现逆概率加权
    – 实现倾向得分匹配。

    我每天在工作中都使用逻辑回归,从未将其用于分类。我们应该区分逻辑分类器(预测类别)和逻辑回归(预测——像任何其他回归一样——响应条件分布的函数;这里是 E(Y|X=x),当然是数值型的)。它最初是为解决回归问题而发明的(Cox、Nelder、Weddeburn、Hastie、Tibshirani),然后是概率回归,并被纳入了广义线性模型(GLM)的框架(包括线性、逻辑、泊松、伽马、贝塔等回归)。分类只是其在统计学中的一项应用。

    • James Carmichael 2023年11月18日 上午10:18 #

      感谢你的 input Adrian!

留下回复

Machine Learning Mastery 是 Guiding Tech Media 的一部分,Guiding Tech Media 是一家领先的数字媒体出版商,专注于帮助人们了解技术。访问我们的公司网站以了解更多关于我们的使命和团队的信息。