集成学习技术主要分为两大类:bagging 和 boosting。Bagging 通过聚合独立预测来提高稳定性和准确性,而 boosting 则通过顺序纠正先前模型的错误来逐步提高其性能。本博客文章将开始深入探讨 boosting,首先介绍梯度提升回归模型。通过其在 Ames […]

集成学习技术主要分为两大类:bagging 和 boosting。Bagging 通过聚合独立预测来提高稳定性和准确性,而 boosting 则通过顺序纠正先前模型的错误来逐步提高其性能。本博客文章将开始深入探讨 boosting,首先介绍梯度提升回归模型。通过其在 Ames […]
人工智能应用无处不在。我每天都使用 ChatGPT——它帮助我处理工作任务、制定计划,甚至充当我的责任伙伴。生成式 AI 不仅仅改变了我们的工作方式。它帮助企业简化运营、降低成本并提高效率。随着公司争相实施生成式 AI 解决方案,已经出现了 […]
本博客文章深入探讨了基于树的模型在 Ames Housing 数据集中的应用,特别是决策树、bagging 和随机森林。文章首先强调了预处理的关键作用,这是确保我们的数据最适合这些模型要求的基本步骤。从单个决策树开始的历程 […]
分类变量至关重要,因为它们通常携带影响预测模型结果的关键信息。然而,它们的非数字性质在模型处理中带来了独特的挑战,需要特定的编码策略。本文将首先讨论数据集中经常遇到的不同类型的分类数据。我们将深入探讨序数编码,并 […]
每个行业都利用数据来做出更明智的决策。但是原始数据可能混乱且难以理解。EDA 使您能够更好地探索和理解您的数据。在本文中,我们将通过简单的步骤和示例引导您完成 EDA 的基础知识,使其易于理解。什么是探索性数据分析? […]
使用真实数据集构建机器学习项目是应用您所学知识的有效方式。处理真实数据集将帮助您在清理和分析混乱数据、处理类别不平衡等方面学到很多东西。但是,要构建真正有用的机器学习模型,除了训练之外,还必须 […]
特征工程有助于改进模型性能。它涉及选择和修改数据以提高预测。本文解释了特征工程以及如何使用它来获得更好的结果。什么是特征工程?原始数据通常混乱且未准备好进行预测。特征是数据中的重要细节。它们有助于模型 […]
到目前为止,我们的讨论一直围绕线性模型家族。每种方法,从简单的线性回归到 Lasso 和 Ridge 等惩罚技术,都提供了关于基于线性关系预测连续结果的宝贵见解。在我们开始探索基于树的模型时,重要的是要重申我们的重点仍然是 […]
很少有数据科学项目能够免除数据清洗的必要性。数据清洗包括准备数据的初始步骤。其具体目的是仅保留数据中潜在的相关有用信息,无论是用于后续分析,还是用作 AI 或机器学习模型的输入,以及 […]
在我们之前对 Lasso、Ridge 和 ElasticNet 等惩罚回归模型进行的讨论中,我们演示了这些模型如何有效地处理多重共线性,使我们能够利用更广泛的特征来提高模型性能。在此基础上,我们现在将解决数据预处理的另一个关键方面——处理缺失值。缺失数据可能会严重影响 […]