数据科学在获得其名称之前最初被称为统计分析,因为那是从数据中提取信息的主要方法。随着技术的最新进展,机器学习模型被引入,扩展了我们分析和理解数据的能力。有许多机器学习模型可用,但你不需要 […]

数据科学在获得其名称之前最初被称为统计分析,因为那是从数据中提取信息的主要方法。随着技术的最新进展,机器学习模型被引入,扩展了我们分析和理解数据的能力。有许多机器学习模型可用,但你不需要 […]
作为数据科学家,我们经常在数据准备、模型开发和优化上投入大量时间和精力。然而,我们工作的真正价值在于我们能够有效地解释我们的发现并将其传达给利益相关者。这个过程不仅涉及理解我们模型的技术方面,还涉及将复杂的分析转化为 […]
特征工程和模型训练构成了将原始数据转化为预测能力的核心,连接了初始探索和最终洞察。本指南探讨了识别重要变量、创建新特征和选择适当算法的技术。我们还将介绍基本的预处理技术,例如处理缺失数据和编码分类变量。这些方法适用于 […]
高效的数据科学项目始于坚实的基础。本指南将引导你完成基本的初始阶段:理解你的数据、定义项目目标、进行初步分析以及选择适当的模型。通过仔细应用这些步骤,你将增加产生可操作见解的机会。让我们开始吧。 理解你的数据是 […]
梯度提升算法是预测任务的强大工具,而 CatBoost 因其高效处理分类数据而广受欢迎。这对于包含大量分类特征(如社区、房屋风格和销售条件)的 Ames 住房数据集尤其有价值。CatBoost 通过其创新的“有序目标统计”方法擅长处理分类特征。 […]
LightGBM 是一个高效的梯度提升框架。它因其速度和性能而受到关注,尤其是在大型复杂数据集上。这个由微软开发的强大算法以其独特的处理大量数据的能力而闻名,与传统方法相比,它具有显着的简便性。在这篇文章中,我们将实验 […]
XGBoost 因其在众多 Kaggle 竞赛中令人印象深刻的表现而广受认可,使其成为解决复杂机器学习挑战的首选。这种强大的算法以其处理大型数据集的效率而闻名,以其实用性和有效性而脱颖而出。在这篇文章中,我们将把 XGBoost 应用于 Ames 住房数据集,以 […]
集成学习技术主要分为两类:bagging 和 boosting。Bagging 通过聚合独立预测来提高稳定性和准确性,而 boosting 则顺序纠正先前模型的错误,每次迭代都提高它们的性能。本文将深入探讨 boosting,从梯度提升回归器开始。通过将其应用于 Ames […]
本文深入探讨了基于树的模型(特别是决策树、bagging 和随机森林)在 Ames 住房数据集中的应用。它首先强调了预处理的关键作用,预处理是一个基本步骤,可确保我们的数据针对这些模型的要求进行最佳配置。从单个决策树到 […]
分类变量至关重要,因为它们通常包含影响预测模型结果的基本信息。然而,它们的非数字特性在模型处理中带来了独特的挑战,需要特定的编码策略。本文将首先讨论数据集中常见的不同类型的分类数据。我们将深入探讨序数编码和 […]