正确准备分类数据是机器学习的一个基础步骤,尤其是在使用线性模型时。独热编码(One Hot Encoding)作为一种关键技术,能够将分类变量转换为机器可理解的格式。本文将解释为什么不能直接使用分类变量,并演示独热编码在 [...] 中的使用。

正确准备分类数据是机器学习的一个基础步骤,尤其是在使用线性模型时。独热编码(One Hot Encoding)作为一种关键技术,能够将分类变量转换为机器可理解的格式。本文将解释为什么不能直接使用分类变量,并演示独热编码在 [...] 中的使用。
遵循奥卡姆剃刀原则,从简单入手通常能带来最深刻的见解,尤其是在构建预测模型时。在本文中,我们将使用 Ames Housing 数据集,首先找出那些本身就表现突出的关键特征。然后,我们将逐步叠加这些见解,观察它们如何共同 [...]
我们都经历过:开始是任何旅程中最艰难的部分。所以,开始进入机器学习领域也不会有任何不同。这就是为什么今天我想重点介绍一些每位初学者——或任何想开始学习机器学习的人——都应该使用的必备工具。Jupyter Notebook [...]
近年来,机器学习(ML)已成为一个热门词汇,其应用范围从语音助手到自动驾驶汽车。然而,对于许多人来说,这些技术背后的运作原理仍然是一个谜。播客提供了一种在不被压垮的情况下学习该领域知识的好方法。它们将复杂的概念分解成更简单的术语,让您 [...]
在本教程中,我们将探索检索增强生成(RAG)和 LlamaIndex AI 框架。我们将学习如何使用 LlamaIndex 构建一个基于 RAG 的应用程序,用于对私有文档进行问答,并通过整合内存缓冲区来增强该应用程序。这将使 LLM 能够使用来自 [...] 的上下文来生成响应。
为了更好地理解房价,我们模型的简洁性和清晰度至关重要。本文旨在展示如何通过简单而强大的特征选择和工程技术,来创建一个有效的、简单的线性回归模型。在处理 Ames 数据集时,我们使用顺序特征选择器(SFS)来识别 [...]
作为一名机器学习工程师或数据科学家,您很可能需要处理时间序列数据。时间序列分析侧重于按时间索引的数据,例如股票价格、温度等。如果您已经熟悉机器学习基础知识,但对时间序列不熟悉,本指南将为您提供五个 [...]
许多初学者一开始会依赖训练-测试方法来评估他们的模型。这种方法很直接,似乎能清楚地表明模型在未见过的数据上的表现如何。然而,这种方法有时会导致对模型能力的不完整理解。在本博客中,我们将讨论为什么 [...] 很重要。
如果您熟悉机器学习,您会知道训练过程允许模型学习表征它的参数(或模型系数)的最佳值。但是,机器学习模型也有一组超参数,您在训练模型时应该指定它们的值。那么,如何找到超参数的最佳值呢?[...]
统计学和机器学习都旨在从数据中提取见解,尽管它们的方法显著不同。传统统计学主要关注推断,使用整个数据集来检验假设并估计关于更大总体概率。相比之下,机器学习侧重于预测和决策,通常采用训练-测试拆分方法,模型从 [...] 中学习。