堆叠(Stacking)或堆叠泛化(Stacked Generalization)是一种集成机器学习算法。它使用元学习算法来学习如何最好地组合两个或多个基础机器学习算法的预测。堆叠的好处在于,它可以利用一系列在分类或回归任务上表现良好的模型的强大功能,并且 […]

堆叠(Stacking)或堆叠泛化(Stacked Generalization)是一种集成机器学习算法。它使用元学习算法来学习如何最好地组合两个或多个基础机器学习算法的预测。堆叠的好处在于,它可以利用一系列在分类或回归任务上表现良好的模型的强大功能,并且 […]
机器学习是一门研究领域,涉及从示例中学习的算法。分类是一项需要使用机器学习算法的任务,这些算法学习如何为问题域中的示例分配类别标签。一个易于理解的例子是将电子邮件分类为“垃圾邮件”或“非垃圾邮件”。 […]
聚类(Clustering)或聚类分析(Cluster Analysis)是一个无监督学习问题。它通常用作数据分析技术,用于发现数据中有趣的模式,例如基于客户行为的客户群体。有许多聚类算法可供选择,并且没有一种最佳的聚类算法适用于所有情况。相反,这是一个好的 […]
Argmax 是您在应用机器学习中可能遇到的数学函数。例如,您可能会在研究论文中看到“argmax”或“arg max”用于描述算法。您也可能被指示在您的算法实现中使用 argmax 函数。这可能是您第一次遇到 […]
梯度提升(Gradient Boosting)是一种强大的集成机器学习算法。它在结构化预测建模问题中很受欢迎,例如表格数据的分类和回归,并且通常是 Kaggle 等机器学习竞赛获胜解决方案中使用的主要算法或主要算法之一。梯度提升有许多实现 […]
特征重要性(Feature importance)是指为输入特征分配分数的技术,这些分数基于它们在预测目标变量方面的有用性。特征重要性分数有很多类型和来源,尽管流行的例子包括统计相关性分数、作为线性模型一部分计算的系数、决策树和置换重要性分数。特征重要性 […]
多输出回归(Multioutput regression)是指涉及根据输入示例预测两个或多个数值的问题。一个例子可能是根据输入预测坐标,例如,预测 x 和 y 值。另一个例子将是多步时间序列预测,这涉及预测给定变量的多个未来时间序列。许多机器学习 […]
距离度量(Distance measures)在机器学习中扮演着重要角色。它们为许多流行且有效的机器学习算法奠定了基础,例如监督学习的 k-最近邻(k-nearest neighbors)和无监督学习的 k-均值聚类(k-means clustering)。必须根据数据的类型选择和使用不同的距离度量。因此,了解 […]
数据清理(Data cleaning)是任何机器学习项目中的关键一步。在表格数据中,有许多不同的统计分析和数据可视化技术可用于探索数据,以识别可能需要执行的数据清理操作。在跳到复杂方法之前,有一些非常基本 […]
机器学习中的监督学习(Supervised learning)可以用函数逼近(function approximation)来描述。给定一个由输入和输 […]