特征重要性是指将分数分配给输入特征的技术,这些分数基于它们在预测目标变量方面的有用性。特征重要性分数有多种类型和来源,尽管流行的例子包括统计相关性分数、作为线性模型一部分计算的系数、决策树以及置换重要性分数。特征重要性 […]

特征重要性是指将分数分配给输入特征的技术,这些分数基于它们在预测目标变量方面的有用性。特征重要性分数有多种类型和来源,尽管流行的例子包括统计相关性分数、作为线性模型一部分计算的系数、决策树以及置换重要性分数。特征重要性 […]
多输出回归是回归问题,涉及根据输入示例预测两个或多个数值。一个例子可能是根据输入预测坐标,例如预测 x 和 y 值。另一个例子是多步时间序列预测,涉及预测给定变量的多个未来时间序列。许多机器学习 […]
距离度量在机器学习中起着重要作用。它们为许多流行且有效的机器学习算法奠定了基础,例如监督学习的 k-近邻和无监督学习的 k-均值聚类。必须根据数据的类型选择和使用不同的距离度量。因此,了解 […]
数据清理是任何机器学习项目中至关重要的一步。在表格数据中,您可以使用许多不同的统计分析和数据可视化技术来探索数据,以识别您可能想要执行的数据清理操作。在转向复杂方法之前,有一些非常基本 […]
机器学习中的监督学习可以描述为函数逼近。给定一个包含输入和输出的数据集,我们假设存在一个未知的底层函数,该函数在将输入映射到目标域中的输出方面是一致的,并产生了数据集。然后,我们使用监督学习算法来逼近 […]
多类别分类问题是指必须预测一个类别标签,但可能存在两个以上的类别。这些是具有挑战性的预测建模问题,因为模型需要足够具有代表性的每个类别的示例数量才能学习问题。当数量 […]
多类别分类问题是指必须预测一个类别标签,但可能存在两个以上的类别。这些是具有挑战性的预测建模问题,因为模型需要足够具有代表性的每个类别的示例数量才能学习问题。当数量 […]
欺诈对信用卡公司来说是一个主要问题,原因在于每天完成的交易量很大,而且许多欺诈交易看起来与正常交易非常相似。识别欺诈性信用卡交易是一种常见的、不平衡的二元分类类型,其中重点是积极类别(是否 […]
分类预测建模问题涉及为给定的输入集预测类别标签。这通常是一个具有挑战性的问题,特别是如果对数据集了解不多,因为有数十种甚至数百种机器学习算法可供选择。如果分布 […]
许多二元分类任务没有相同数量的各类别示例,例如类别分布倾斜或不平衡。一个流行的例子是成人收入数据集,该数据集涉及根据诸如关系和教育水平等个人详细信息来预测年收入是否高于或低于 50,000 美元。有 […]