随机子空间集成是由拟合在训练数据集中不同随机选择的输入特征(列)组上的相同模型组成。有许多方法可以在训练数据集中选择特征组,而特征选择是一类流行的数据准备技术,专门为此目的而设计。选定的特征 […]

随机子空间集成是由拟合在训练数据集中不同随机选择的输入特征(列)组上的相同模型组成。有许多方法可以在训练数据集中选择特征组,而特征选择是一类流行的数据准备技术,专门为此目的而设计。选定的特征 […]
引导聚合,或称为 bagging,是一种集成方法,其中每个模型都在训练数据集的不同样本上进行训练。Bagging 的思想可以推广到其他改变训练数据集并对每个改变版本的数据拟合相同模型的技术。一种方法是使用数据转换 […]
多元自适应回归样条,或 MARS,是一种用于复杂非线性回归问题的算法。该算法涉及找到一组简单的线性函数,这些函数总体上能产生最佳的预测性能。这样,MARS 就属于一类简单的线性函数集成,并且可以在具有挑战性的回归问题上取得良好的性能 […]
过拟合是导致预测模型性能不佳的常见原因。对学习动态的分析可以帮助识别模型是否过拟合了训练数据集,并可能建议使用可以获得更好预测性能的替代配置。对于算法来说,执行学习动态分析是直接的 […]
集成是一种机器学习方法,它结合了多个模型的预测,以期获得更好的预测性能。有许多不同类型的集成,尽管所有方法都有两个关键属性:它们要求贡献模型不同,以便它们做出不同的错误,并且它们以 […]方式结合预测。
随机爬山是一种优化算法。它在搜索过程中利用了随机性。这使得该算法适用于其他局部搜索算法运行不佳的非线性目标函数。它也是一种局部搜索算法,意味着它修改单个解决方案并在相对局部 […]中进行搜索。
曲线拟合是一种优化,它找到一个定义函数的最佳参数集,该函数最适合给定的一组观测值。与监督学习不同,曲线拟合要求您定义将示例输入映射到输出的函数。映射函数,也称为基函数,可以具有任何 […]
随机森林是一种流行且有效的集成机器学习算法。它广泛用于具有结构化(表格)数据集的分类和回归预测建模问题,例如电子表格或数据库表中的数据。随机森林也可用于时间序列预测,尽管它要求时间序列 […]
随机子空间集成是一种机器学习算法,它结合了在训练数据集不同列子集上训练的多个决策树的预测。随机变化用于训练集合中每个成员的列会产生集成中的多样性,进而可以提高性能 […]
机器学习算法,如逻辑回归和支持向量机,是为二分类(二元)分类问题设计的。因此,这些算法要么必须针对多类(多于两个)分类问题进行修改,要么根本不使用。纠错输出码方法是一种可以将多类分类问题重构为 […]的技术。