经验分布函数提供了一种对不符合标准概率分布的数据样本进行建模和抽样累积概率的方法。因此,它有时被称为经验累积分布函数,或简称 ECDF。在本教程中,您将了解经验概率分布函数。完成本教程后,您将[…]

经验分布函数提供了一种对不符合标准概率分布的数据样本进行建模和抽样累积概率的方法。因此,它有时被称为经验累积分布函数,或简称 ECDF。在本教程中,您将了解经验概率分布函数。完成本教程后,您将[…]
特征选择是在开发预测模型时减少输入变量数量的过程。为了降低模型的计算成本,并在某些情况下提高模型的性能,减少输入变量的数量是可取的。基于统计的特征选择方法涉及评估[…]之间的关系。
特征选择是识别和选择与目标变量最相关的输入特征子集的过程。在使用实值数据时,特征选择通常很简单,例如使用皮尔逊相关系数,但在处理分类数据时可能具有挑战性。最常用的两种特征选择[…]
像 Keras 中的模型一样,机器学习和深度学习模型要求所有输入和输出变量都是数值型的。这意味着,如果您的数据包含分类数据,则必须在拟合和评估模型之前将其编码为数字。最常用的两种技术是整数编码和独热编码 […]
在未来,对训练数据集执行的任何数据准备操作也必须对新数据集执行,这一点至关重要。这可能包括在评估模型时的测试数据集,或在使用模型进行预测时来自领域的新数据。通常,在训练数据集上拟合的模型会被保存 […]
许多机器学习算法的行为和性能被称为随机的。随机性是指一个变量过程,其结果涉及一些随机性并具有一定的不确定性。这是一个数学术语,与“随机性”和“概率性”密切相关,并且可以与“确定性”的概念形成对比。随机性[…]
使用 scikit-learn 等库,将模型拟合到训练数据集在当今非常容易。只需几行代码就可以在一个数据集上拟合和评估模型。它如此容易,以至于成了一个问题。相同的几行代码一遍又一遍地重复,而且它[…]
在 Python 中开发机器学习模型通常需要使用 NumPy 数组。NumPy 数组是处理 Python 中数据的有效数据结构,像 scikit-learn 库中的模型和 Keras 库中的深度学习模型一样,它们期望输入数据采用 NumPy 数组格式,并且[…]
机器学习是一个庞大的研究领域,它与人工智能等许多相关领域存在重叠并继承了其思想。该领域的重点是学习,即从经验中获取技能或知识。最常见的是,这意味着从历史数据中综合出有用的概念。因此,有许多不同类型的[…]
密度估计是估计来自问题域的观测样本概率分布的问题。通常,估计整个分布是难以处理的,取而代之的是,我们乐于拥有分布的期望值,例如均值或众数。最大后验估计或简称 MAP 是一种基于贝叶斯的[…]