许多机器学习算法的行为和性能被称为随机的。随机是指一个变量过程,其结果涉及一些随机性并具有一定的不确定性。它是一个数学术语,与“随机性”和“概率性”密切相关,可以与“确定性”的概念形成对比。随机性质 […]

许多机器学习算法的行为和性能被称为随机的。随机是指一个变量过程,其结果涉及一些随机性并具有一定的不确定性。它是一个数学术语,与“随机性”和“概率性”密切相关,可以与“确定性”的概念形成对比。随机性质 […]
如今,使用 scikit-learn 等库将模型拟合到训练数据集非常容易。只需几行代码即可在数据集上拟合和评估模型。这非常容易,以至于它已经成为一个问题。相同的几行代码会一遍又一遍地重复,并且它 […]
在 Python 中开发机器学习模型通常需要使用 NumPy 数组。NumPy 数组是处理 Python 中数据的有效数据结构,像 scikit-learn 库中的模型以及 Keras 库中的深度学习模型都期望输入数据是 NumPy 数组格式,并且 […]
机器学习是一个庞大的研究领域,与许多相关领域(如人工智能)重叠并从中继承思想。该领域的重点是学习,即从经验中获取技能或知识。最常见的是,这指的是从历史数据中综合有用的概念。因此,有许多不同类型的 […]
密度估计是为问题域中的样本观测估计概率分布的问题。通常,估计整个分布是难以处理的,因此,我们乐于获得分布的期望值,例如均值或众数。最大后验概率(Maximum a Posteriori)或简称 MAP 是一种基于贝叶斯的 […]
概率推理涉及使用概率模型估计期望值或密度。通常,直接推断值对于概率模型来说是难以处理的,因此必须使用近似方法。马尔可夫链蒙特卡洛(Markov Chain Monte Carlo)采样提供了一类算法,用于从高维概率分布中进行系统性的随机采样。与蒙特卡洛采样方法不同,它[…]
蒙特卡洛方法(Monte Carlo methods)是一类用于随机采样概率分布的技术。在许多问题领域中,描述或估计概率分布相对简单,但计算所需量是难以处理的。这可能是由于多种原因,例如领域中的随机性质或指数数量[…]
最大似然估计(Maximum likelihood estimation)是一种通过搜索概率分布及其参数来估计数据集密度的方法。它是一种通用且有效的方法,是许多机器学习算法的基础,尽管它要求训练数据集是完整的,即所有相关的交互式随机变量都存在。当[…]
模型选择(Model selection)是从一组候选模型中选择一个的问题。通常选择在保持的测试数据集上表现最佳的模型,或者使用重采样技术(如 k 折交叉验证)来估计模型性能。模型选择的另一种方法是使用概率统计度量 […]
逻辑回归(Logistic regression)是一种用于二元分类预测建模的模型。逻辑回归模型的参数可以通过称为最大似然估计的概率框架来估计。在该框架下,必须假定目标变量(类别标签)的概率分布,然后定义一个似然函数,该函数计算观察到的概率[…]