神经网络使用梯度下降进行训练,其中用于更新权重的误差估计是根据训练数据集的一个子集计算得出的。用于误差梯度估计的训练数据集的示例数量称为批量大小(batch size),它是重要的超参数,[...]

神经网络使用梯度下降进行训练,其中用于更新权重的误差估计是根据训练数据集的一个子集计算得出的。用于误差梯度估计的训练数据集的示例数量称为批量大小(batch size),它是重要的超参数,[...]
批量归一化(Batch normalization)是一种旨在自动标准化深度学习神经网络层输入的 tecniche。一旦实现,批量归一化可以显着加速神经网络的训练过程,并在某些情况下通过适度的正则化效果来提高模型的性能。在本教程中,[...]
实际的深度学习是一个难以入门的主题。它通常以自下而上的方式教授,要求您首先熟悉线性代数、微积分和数学优化,然后才能最终学习神经网络技术。这可能需要数年时间,而且大部分背景理论都无法帮助您[...]
用包含几十个层的深度神经网络进行训练是具有挑战性的,因为它们可能对初始的随机权重和学习算法的配置非常敏感。造成这种困难的一个可能原因是在更新权重时,网络深层输入的分布在每个 mini-batch 之后可能会发生变化。这[...]
开发神经网络通常被称作一门“黑暗艺术”。之所以这样说,是因为精通开发神经网络模型的能力源于经验。没有可靠的方法可以分析性地计算出如何为您的特定数据集设计一个“好”或“最佳”的模型。您必须依靠经验和实验[...]
梯度消失(vanishing gradients)问题是您在训练深度神经网络时可能遇到的不稳定行为的一个例子。它描述了深度多层前馈网络或循环神经网络无法将有用的梯度信息从模型的输出端反向传播到靠近 [...] 的层中的情况。
在神经网络中,激活函数负责将节点加权输入的总和转换为节点的激活值或该输入的输出。ReLU(Rectified Linear Unit)激活函数是一种分段线性函数,如果输入为正,它将直接输出输入值,否则[...]
神经网络的训练过程是一个具有挑战性的优化过程,它可能经常无法收敛。这意味着训练结束时的模型可能不是稳定或表现最佳的权重集,无法作为最终模型使用。解决此问题的一种方法是使用平均[...]
模型集成(Model ensembles)可以实现比单个模型更低的泛化误差,但由于训练每个单个模型的计算成本,在使用深度学习神经网络时,开发模型集成具有挑战性。另一种方法是在单次训练运行中训练多个模型快照,并组合它们的预测以做出集成预测。这种方法的局限性在于[...]
监督学习(Supervised learning)具有挑战性,尽管这种挑战的深度常常在学习后被遗忘或被有意忽略。必然是这样,因为如果过度关注这种挑战,可能会导致悲观的看法。尽管存在挑战,我们仍然使用监督学习算法,并且它们在实践中表现良好。基础 [...]