我们已经了解了如何在一个英语和德语句子对的数据集上训练 Transformer 模型,以及如何绘制训练和验证损失曲线来诊断模型的学习性能并决定在哪个 epoch 上对训练好的模型进行推理。我们现在准备对 […] 进行推理。

我们已经了解了如何在一个英语和德语句子对的数据集上训练 Transformer 模型,以及如何绘制训练和验证损失曲线来诊断模型的学习性能并决定在哪个 epoch 上对训练好的模型进行推理。我们现在准备对 […] 进行推理。
我们之前已经了解了如何为神经机器翻译训练 Transformer 模型。在继续对训练好的模型进行推理之前,让我们首先探讨一下如何稍微修改训练代码,以便能够绘制在学习过程中生成的训练和验证损失曲线。训练和 […]
我们已经构建了完整的 Transformer 模型,现在我们可以为神经机器翻译训练它。为此,我们将使用一个包含简短英语和德语句子对的训练数据集。我们还将回顾掩码在计算训练过程中的准确率和损失指标中的作用 […]
我们已经到了一个节点,我们已经单独实现了 Transformer 编码器和解码器并进行了测试,现在我们可以将两者合并成一个完整的模型。我们还将了解如何创建填充掩码和前瞻掩码,通过它们我们将抑制不会被 […] 考虑的输入值。
Transformer 编码器和解码器之间有许多相似之处,例如它们都实现了多头注意力、层归一化以及作为最后一个子层的全连接前馈网络。在实现了 Transformer 编码器之后,我们现在将继续应用我们的知识来实现 Transformer 解码器,作为实现 […] 的进一步步骤。
在了解了如何实现缩放点积注意力并将它集成到 Transformer 模型的多头注意力中之后,我们将更进一步,通过应用其编码器来逐步实现一个完整的 Transformer 模型。我们的最终目标仍然是将完整模型应用于自然语言处理(NLP)。在本教程中,您将了解如何 […]
随着 Transformer 架构在注意力机制的实现上带来了革命性的变化,并在自然语言处理领域取得了非常有希望的结果,它被应用于计算机视觉领域只是时间问题。这最终通过 Vision Transformer (ViT) 的实现得以实现。在本教程中,您 […]
我们已经熟悉了 Transformer 模型及其注意力机制背后的理论。我们已经通过了解如何实现缩放点积注意力来开始我们实现完整模型的旅程。现在我们将通过将缩放点积注意力封装到多头 […] 来进一步推进我们的旅程。
在熟悉了 Transformer 模型及其注意力机制背后的理论之后,我们将首先了解如何实现缩放点积注意力,从而开始我们实现完整 Transformer 模型的旅程。缩放点积注意力是多头注意力的一个组成部分,而多头注意力又是 Transformer 模型的重要组成部分 […]
在语言中,词语的顺序和它们在句子中的位置确实很重要。如果词语被重新排序,整个句子的意思可能会改变。在实现 NLP 解决方案时,循环神经网络有一个内置机制来处理序列的顺序。然而,Transformer 模型不使用循环或 […]