标签档案 | Transformer

Transformer 模型推理

作者： Stefania Cristina 发布于 2023 年 1 月 6 日分类： Attention 17 条评论

我们已经了解了如何在英语和德语句子对数据集上训练 Transformer 模型，以及如何绘制训练和验证损失曲线来诊断模型的学习性能，并决定在哪个 epoch 对训练好的模型进行推理。现在我们准备对 […] 模型进行推理。

作者： Stefania Cristina 发布于 2023 年 1 月 6 日分类： Attention 7 条评论

我们之前已经了解了如何训练 Transformer 模型用于神经机器翻译。在对训练好的模型进行推理之前，让我们首先探索如何稍微修改训练代码，以便能够绘制在学习过程中生成的训练和验证损失曲线。训练和 […]

作者： Stefania Cristina 发布于 2023 年 1 月 6 日分类： Attention 44 条评论

我们已经组装了完整的 Transformer 模型，现在我们准备对其进行神经机器翻译训练。我们将为此目的使用一个训练数据集，其中包含简短的英语和德语句子对。我们还将重新审视在训练 […] 过程中计算准确性和损失指标时掩码的作用。

作者： Stefania Cristina 发布于 2023 年 1 月 6 日分类： Attention 32 条评论

我们已经实现了 Transformer 编码器和解码器并分别进行了测试，现在我们可以将两者结合成一个完整的模型。我们还将了解如何创建填充掩码和前瞻掩码，通过它们我们将抑制在 […] 中不考虑的输入值。

作者： Stefania Cristina 发布于 2023 年 1 月 6 日分类： Attention 15 条评论

Transformer 编码器和解码器之间有许多相似之处，例如它们都实现了多头注意力、层归一化和作为最终子层的全连接前馈网络。在实现了 Transformer 编码器之后，我们现在将继续应用我们的知识来实现 Transformer 解码器，作为实现 […] 的进一步步骤。

作者： Stefania Cristina 发布于 2023 年 1 月 6 日分类： Attention 5 条评论

在了解了如何实现缩放点积注意力并将其集成到 Transformer 模型的多头注意力中之后，让我们通过应用其编码器，向实现完整的 Transformer 模型迈进一步。我们的最终目标仍然是将完整的模型应用于自然语言处理 (NLP)。在本教程中，您将发现如何 […]

作者： Stefania Cristina 发布于 2023 年 1 月 6 日分类： Attention 28 条评论

我们已经熟悉了 Transformer 模型及其注意力机制背后的理论。我们已经通过了解如何实现缩放点积注意力开始了实现完整模型的旅程。现在，我们将通过将缩放点积注意力封装到多头 […] 中，在我们的旅程中更进一步。

作者： Stefania Cristina 发布于 2023 年 1 月 6 日分类： Attention 7 条评论

在熟悉了 Transformer 模型及其注意力机制背后的理论之后，我们将首先了解如何实现缩放点积注意力，从而开始我们实现完整 Transformer 模型的旅程。缩放点积注意力是多头注意力的组成部分，而多头注意力又是 […] 的重要组成部分。

作者： Mehreen Saeed 发布于 2023 年 1 月 6 日分类： Attention 17 条评论

在第 1 部分“Transformer 模型中位置编码的简要介绍”中，我们讨论了 Transformer 模型的位置编码层。我们还展示了如何在 Python 中自己实现这个层及其函数。在本教程中，您将在 Keras 和 Tensorflow 中实现位置编码层。然后，您可以使用此 […]

作者： Mehreen Saeed 发布于 2023 年 1 月 6 日分类： Attention 45 条评论

在语言中，单词的顺序及其在句子中的位置非常重要。如果单词重新排序，整个句子的意思可能会改变。在实现 NLP 解决方案时，循环神经网络有一个内置机制来处理序列的顺序。然而，Transformer 模型不使用循环或 […]