本文提供了对 LLM 的简洁基本理解,然后通过几个知名的框架提供了三个基于代码的入门示例来说明其用法。

本文提供了对 LLM 的简洁基本理解,然后通过几个知名的框架提供了三个基于代码的入门示例来说明其用法。
我们已经了解了如何在英语和德语句子对数据集上训练 Transformer 模型,以及如何绘制训练和验证损失曲线以诊断模型的学习性能,并决定在哪个时期对训练好的模型进行推理。我们现在准备对 […]
我们之前已经了解了如何训练 Transformer 模型进行神经机器翻译。在继续对训练好的模型进行推理之前,让我们首先探讨如何稍微修改训练代码,以便能够绘制在学习过程中生成的训练和验证损失曲线。训练和 […]
我们已经组装了完整的 Transformer 模型,现在我们准备对其进行神经机器翻译训练。我们将为此目的使用一个训练数据集,其中包含简短的英语和德语句子对。我们还将重新审视在训练过程中计算准确性和损失指标时掩码的作用 […]
我们已经实现了并分别测试了 Transformer 编码器和解码器,现在我们可以将两者组合成一个完整的模型。我们还将了解如何创建填充掩码和前瞻掩码,通过它们我们将抑制在 […] 中不考虑的输入值。
Transformer 编码器和解码器之间有许多相似之处,例如它们实现了多头注意力、层归一化和全连接前馈网络作为它们的最终子层。在实现了 Transformer 编码器之后,我们现在将继续应用我们的知识来实现 Transformer 解码器,作为实现 […] 的进一步步骤。
在了解了如何实现缩放点积注意力并将其集成到 Transformer 模型的多头注意力中之后,让我们通过应用其编码器,向实现完整的 Transformer 模型迈进一步。我们的最终目标仍然是将完整的模型应用于自然语言处理 (NLP)。在本教程中,您将了解如何 […]
在熟悉了 Transformer 模型及其注意力机制的理论之后,我们将通过首先了解如何实现缩放点积注意力来开始我们实现完整 Transformer 模型的旅程。缩放点积注意力是多头注意力不可或缺的一部分,而多头注意力又是 […] 的重要组成部分。
引入注意力机制是为了提高用于机器翻译的编码器-解码器模型的性能。注意力机制背后的思想是允许解码器以灵活的方式利用输入序列最相关的部分,通过所有编码输入向量的加权组合,其中最相关的 […]
注意力是一个在多个学科中进行科学研究的概念,包括心理学、神经科学以及最近的机器学习。尽管所有学科都可能对注意力提出了自己的定义,但它们都同意的一个核心品质是,注意力是一种使生物和人工神经网络系统更灵活的机制。在 […]