训练 Transformer 模型 作者: Stefania Cristina 发布于 2023年1月6日 分类于 注意力 44 我们已经组装了完整的 Transformer 模型,现在我们准备好用它来进行神经机器翻译的训练。为此,我们将使用一个训练数据集,其中包含简短的英语和德语句子对。我们还将重新审视掩码(masking)在训练过程中计算准确率和损失指标时的作用 […] 继续阅读