Luong Attention November 8, 2025 1886 words • 10 min read 全局注意力的概念在 Bahdanau Attention 笔记中已经介绍过了:在 Decode 过程中,每当生成一个词,Decoder 会查看 Encoder 输出的所有隐藏状态并关注自己需要的那个。Luong Attention 的这一流程如下: 1. 获取 RNN 的隐藏状态 $h_t$ 和 Encoder 所有隐藏状态 $h_s$。 2... #RNN#Seq2Seq#Attention
简单机器翻译实现 November 8, 2025 2086 words • 11 min read 在复习了 Encoder-Decoder 后,自己搓了一个简单的机器翻译,用 30k 的 cmn-eng. txt 数据集训练的,下面简单讲解一下。 在开始实现之前,我们先定义一些 tag,这些 tag 能够让我们的模型更好地确认翻译的边界和方向: 1... #RNN#Seq2Seq#Attention
Bahdanau Attention November 8, 2025 693 words • 4 min read 在 Encoder-Decoder 架构中,我们知道 Encoder 负责把输入压缩成一个隐藏状态向量,但是压缩成一个固定的向量必然会导致关键信息的损失,一个简单的想法是:不把所有内容压缩到一个向量中,而是**把序列中的每个词都生成一个对应的向量,然后在 Decoder 输出时去“寻找”它对应的向量,利用自己找到的内容生成结果**。这便是 Seq2Seq 中简单的注意力思想。 上面的思想在... #RNN#Seq2Seq#Attention