Posts tagged with "RNN"

文档的分层注意力网络

November 14, 2025 1215 words • 7 min read

Hierarchical Attention Networks for Document Classification 这篇论文引入了一个分层的注意力网络：它使用结构化的注意力，先理解单词，再理解句子，最后理解整篇文档。 HAN 由下面的组件组成： 1. 单词序列 Encoder：使用 Encoder 对句子中的单词进行处理。这个和 Seq2Seq 中的 Encoder 类似。 2...

#Deep Learning #RNN #NLP #Document Classification

Luong Attention

November 8, 2025 1886 words • 10 min read

全局注意力的概念在 Bahdanau Attention 笔记中已经介绍过了：在 Decode 过程中，每当生成一个词，Decoder 会查看 Encoder 输出的所有隐藏状态并关注自己需要的那个。Luong Attention 的这一流程如下： 1. 获取 RNN 的隐藏状态 $h_t$ 和 Encoder 所有隐藏状态 $h_s$。 2...

#RNN #Seq2Seq #Attention

简单机器翻译实现

November 8, 2025 2086 words • 11 min read

在复习了 Encoder-Decoder 后，自己搓了一个简单的机器翻译，用 30k 的 cmn-eng. txt 数据集训练的，下面简单讲解一下。在开始实现之前，我们先定义一些 tag，这些 tag 能够让我们的模型更好地确认翻译的边界和方向： 1...

#RNN #Seq2Seq #Attention

Bahdanau Attention

November 8, 2025 693 words • 4 min read

在 Encoder-Decoder 架构中，我们知道 Encoder 负责把输入压缩成一个隐藏状态向量，但是压缩成一个固定的向量必然会导致关键信息的损失，一个简单的想法是：不把所有内容压缩到一个向量中，而是**把序列中的每个词都生成一个对应的向量，然后在 Decoder 输出时去“寻找”它对应的向量，利用自己找到的内容生成结果**。这便是 Seq2Seq 中简单的注意力思想。上面的思想在...

#RNN #Seq2Seq #Attention

Encoder-Decoder 架构整理

November 8, 2025 273 words • 2 min read

Encoder-Decoder 的引入是为了解决 RNN 无法处理 Seq2Seq 的问题。我们知道 RNN 在每个时间步接受一个输入、并且返回一个输出。这对于定长的序列问题很方便（比如给句子的每个词做词性标注），但是很多 Seq2Seq 并不是定长的，输入和输出的长度并不固定（比如翻译问题）。唯一的解决办法是让 RNN 一次就读完全部的输入。但是 RNN...

#RNN #Seq2Seq

循环神经网络

August 20, 2025 6683 words • 34 min read

语言模型的主要任务是计算**一个词语序列出现的概率有多大**。一个由 $m$ 个词组成的序列 $\lbrace w_1, . , w_m \rbrace$，它出现的概率被记为 $P(w_1,...

#NLP #Deep Learning #RNN