Posts tagged with "Transformer"

使用 Transformer 做简单的机器翻译

November 16, 2025 94 words • 1 min read

这个没什么好说的，就是对 Transformer 原论文的简单复现，下面贴一下 Colab Notebook： ```notebook src=/notebooks/Transformer_translator. html ``` 可以看到不论是训练速度还是生成结果（这里训练过程没有计算 BLEU 分数了，只是看了 Loss），Transformer 都优于我们之前用 Seq2Seq +...

#Transformer #NLP

assignment 4

August 30, 2025 2002 words • 11 min read

注意力权重 $α_i$ 是通过对 $k_i^T q$ 的点积结果进行 softmax 计算得到的。要让 $α_j$ 几乎承载所有权重，查询向量 $q$ 和键向量 $k_j$ 的点积 $k_j^T q$ 远大于所有其他点积 $k_i^T q$($i ≠ j$)。根据 $i$ 的结论，我们有 $α_j \approx 1$ 且对于所有 $i ≠ j，α_i ≈ 0$。此时： $$ c...

#NLP #Deep Learning #Transformer

Transformer 架构

August 24, 2025 6343 words • 32 min read

我们可以将注意力机制（Attention）理解为一个过程，它模仿了我们**从一个“键值对（Key-Value）”存储中“软性地”查找信息的方式**： 1. 我们有一个查询（Query）。 2...

#NLP #Deep Learning #Transformer