使用 Transformer 做简单的机器翻译 November 16, 2025 94 words • 1 min read 这个没什么好说的,就是对 Transformer 原论文的简单复现,下面贴一下 Colab Notebook: ```notebook src=/notebooks/Transformer_translator. html ``` 可以看到不论是训练速度还是生成结果(这里训练过程没有计算 BLEU 分数了,只是看了 Loss),Transformer 都优于我们之前用 Seq2Seq +... #Transformer#NLP
assignment 4 August 30, 2025 2002 words • 11 min read 注意力权重 $α_i$ 是通过对 $k_i^T q$ 的点积结果进行 softmax 计算得到的。要让 $α_j$ 几乎承载所有权重,查询向量 $q$ 和键向量 $k_j$ 的点积 $k_j^T q$ 远大于所有其他点积 $k_i^T q$($i ≠ j$)。 根据 $i$ 的结论,我们有 $α_j \approx 1$ 且对于所有 $i ≠ j,α_i ≈ 0$。此时: $$ c... #NLP#Deep Learning#Transformer
Transformer 架构 August 24, 2025 6343 words • 32 min read 我们可以将注意力机制(Attention)理解为一个过程,它模仿了我们**从一个“键值对(Key-Value)”存储中“软性地”查找信息的方式**: 1. 我们有一个查询(Query)。 2... #NLP#Deep Learning#Transformer