Posts tagged with #Transformer

3 posts found

使用 Transformer 做简单的机器翻译

这个没什么好说的,就是对 Transformer 原论文的简单复现,下面贴一下 Colab Notebook: ```notebook src=/notebooks/Transformer_translator. html ``` 可以看到不论是训练速度还是生成结果(这里训练过程没有计算 BLEU 分数了,只是看了 Loss),Transformer 都优于我们之前用 Seq2Seq +...

assignment 4

注意力权重 $α_i$ 是通过对 $k_i^T q$ 的点积结果进行 softmax 计算得到的。要让 $α_j$ 几乎承载所有权重,查询向量 $q$ 和键向量 $k_j$ 的点积 $k_j^T q$ 远大于所有其他点积 $k_i^T q$($i ≠ j$)。 根据 $i$ 的结论,我们有 $α_j \approx 1$ 且对于所有 $i ≠ j,α_i ≈ 0$。此时: $$ c...

Transformer 架构

我们可以将注意力机制(Attention)理解为一个过程,它模仿了我们**从一个“键值对(Key-Value)”存储中“软性地”查找信息的方式**: 1. 我们有一个查询(Query)。 2...