Posts tagged with #Transformer

2 posts found

assignment 4

注意力权重 $α_i$ 是通过对 $k_i^T q$ 的点积结果进行 softmax 计算得到的。要让 $α_j$ 几乎承载所有权重,查询向量 $q$ 和键向量 $k_j$ 的点积 $k_j^T q$ 远大于所有其他点积 $k_i^T q$($i ≠ j$)。 根据 $i$ 的结论,我们有 $α_j \approx 1$ 且对于所有 $i ≠ j,α_i ≈ 0$。此时: $$ c...

Transformer 架构

我们可以将注意力机制(Attention)理解为一个过程,它模仿了我们**从一个“键值对(Key-Value)”存储中“软性地”查找信息的方式**: 1. 我们有一个查询(Query)。 2...