assignment 4 August 30, 2025 2002 words • 11 min read 注意力权重 $α_i$ 是通过对 $k_i^T q$ 的点积结果进行 softmax 计算得到的。要让 $α_j$ 几乎承载所有权重,查询向量 $q$ 和键向量 $k_j$ 的点积 $k_j^T q$ 远大于所有其他点积 $k_i^T q$($i ≠ j$)。 根据 $i$ 的结论,我们有 $α_j \approx 1$ 且对于所有 $i ≠ j,α_i ≈ 0$。此时: $$ c... #NLP#Deep Learning#Transformer
Transformer 架构 August 24, 2025 6347 words • 32 min read 我们可以将注意力机制(Attention)理解为一个过程,它模仿了我们**从一个“键值对(Key-Value)”存储中“软性地”查找信息的方式**: 1. 我们有一个查询(Query)。 2... #NLP#Deep Learning#Transformer