Archive - Page 15

2025

163 posts

Transformer 架构

August 24, 2025 6343 words • 32 min read

我们可以将注意力机制（Attention）理解为一个过程，它模仿了我们**从一个“键值对（Key-Value）”存储中“软性地”查找信息的方式**： 1. 我们有一个查询（Query）。 2...

#NLP #Deep Learning #Transformer

循环神经网络

August 20, 2025 6683 words • 34 min read

语言模型的主要任务是计算**一个词语序列出现的概率有多大**。一个由 $m$ 个词组成的序列 $\lbrace w_1, . , w_m \rbrace$，它出现的概率被记为 $P(w_1,...

#NLP #Deep Learning #RNN

反向传播补充

August 18, 2025 1725 words • 9 min read

反向传播是一个高度本地化(local)的过程，可以看作是**电路中各个“门”（gate）之间的通信**： <Image src={image_image} alt="alt text" /> 电路中的每一个“门”（比如一个加法门、一个乘法门）在工作时，完全不需要知道整个电路有多复杂，也不需要知道自己处在电路的哪个位置。它**是一个独立的、封装好的模块，只会完成自己对应的操作**。...

#NLP #Deep Learning

assignment 2

August 18, 2025 3395 words • 17 min read

Because the true distribution of $y$ is a one-hot vector, where $y_w=0$ for all $w \neq 0$ and $w_o=1$, the summation $\sum y_w \log(\hat{y}_y)$ simplifies to $\log(\hat{y}_o)$ 我们需要求解下面这个偏导数： $$...

#NLP #Deep Learning #Word2vec

依存句法分析

August 18, 2025 1705 words • 9 min read

> 生成：Gemini-2. 5-pro，整理：fyerfyer - 关系：依存关系是不对称的，**一个词是核心，另一个词是修饰或依附于它**。 - 我们用箭头来表示这种关系，箭头从核心词 (head) 指向修饰词 (dependent)。 - 核心词 (Head)：也被称为“支配者 (governor)”，是被修饰的词。 - 修饰词 (Dependent)：也被称为“从属...

#NLP

依存句法分析中的增量性

August 18, 2025 1471 words • 8 min read

在最严格的意义上，增量性指的是：在句法分析的任何一个时间点，**对于已经处理过的输入部分，我们都能得到一个单一的、连通的结构来表示其分析结果**。最基本的基于依存句法的分析包含移入 (Shift)、左向规约 (Left-Reduce) 和右向规约 (Right-Reduce)三个基本动作： - 左向规约：处理栈最顶端的两个词 $w_i$ 和 $w_j$。它会创建一个依存关系，让顶端的词...

#NLP

神经网络补充

August 17, 2025 1762 words • 9 min read

生物神经元具有如下的结构： - 树突 (Dendrites)：像天线一样，负责**从其他神经元那里接收输入信号**。 - 轴突 (Axon)：是一条单一的输出线，负责**将处理后的信号传递出去**。 - 突触 (Synapses)：是轴突的末梢和其他神经元树突的连接点，是**信号传递的关键节点**。...

#NLP #Deep Learning

神经网络梯度计算

August 14, 2025 4342 words • 22 min read

> 本文章是对 [Gradient Notes](https://web. edu/class/cs224n/readings/gradient-notes...

#NLP #Deep Learning

深度学习自然语言处理

August 13, 2025 4039 words • 21 min read

在之前的讨论中，我们已经明确了非线性分类器的必要性，因为**大多数数据并不是线性可分的**，因此使用线性分类器的分类性能会受到限制。神经网络是一类**具有非线性决策边界的分类器**。神经元是一个通用的计算单元，它接受 $n$ 个输入并产生一个输出。一个比较常见的神经元类型是 $Sigmoid$ 逻辑单元，神经元关联着一个 $n$ 维权重向量 $w$ 和一个标量偏置 $b$，其输出为：...

#NLP #Deep Learning

GloVe模型

August 12, 2025 830 words • 5 min read

我们先前介绍的Skip-gram模型通过在局部上下文窗口中进行预测来学习词嵌入。这些模型展示了捕捉词语相似性的语言模式的能力，但**未能利用全局共现统计信息**。与Skip-gram不同，GloVe使用**全局统计信息**，通过最小二乘目标函数预测词 $j$ 出现在词 $i$ 上下文中的概率。在详细讲述GloVe模型之前，我们先声明**共现矩阵**及其相关概念。 -...

#NLP #Word2vec