预训练 August 29, 2025 5829 words • 30 min read 预训练的目的是确保模型能**处理大规模、多样化的数据集**。我们需要在架构和工程上做好准备,让模型能够“吃得下”并且“消化得了”这种级别的数据。 在预训练中,为了实现大规模的训练,我们需要放弃昂贵且有限的人工标注数据,**采用自监督学习,让模型直接从海量的、无标注的原始文本中自我学习**。 传统模型对**词汇表(Vocabulary)** 有如下的假设: 1. ... #NLP#Deep Learning
Transformer 架构 August 24, 2025 6347 words • 32 min read 我们可以将注意力机制(Attention)理解为一个过程,它模仿了我们**从一个“键值对(Key-Value)”存储中“软性地”查找信息的方式**: 1. 我们有一个查询(Query)。 2... #NLP#Deep Learning#Transformer
循环神经网络 August 20, 2025 6682 words • 34 min read 语言模型的主要任务是计算**一个词语序列出现的概率有多大**。一个由 $m$ 个词组成的序列 $\lbrace w_1, . , w_m \rbrace$,它出现的概率被记为 $P(w_1,... #NLP#Deep Learning#RNN
反向传播补充 August 18, 2025 1725 words • 9 min read 反向传播是一个高度本地化(local)的过程,可以看作是**电路中各个“门”(gate)之间的通信**: <Image src={image_image} alt="alt text" /> 电路中的每一个“门”(比如一个加法门、一个乘法门)在工作时,完全不需要知道整个电路有多复杂,也不需要知道自己处在电路的哪个位置。它**是一个独立的、封装好的模块,只会完成自己对应的操作**。... #NLP#Deep Learning
assignment 2 August 18, 2025 3395 words • 17 min read Because the true distribution of $y$ is a one-hot vector, where $y_w=0$ for all $w \neq 0$ and $w_o=1$, the summation $\sum y_w \log(\hat{y}_y)$ simplifies to $\log(\hat{y}_o)$ 我们需要求解下面这个偏导数: $$... #NLP#Deep Learning#Word2vec
依存句法分析 August 18, 2025 1705 words • 9 min read > 生成:Gemini-2. 5-pro, 整理:fyerfyer * 关系:依存关系是不对称的,**一个词是核心,另一个词是修饰或依附于它**。 * 我们用箭头来表示这种关系,箭头从核心词 (head) 指向修饰词 (dependent)。 * 核心词 (Head):也被称为“支配者 (governor)”,是被修饰的词。 * 修饰词 (Dependent):也被称为“从属... #NLP#Deep Learning
依存句法分析中的增量性 August 18, 2025 1471 words • 8 min read 在最严格的意义上,增量性指的是:在句法分析的任何一个时间点,**对于已经处理过的输入部分,我们都能得到一个单一的、连通的结构来表示其分析结果**。 最基本的基于依存句法的分析包含移入 (Shift)、左向规约 (Left-Reduce) 和 右向规约 (Right-Reduce)三个基本动作: * 左向规约:处理栈最顶端的两个词 $w_i$ 和 $w_j$。它会创建一个依存关系,让顶端的词... #NLP#Deep Learning
神经网络补充 August 17, 2025 1762 words • 9 min read 生物神经元具有如下的结构: * 树突 (Dendrites):像天线一样,负责**从其他神经元那里接收输入信号**。 * 轴突 (Axon):是一条单一的输出线,负责**将处理后的信号传递出去**。 * 突触 (Synapses):是轴突的末梢和其他神经元树突的连接点,是**信号传递的关键节点**。... #NLP#Deep Learning
神经网络梯度计算 August 14, 2025 4342 words • 22 min read > 本文章是对 [Gradient Notes](https://web. edu/class/cs224n/readings/gradient-notes... #NLP#Deep Learning
深度学习自然语言处理 August 13, 2025 4039 words • 21 min read 在之前的讨论中,我们已经明确了非线性分类器的必要性,因为**大多数数据并不是线性可分的**,因此使用线性分类器的分类性能会受到限制。 神经网络是一类**具有非线性决策边界的分类器**。 神经元是一个通用的计算单元,它接受 $n$ 个输入并产生一个输出。 一个比较常见的神经元类型是 $Sigmoid$ 逻辑单元,神经元关联着一个 $n$ 维权重向量 $w$ 和一个标量偏置 $b$,其输出为:... #NLP#Deep Learning