assignment 2 August 18, 2025 3395 words • 17 min read Because the true distribution of $y$ is a one-hot vector, where $y_w=0$ for all $w \neq 0$ and $w_o=1$, the summation $\sum y_w \log(\hat{y}_y)$ simplifies to $\log(\hat{y}_o)$ 我们需要求解下面这个偏导数: $$... #NLP#Deep Learning#Word2vec
GloVe模型 August 12, 2025 830 words • 5 min read 我们先前介绍的Skip-gram模型通过在局部上下文窗口中进行预测来学习词嵌入。这些模型展示了捕捉词语相似性的语言模式的能力,但**未能利用全局共现统计信息**。 与Skip-gram不同,GloVe使用**全局统计信息**,通过最小二乘目标函数预测词 $j$ 出现在词 $i$ 上下文中的概率。 在详细讲述GloVe模型之前,我们先声明**共现矩阵**及其相关概念。 *... #NLP#Deep Learning#Word2vec
Word2vec模型 August 12, 2025 2251 words • 12 min read 一个词(如 `tea`)是一个**符号/能指 (Signifier)**,它代表了现实或想象世界中的某个**实体/所指 (Signified)**。词义是极其复杂的,它源于人类在世界中沟通和实现目标的意图。 最简单的表示方法是将每个词视为独立的实体。在向量空间中,这通常通过 **one-hot 向量(或称标准基向量)** 来实现。 例如,在一个词汇表 $V$ 中: $$... #NLP#Deep Learning#Word2vec
SVD分解简介 August 12, 2025 4151 words • 21 min read > 本文章适用于速通SVD分解,因此讲得不是那么详细。 > 生成:Gemini-2. 5-pro, 整理:fyerfyer 奇异值分解(SVD)是一种强大而基础的矩阵分解技术,在数据科学、机器学习和自然语言处理(NLP)等领域有广泛应用。我们可以从三个互补的角度来理解SVD: 1... #NLP#Deep Learning#Word2vec