ReFT September 6, 2025 1793 words • 9 min read > 生成:Gemini-2. 5-pro, 整理:fyerfyer 传统的参数高效微调(PEFT)方法,如 LoRA,其核心思路是**修改模型的“大脑结构”**,即通过更新或添加少量权重参数来让模型适应新任务。 而表征微调(Representation Finetuning,... #NLP#finetune
迁移学习 September 6, 2025 1443 words • 8 min read > 生成:Gemini-2. 5-pro, 整理:fyerfyer 为了解决传统微调的参数效率问题,论文提出了一种替代方案,叫做**适配器模块 (Adapter Modules)**。 适配器的核心思想是:在为下游任务调整模型时,我们**完全冻结 (freeze)... #NLP#LLM
词语表示法 September 6, 2025 2210 words • 12 min read > 生成:Gemini-2. 5-pro, 整理:fyerfyer 在自然语言处理中,我们首先要区分两个基本概念: - **词符 (Word Token)**:指在文本中**实际出现的一个具体的词**。它是词的一个“实例”。 - **词型 (Word Type)**:指一个**抽象的、独特的词**。它是词的“原型”或“类别”。 > 例如,在句子“我爱北京,我爱中国。”中: > > -... #NLP
数据科学基础概念 September 5, 2025 1634 words • 9 min read 在数据科学的许多问题中,我们处理的矩阵本质上都是稀疏的:矩阵中**绝大多数元素都是零**,只有少数非零元素。比如下面两个典型例子: 1. 图(Graphs):在表示图结构时,一种主要方法是使用邻接矩阵(Adjacency Matrix)。如果节点 $i$ 和节点 $j$ 之间有一条边,那么矩阵中 $(i, j)$... #Data Science
适配层 September 1, 2025 4239 words • 22 min read GPT-3/4 这样的大型语言模型,展现出了一种惊人的新能力: 1. 零样本学习 (Zero-shot):不需要给它任何范例,**只需用自然语言清晰地描述任务**,它就能直接执行。 2... #NLP#LLM
assignment 4 August 30, 2025 2002 words • 11 min read 注意力权重 $α_i$ 是通过对 $k_i^T q$ 的点积结果进行 softmax 计算得到的。要让 $α_j$ 几乎承载所有权重,查询向量 $q$ 和键向量 $k_j$ 的点积 $k_j^T q$ 远大于所有其他点积 $k_i^T q$($i ≠ j$)。 根据 $i$ 的结论,我们有 $α_j \approx 1$ 且对于所有 $i ≠ j,α_i ≈ 0$。此时: $$ c... #NLP#Deep Learning#Transformer
微调 August 30, 2025 4520 words • 23 min read 指令微调是收集大量**覆盖不同任务的 (指令, 输出) 数据对**,然后用这些数据去微调一个已经预训练好的语言模型(LM)。 > 一个重要的发现是,我们可以利用一个非常强大的模型(如GPT-4)来生成大量的指令和回答,然后用这些生成的数据去微调一个规模小一些的开源模型。 > 对齐,“少即是多” (Less Is More for... #NLP#Deep Learning#LLM
预训练 August 29, 2025 5766 words • 29 min read 预训练的目的是确保模型能**处理大规模、多样化的数据集**。我们需要在架构和工程上做好准备,让模型能够“吃得下”并且“消化得了”这种级别的数据。 在预训练中,为了实现大规模的训练,我们需要放弃昂贵且有限的人工标注数据,**采用自监督学习,让模型直接从海量的、无标注的原始文本中自我学习**。 传统模型对**词汇表(Vocabulary)** 有如下的假设: 1. ... #NLP#LLM
Transformer 架构 August 24, 2025 6343 words • 32 min read 我们可以将注意力机制(Attention)理解为一个过程,它模仿了我们**从一个“键值对(Key-Value)”存储中“软性地”查找信息的方式**: 1. 我们有一个查询(Query)。 2... #NLP#Deep Learning#Transformer
循环神经网络 August 20, 2025 6614 words • 34 min read 语言模型的主要任务是计算**一个词语序列出现的概率有多大**。一个由 $m$ 个词组成的序列 $\lbrace w_1, . , w_m \rbrace$,它出现的概率被记为 $P(w_1,... #NLP#Deep Learning#RNN