Posts tagged with "LLM"

GPT2 实现笔记(3)-ReFT微调

September 8, 2025 1514 words • 8 min read

> 该笔记是对 Stanford CS224-n 的 hw5 的 ReFT 微调部分的整理，用于整理本人实现的对特定任务的 ReFT 微调实现以及对特定下游任务的处理。 ReFT 微调总体架构和 LoRA 架构类似： ```mermaid graph TD %% --- Style Definitions --- classDef model...

#LLM

GPT2 实现笔记(2)-LoRA微调

September 7, 2025 2770 words • 14 min read

> 该笔记是对 Stanford CS224-n 的 hw5 的 LoRA 微调部分的整理，用于整理本人实现的对特定任务的 LoRA 微调实现以及对特定下游任务的处理。我们采用和原有GPT2模型实现类似的架构实现带LoRA微调的GPT2模型，详细架构如下： ```mermaid graph TD %% --- Style Definitions --- classDef model...

#LLM

GPT2 实现笔记(1)

September 6, 2025 3049 words • 16 min read

> 该笔记是对 Stanford CS224-n 的 hw5 基础部分的整理，用于整理 GPT2 模型的基本实现。我们先初始化好注意力模块中的组件： - $Q$，$K$，$V$层和 dropout 层 - 注意力头数量等配置 ```python self. num_attention_heads = config...

#LLM

LoRA

September 6, 2025 1134 words • 6 min read

> 生成：Gemini-2. 5-pro，整理：fyerfyer LoRA 的核心假设是：模型在适应新任务时，其权重的“变化量”（$\Delta W$）本身具有“低内在秩”（low intrinsic rank）。这意味着，这个代表变化的、巨大的权重矩阵，可以用两个非常小的、瘦长的矩阵相乘来近似模拟。这就好比一个复杂的变换，其实可以分解为几个简单的、低维度的变换组合而成。...

#LLM

迁移学习

September 6, 2025 1443 words • 8 min read

> 生成：Gemini-2. 5-pro，整理：fyerfyer 为了解决传统微调的参数效率问题，论文提出了一种替代方案，叫做**适配器模块 (Adapter Modules)**。适配器的核心思想是：在为下游任务调整模型时，我们**完全冻结 (freeze)...

#NLP #LLM

适配层

September 1, 2025 4239 words • 22 min read

GPT-3/4 这样的大型语言模型，展现出了一种惊人的新能力： 1. 零样本学习 (Zero-shot)：不需要给它任何范例，**只需用自然语言清晰地描述任务**，它就能直接执行。 2...

#NLP #LLM

微调

August 30, 2025 4520 words • 23 min read

指令微调是收集大量**覆盖不同任务的 (指令, 输出) 数据对**，然后用这些数据去微调一个已经预训练好的语言模型（LM）。 > 一个重要的发现是，我们可以利用一个非常强大的模型（如GPT-4）来生成大量的指令和回答，然后用这些生成的数据去微调一个规模小一些的开源模型。 > 对齐，“少即是多” (Less Is More for...

#NLP #Deep Learning #LLM

预训练

August 29, 2025 5828 words • 30 min read

预训练的目的是确保模型能**处理大规模、多样化的数据集**。我们需要在架构和工程上做好准备，让模型能够“吃得下”并且“消化得了”这种级别的数据。在预训练中，为了实现大规模的训练，我们需要放弃昂贵且有限的人工标注数据，**采用自监督学习，让模型直接从海量的、无标注的原始文本中自我学习**。传统模型对**词汇表（Vocabulary）** 有如下的假设： 1. ...

#NLP #LLM