GPT2 实现笔记(3)-ReFT微调 September 8, 2025 1514 words • 8 min read > 该笔记是对 Stanford CS224-n 的 hw5 的 ReFT 微调部分的整理,用于整理本人实现的对特定任务的 ReFT 微调实现以及对特定下游任务的处理。 ReFT 微调总体架构和 LoRA 架构类似: ```mermaid graph TD %% --- Style Definitions --- classDef model... #LLM
GPT2 实现笔记(2)-LoRA微调 September 7, 2025 2770 words • 14 min read > 该笔记是对 Stanford CS224-n 的 hw5 的 LoRA 微调部分的整理,用于整理本人实现的对特定任务的 LoRA 微调实现以及对特定下游任务的处理。 我们采用和原有GPT2模型实现类似的架构实现带LoRA微调的GPT2模型,详细架构如下: ```mermaid graph TD %% --- Style Definitions --- classDef model... #NLP#LLM
GPT2 实现笔记(1) September 6, 2025 3049 words • 16 min read > 该笔记是对 Stanford CS224-n 的 hw5 基础部分的整理,用于整理 GPT2 模型的基本实现。 我们先初始化好注意力模块中的组件: * $Q$,$K$,$V$层和 dropout 层 * 注意力头数量等配置 ```python self. num_attention_heads = config... #NLP#LLM
迁移学习 September 6, 2025 1443 words • 8 min read > 生成:Gemini-2. 5-pro, 整理:fyerfyer 为了解决传统微调的参数效率问题,论文提出了一种替代方案,叫做**适配器模块 (Adapter Modules)**。 适配器的核心思想是:在为下游任务调整模型时,我们**完全冻结 (freeze)... #NLP#LLM
适配层 September 1, 2025 4315 words • 22 min read GPT-3/4 这样的大型语言模型,展现出了一种惊人的新能力: 1. 零样本学习 (Zero-shot):不需要给它任何范例,**只需用自然语言清晰地描述任务**,它就能直接执行。 2... #NLP#LLM