Posts tagged with "NLP"

使用 Transformer 做简单的机器翻译

November 16, 2025 94 words • 1 min read

这个没什么好说的，就是对 Transformer 原论文的简单复现，下面贴一下 Colab Notebook： ```notebook src=/notebooks/Transformer_translator. html ``` 可以看到不论是训练速度还是生成结果（这里训练过程没有计算 BLEU 分数了，只是看了 Loss），Transformer 都优于我们之前用 Seq2Seq +...

#Transformer #NLP

文档的分层注意力网络

November 14, 2025 1215 words • 7 min read

Hierarchical Attention Networks for Document Classification 这篇论文引入了一个分层的注意力网络：它使用结构化的注意力，先理解单词，再理解句子，最后理解整篇文档。 HAN 由下面的组件组成： 1. 单词序列 Encoder：使用 Encoder 对句子中的单词进行处理。这个和 Seq2Seq 中的 Encoder 类似。 2...

#Deep Learning #RNN #NLP #Document Classification

Homework 3

September 13, 2025 3761 words • 19 min read

> 由于本人刚刚接触数据科学，对 numpy 之类的库的使用不是很熟练，因此会写的琐碎一些。 > In this homework, we are going to apply linear regression to the problem of predicting developer satisfaction based upon information about their...

#NLP #Data Science

自由文本处理

September 6, 2025 2449 words • 13 min read

> 生成：Gemini-2. 5-pro，整理：fyerfyer 自由文本 (Free Text) 指的是那些非结构化的文本数据，例如网页、数据库中的评论字段、文章等。与关系型数据或图谱不同，自由文本的**核心挑战在于它缺乏“易于提取”的结构**。 >...

#Free Text #NLP #Data Science

ReFT

September 6, 2025 1793 words • 9 min read

> 生成：Gemini-2. 5-pro，整理：fyerfyer 传统的参数高效微调（PEFT）方法，如 LoRA，其核心思路是**修改模型的“大脑结构”**，即通过更新或添加少量权重参数来让模型适应新任务。而表征微调（Representation Finetuning,...

#NLP #finetune

迁移学习

September 6, 2025 1443 words • 8 min read

> 生成：Gemini-2. 5-pro，整理：fyerfyer 为了解决传统微调的参数效率问题，论文提出了一种替代方案，叫做**适配器模块 (Adapter Modules)**。适配器的核心思想是：在为下游任务调整模型时，我们**完全冻结 (freeze)...

#NLP #LLM

词语表示法

September 6, 2025 2210 words • 12 min read

> 生成：Gemini-2. 5-pro，整理：fyerfyer 在自然语言处理中，我们首先要区分两个基本概念： - **词符 (Word Token)**：指在文本中**实际出现的一个具体的词**。它是词的一个“实例”。 - **词型 (Word Type)**：指一个**抽象的、独特的词**。它是词的“原型”或“类别”。 > 例如，在句子“我爱北京，我爱中国。”中： > > -...

#NLP

适配层

September 1, 2025 4239 words • 22 min read

GPT-3/4 这样的大型语言模型，展现出了一种惊人的新能力： 1. 零样本学习 (Zero-shot)：不需要给它任何范例，**只需用自然语言清晰地描述任务**，它就能直接执行。 2...

#NLP #LLM

assignment 4

August 30, 2025 2002 words • 11 min read

注意力权重 $α_i$ 是通过对 $k_i^T q$ 的点积结果进行 softmax 计算得到的。要让 $α_j$ 几乎承载所有权重，查询向量 $q$ 和键向量 $k_j$ 的点积 $k_j^T q$ 远大于所有其他点积 $k_i^T q$($i ≠ j$)。根据 $i$ 的结论，我们有 $α_j \approx 1$ 且对于所有 $i ≠ j，α_i ≈ 0$。此时： $$ c...

#NLP #Deep Learning #Transformer

微调

August 30, 2025 4520 words • 23 min read

指令微调是收集大量**覆盖不同任务的 (指令, 输出) 数据对**，然后用这些数据去微调一个已经预训练好的语言模型（LM）。 > 一个重要的发现是，我们可以利用一个非常强大的模型（如GPT-4）来生成大量的指令和回答，然后用这些生成的数据去微调一个规模小一些的开源模型。 > 对齐，“少即是多” (Less Is More for...

#NLP #Deep Learning #LLM