Homework 4 September 14, 2025 2024 words • 11 min read 这一部分实现了分类特征分布的计算。我们创建一个 $X, Y$ 的联合分布表,然后对每个特征标签 `y_label`,统计这一部分对应的 $X$ 的次数和总的 $Y$ 的类别的比值,这个结果就是对应的概率分布。 ```python @mugrade. local_tests class CategoricalDistribution: def __init__(self, X, Y, alpha=1... #Ma-Le#Data Science
Homework 3 September 13, 2025 3761 words • 19 min read > 由于本人刚刚接触数据科学,对 numpy 之类的库的使用不是很熟练,因此会写的琐碎一些。 > In this homework, we are going to apply linear regression to the problem of predicting developer satisfaction based upon information about their... #NLP#Data Science
概率统计基础 September 10, 2025 607 words • 4 min read > 本笔记是对 [CMU Pratical Data Science Course](https://www. datasciencecourse... #Probability#Ma-Le
数值计算技巧 September 9, 2025 1234 words • 7 min read > 本笔记用于记录在写代码过程中遇到的一些数据处理技巧与注意点。 1. 对特定 `axis` 进行操作的结果: | axis | 对应的维度 | 操作方向 | 结果 | 记忆技巧 | | ------ | --------------- | --------------- | ------------------ | ------------ | | axis=0 | 第一个维度 (行)... #Numpy#Data Science
机器学习基础 September 9, 2025 8743 words • 44 min read > 本笔记是对 [CMU Pratical Data Science Course](https://www. datasciencecourse... #Ma-Le
GPT2 实现笔记(3)-ReFT微调 September 8, 2025 1514 words • 8 min read > 该笔记是对 Stanford CS224-n 的 hw5 的 ReFT 微调部分的整理,用于整理本人实现的对特定任务的 ReFT 微调实现以及对特定下游任务的处理。 ReFT 微调总体架构和 LoRA 架构类似: ```mermaid graph TD %% --- Style Definitions --- classDef model... #LLM
GPT2 实现笔记(2)-LoRA微调 September 7, 2025 2770 words • 14 min read > 该笔记是对 Stanford CS224-n 的 hw5 的 LoRA 微调部分的整理,用于整理本人实现的对特定任务的 LoRA 微调实现以及对特定下游任务的处理。 我们采用和原有GPT2模型实现类似的架构实现带LoRA微调的GPT2模型,详细架构如下: ```mermaid graph TD %% --- Style Definitions --- classDef model... #LLM
自由文本处理 September 6, 2025 2449 words • 13 min read > 生成:Gemini-2. 5-pro, 整理:fyerfyer 自由文本 (Free Text) 指的是那些非结构化的文本数据,例如网页、数据库中的评论字段、文章等。 与关系型数据或图谱不同,自由文本的**核心挑战在于它缺乏“易于提取”的结构**。 >... #Free Text#NLP#Data Science
GPT2 实现笔记(1) September 6, 2025 3049 words • 16 min read > 该笔记是对 Stanford CS224-n 的 hw5 基础部分的整理,用于整理 GPT2 模型的基本实现。 我们先初始化好注意力模块中的组件: - $Q$,$K$,$V$层和 dropout 层 - 注意力头数量等配置 ```python self. num_attention_heads = config... #LLM
LoRA September 6, 2025 1134 words • 6 min read > 生成:Gemini-2. 5-pro, 整理:fyerfyer LoRA 的核心假设是:模型在适应新任务时,其权重的“变化量”($\Delta W$)本身具有“低内在秩”(low intrinsic rank)。 这意味着,这个代表变化的、巨大的权重矩阵,可以用两个非常小的、瘦长的矩阵相乘来近似模拟。这就好比一个复杂的变换,其实可以分解为几个简单的、低维度的变换组合而成。... #LLM