LDA & QDA 补充 September 17, 2025 971 words • 5 min read 我们假定类别 $K$ 的数据符合正态分布: $$ f_k(x)=\frac{1}{\sqrt{2\pi}\,\sigma_k}\exp\. \left(-\frac{(x-\mu _k)^2}{2\sigma_k^2}\right) $$ 根据贝叶斯公式: $$ P(Y=k\mid X=x)=\frac{\pi_k f_k(x)}{\sum_{l=1}^{K}\pi_l f_l(x)}... #Ma-Le#Probability
Homework 1 September 15, 2025 609 words • 4 min read > Show the Equation $$ \max_{\lambda_i \ge 0}\; \min_{w,\alpha}\; \|w\|^2 - \sum_{i=1}^n \lambda_i\bigl(y_i(\mathbf{x}_i\cdot \mathbf{w} + \alpha) - 1\bigr) \tag{3} $$ > can be rewritten as the... #Ma-Le
线性分类器 September 15, 2025 476 words • 3 min read - 提供 $n$ 个样本,每个样本具有 $d$ 个特征。这些样本表示为 $d$ 维空间的特征向量。 - 决策边界:我们的分类器划分出的边界,将属于这个类别的样本和不属于这个边界的样本划分开。 - 决策函数:一个将 $x$ 映射到标量的函数 $f(x)$: $$ \begin{cases} f(x)>0, & x\in C,\\[4pt] f(x)\le 0, & x\notin C. ... #Ma-Le
最大间隔分类器 September 15, 2025 630 words • 4 min read 线性分类器的间隔 (Margin) 是**决策边界与离它最近的训练样本点之间的距离**。 在最大间隔分类器 (Maximum Margin Classifiers) 中,我们试着让这个间隔尽可能地宽。因为直觉上,一条位于“正中间”的、间隔最大的分界线,对于新出现的数据点会有更好的判断力。因为它没有偏向任何一边,所以更“公平”,也更不容易因为训练数据中微小的扰动而产生巨大的变化。... #Ma-Le
感知机算法 September 15, 2025 502 words • 3 min read 为了便于后面的计算,我们定义: - 对每个样本,标签 $y_i$: $$ y_i= \begin{cases} 1, & X_i\in C,\\[6pt] -1, & X_i\notin C. \end{cases} $$ 我们的目标是找到 **权重向量 $w$** 使得: $$ X_i\cdot w \begin{cases} \ge 0, & \text{if }... #Ma-Le
软边界分类器 September 15, 2025 1037 words • 6 min read 我们之前讲的最大间隔分类器有如下的弊端: 1. 对非线性可分的数据无效。最大间隔分类器是基于线性分类器的,如果数据非线性可分的话,最大分类器就失效了。 2... #Ma-Le
支持向量机 September 15, 2025 1810 words • 10 min read 在详细讲解支持向量机相关概念的推导前,我们先详细讲讲一些重要的数学方法。 拉格朗日乘数法适用于下面的问题: $$ \min_{x_1,\dots,x_n} f(x_1, \dots, x_n) \quad \text{s. }\; g(x_1, \dots,x_n)=0 $$ 拉格朗日乘数法基于下面的定理:**在取到最值的地方,$f(x_1, \dots, x_n)$ 和 $g(x_1,... #Ma-Le
Homework 4 September 14, 2025 2024 words • 11 min read 这一部分实现了分类特征分布的计算。我们创建一个 $X, Y$ 的联合分布表,然后对每个特征标签 `y_label`,统计这一部分对应的 $X$ 的次数和总的 $Y$ 的类别的比值,这个结果就是对应的概率分布。 ```python @mugrade. local_tests class CategoricalDistribution: def __init__(self, X, Y, alpha=1... #Ma-Le#Data Science
Homework 3 September 13, 2025 3761 words • 19 min read > 由于本人刚刚接触数据科学,对 numpy 之类的库的使用不是很熟练,因此会写的琐碎一些。 > In this homework, we are going to apply linear regression to the problem of predicting developer satisfaction based upon information about their... #NLP#Data Science