Archive - Page 16

2025

163 posts

Word2vec模型

August 12, 2025 2252 words • 12 min read

一个词（如 `tea`）是一个**符号/能指 (Signifier)**，它代表了现实或想象世界中的某个**实体/所指 (Signified)**。词义是极其复杂的，它源于人类在世界中沟通和实现目标的意图。最简单的表示方法是将每个词视为独立的实体。在向量空间中，这通常通过 **one-hot 向量（或称标准基向量）** 来实现。例如，在一个词汇表 $V$ 中： $$...

#NLP #Deep Learning #Word2vec

SVD分解简介

August 12, 2025 4151 words • 21 min read

> 本文章适用于速通SVD分解，因此讲得不是那么详细。 > 生成：Gemini-2. 5-pro，整理：fyerfyer 奇异值分解（SVD）是一种强大而基础的矩阵分解技术，在数据科学、机器学习和自然语言处理（NLP）等领域有广泛应用。我们可以从三个互补的角度来理解SVD： 1...

#Linear Algebra #SVD

探索与利用

August 8, 2025 1109 words • 6 min read

在强化学习中，智能体的目标是学习一个最优策略来最大化长期回报。为了达成此目标，智能体必须在两个核心行为之间做出权衡： - **探索 (Exploration)**: 尝试当前看起来并非最优的动作，目的是为了收集更多关于环境的信息，发现潜在的、更优的行动选择。 - **利用 (Exploitation)**: 执行当前已知能够带来最大回报的动作，以获取即时奖励。 **“充分的探索”**...

#Re-Le

MDP-calculation-exercise

August 8, 2025 1555 words • 8 min read

> In micro-blackjack, you repeatedly draw a card (with replacement) that is equally likely to be a 2, 3, or 4. You > can either Draw or Stop if the total score of the cards you have drawn is less...

#Re-Le #MDP

基于模型的学习

August 8, 2025 795 words • 4 min read

在强化学习中，**基于模型的学习**（Model-Based Learning）是一种方法，其核心思想是让智能体通过与环境的交互来**学习环境的动态模型**。这个模型通常包括两个关键部分： - **转移函数 (Transition Function) $T(s, a, s')$**：预测在状态 $s$ 执行动作 $a$ 后，转移到下一个状态 $s'$ 的概率。 - **奖励函数...

#Re-Le

无模型学习

August 8, 2025 1369 words • 7 min read

无模型学习（Model-Free Learning）是一类无需了解环境模型（转移函数 $T$ 和奖励函数 $R$）的强化学习算法。代理**直接通过与环境的交互经验**来学习价值函数或策略。无模型学习主要分为两大类： - **被动强化学习 (Passive Reinforcement Learning)**：代理遵循一个固定的策略...

#Re-Le

强化学习

August 8, 2025 756 words • 4 min read

与马尔可夫决策过程（不同，强化学习是一种**在线规划（Online Planning）**方法。在传统的MDP（离线规划）中，智能体**完全了解环境的转移函数和奖励函数**，并以此为基础预先计算出最优策略。...

#Re-Le

Expectimax 算法

August 7, 2025 1037 words • 6 min read

Minimax算法的核心假设是对手总是做出最优选择，这使其在面对非最优或随机对手时显得过于悲观。例如，在棋牌或骰子游戏中，结果本身具有不确定性，Minimax的“最坏情况”分析不再适用。 **Expectimax搜索**是Minimax的泛化，专门用于处理这类不确定性。它在博弈树中引入了**机会节点（Chance Nodes）** 来取代Minimax中的最小化节点（Minimizer...

#Games #Adversarial Search

对抗性搜索与游戏理论

August 7, 2025 431 words • 3 min read

在传统搜索问题中，智能体可以使用搜索算法确定最佳计划并直接执行以达到目标。但在**对抗性环境**中，智能体面临一个或多个试图阻止其达成目标的对手。由于无法确定性地预知对手的策略和反应，传统搜索算法不再适用，我们需要新的算法类别来解决**对抗性搜索问题**，也就是**游戏**。确定性零和游戏具有以下特点： - **确定性**：动作的结果是确定的，没有随机性 -...

#Games #Adversarial Search

贝尔曼方程

August 7, 2025 1200 words • 6 min read

与在确定的搜索问题中寻找一个通往目标状态的最优“计划”不同，解决一个马尔可夫决策过程意味着寻找一个**最优策略 (Optimal Policy)**。策略 $\pi$ 是一个从状态 $s \in S$ 到动作 $a \in A$ 的映射，即 $\pi: S \to A$。它定义了一个“反射式”智能体：给定一个状态 $s$，智能体会立即选择动作 $a =...

#Re-Le #MDP