2025

163 posts

Word2vec模型

一个词(如 `tea`)是一个**符号/能指 (Signifier)**,它代表了现实或想象世界中的某个**实体/所指 (Signified)**。词义是极其复杂的,它源于人类在世界中沟通和实现目标的意图。 最简单的表示方法是将每个词视为独立的实体。在向量空间中,这通常通过 **one-hot 向量(或称标准基向量)** 来实现。 例如,在一个词汇表 $V$ 中: $$...

SVD分解简介

> 本文章适用于速通SVD分解,因此讲得不是那么详细。 > 生成:Gemini-2. 5-pro, 整理:fyerfyer 奇异值分解(SVD)是一种强大而基础的矩阵分解技术,在数据科学、机器学习和自然语言处理(NLP)等领域有广泛应用。我们可以从三个互补的角度来理解SVD: 1...

探索与利用

在强化学习中,智能体的目标是学习一个最优策略来最大化长期回报。为了达成此目标,智能体必须在两个核心行为之间做出权衡: - **探索 (Exploration)**: 尝试当前看起来并非最优的动作,目的是为了收集更多关于环境的信息,发现潜在的、更优的行动选择。 - **利用 (Exploitation)**: 执行当前已知能够带来最大回报的动作,以获取即时奖励。 **“充分的探索”**...

MDP-calculation-exercise

> In micro-blackjack, you repeatedly draw a card (with replacement) that is equally likely to be a 2, 3, or 4. You > can either Draw or Stop if the total score of the cards you have drawn is less...

基于模型的学习

在强化学习中,**基于模型的学习**(Model-Based Learning)是一种方法,其核心思想是让智能体通过与环境的交互来**学习环境的动态模型**。这个模型通常包括两个关键部分: - **转移函数 (Transition Function) $T(s, a, s')$**:预测在状态 $s$ 执行动作 $a$ 后,转移到下一个状态 $s'$ 的概率。 - **奖励函数...

无模型学习

无模型学习(Model-Free Learning)是一类无需了解环境模型(转移函数 $T$ 和奖励函数 $R$)的强化学习算法。代理**直接通过与环境的交互经验**来学习价值函数或策略。 无模型学习主要分为两大类: - **被动强化学习 (Passive Reinforcement Learning)**:代理遵循一个固定的策略...

强化学习

与马尔可夫决策过程(不同,强化学习是一种**在线规划(Online Planning)**方法。在传统的MDP(离线规划)中,智能体**完全了解环境的转移函数和奖励函数**,并以此为基础预先计算出最优策略。...

Expectimax 算法

Minimax算法的核心假设是对手总是做出最优选择,这使其在面对非最优或随机对手时显得过于悲观。例如,在棋牌或骰子游戏中,结果本身具有不确定性,Minimax的“最坏情况”分析不再适用。 **Expectimax搜索**是Minimax的泛化,专门用于处理这类不确定性。它在博弈树中引入了**机会节点(Chance Nodes)** 来取代Minimax中的最小化节点(Minimizer...

对抗性搜索与游戏理论

在传统搜索问题中,智能体可以使用搜索算法确定最佳计划并直接执行以达到目标。但在**对抗性环境**中,智能体面临一个或多个试图阻止其达成目标的对手。由于无法确定性地预知对手的策略和反应,传统搜索算法不再适用,我们需要新的算法类别来解决**对抗性搜索问题**,也就是**游戏**。 确定性零和游戏具有以下特点: - **确定性**:动作的结果是确定的,没有随机性 -...

贝尔曼方程

与在确定的搜索问题中寻找一个通往目标状态的最优“计划”不同,解决一个马尔可夫决策过程意味着寻找一个**最优策略 (Optimal Policy)**。 策略 $\pi$ 是一个从状态 $s \in S$ 到动作 $a \in A$ 的映射,即 $\pi: S \to A$。它定义了一个“反射式”智能体:给定一个状态 $s$,智能体会立即选择动作 $a =...