探索与利用 August 8, 2025 1109 words • 6 min read 在强化学习中,智能体的目标是学习一个最优策略来最大化长期回报。为了达成此目标,智能体必须在两个核心行为之间做出权衡: - **探索 (Exploration)**: 尝试当前看起来并非最优的动作,目的是为了收集更多关于环境的信息,发现潜在的、更优的行动选择。 - **利用 (Exploitation)**: 执行当前已知能够带来最大回报的动作,以获取即时奖励。 **“充分的探索”**... #Re-Le
MDP-calculation-exercise August 8, 2025 1490 words • 8 min read > In micro-blackjack, you repeatedly draw a card (with replacement) that is equally likely to be a 2, 3, or 4. You can either Draw or Stop if the total score of the cards you have drawn is less... #Re-Le#MDP
基于模型的学习 August 8, 2025 795 words • 4 min read 在强化学习中,**基于模型的学习**(Model-Based Learning)是一种方法,其核心思想是让智能体通过与环境的交互来**学习环境的动态模型**。这个模型通常包括两个关键部分: - **转移函数 (Transition Function) $T(s, a, s')$**:预测在状态 $s$ 执行动作 $a$ 后,转移到下一个状态 $s'$ 的概率。 - **奖励函数... #Re-Le
无模型学习 August 8, 2025 1369 words • 7 min read 无模型学习(Model-Free Learning)是一类无需了解环境模型(转移函数 $T$ 和奖励函数 $R$)的强化学习算法。代理**直接通过与环境的交互经验**来学习价值函数或策略。 无模型学习主要分为两大类: - **被动强化学习 (Passive Reinforcement Learning)**:代理遵循一个固定的策略... #Re-Le
强化学习 August 8, 2025 756 words • 4 min read 与马尔可夫决策过程(不同,强化学习是一种**在线规划(Online Planning)**方法。在传统的MDP(离线规划)中,智能体**完全了解环境的转移函数和奖励函数**,并以此为基础预先计算出最优策略。... #Re-Le
贝尔曼方程 August 7, 2025 1200 words • 6 min read 与在确定的搜索问题中寻找一个通往目标状态的最优“计划”不同,解决一个马尔可夫决策过程意味着寻找一个**最优策略 (Optimal Policy)**。 策略 $\pi$ 是一个从状态 $s \in S$ 到动作 $a \in A$ 的映射,即 $\pi: S \to A$。它定义了一个“反射式”智能体:给定一个状态 $s$,智能体会立即选择动作 $a =... #Re-Le#MDP
马尔可夫决策过程 August 7, 2025 869 words • 5 min read 马尔可夫决策过程(Markov Decision Processes, MDP)为智能体在不确定性环境中进行决策提供了一个数学模型。其核心思想是,智能体的下一个状态**只与当前状态和所选动作有关,而与之前的历史无关**。 一个MDP由以下几个关键部分定义: - **状态集合**:一个包含**所有可能状态**的集合 $S$。 -... #Re-Le#MDP
策略迭代 August 7, 2025 751 words • 4 min read 策略迭代是一种用于在马尔可夫决策过程中寻找最优策略 $\pi^*$ 的算法。与值迭代相比,策略迭代通常能够更快地收敛,因为它**直接优化策略**,而策略的收敛速度往往比值的收敛速度快得多。 该算法的核心思想是:从一个任意的初始策略开始,通过一个迭代循环不断优化它,直到策略不再发生变化为止。每一次迭代都包含两个核心步骤:**策略评估**和**策略改进**。 | 特性 | 价值迭代... #Re-Le#MDP
价值迭代 August 7, 2025 1258 words • 7 min read 价值迭代 (Value Iteration) 是一种经典的动态规划算法,用于在已知的马尔可夫决策过程中,计算所有状态的最优价值函数 $V^*(s)$。其核心思想是通过迭代的方式,不断更新每个状态的价值,直到价值收敛为止。 算法通过引入“时间限制”的概念,从一个有限的未来开始,**逐步扩展到无限的未来**,最终得到最优价值。 我们定义 $V_k(s)$ 为在状态 $s$ 出发,且**还剩下... #Re-Le#MDP