Posts tagged with "MDP"

MDP-calculation-exercise

August 8, 2025 1555 words • 8 min read

> In micro-blackjack, you repeatedly draw a card (with replacement) that is equally likely to be a 2, 3, or 4. You > can either Draw or Stop if the total score of the cards you have drawn is less...

#Re-Le #MDP

贝尔曼方程

August 7, 2025 1200 words • 6 min read

与在确定的搜索问题中寻找一个通往目标状态的最优“计划”不同，解决一个马尔可夫决策过程意味着寻找一个**最优策略 (Optimal Policy)**。策略 $\pi$ 是一个从状态 $s \in S$ 到动作 $a \in A$ 的映射，即 $\pi: S \to A$。它定义了一个“反射式”智能体：给定一个状态 $s$，智能体会立即选择动作 $a =...

#Re-Le #MDP

马尔可夫决策过程

August 7, 2025 869 words • 5 min read

马尔可夫决策过程（Markov Decision Processes, MDP）为智能体在不确定性环境中进行决策提供了一个数学模型。其核心思想是，智能体的下一个状态**只与当前状态和所选动作有关，而与之前的历史无关**。一个MDP由以下几个关键部分定义： - **状态集合**：一个包含**所有可能状态**的集合 $S$。 -...

#Re-Le #MDP

策略迭代

August 7, 2025 757 words • 4 min read

策略迭代是一种用于在马尔可夫决策过程中寻找最优策略 $\pi^*$ 的算法。与值迭代相比，策略迭代通常能够更快地收敛，因为它**直接优化策略**，而策略的收敛速度往往比值的收敛速度快得多。该算法的核心思想是：从一个任意的初始策略开始，通过一个迭代循环不断优化它，直到策略不再发生变化为止。每一次迭代都包含两个核心步骤：**策略评估**和**策略改进**。 | 特性 | 价值迭代...

#Re-Le #MDP

价值迭代

August 7, 2025 1259 words • 7 min read

价值迭代 (Value Iteration) 是一种经典的动态规划算法，用于在已知的马尔可夫决策过程中，计算所有状态的最优价值函数 $V^*(s)$。其核心思想是通过迭代的方式，不断更新每个状态的价值，直到价值收敛为止。算法通过引入“时间限制”的概念，从一个有限的未来开始，**逐步扩展到无限的未来**，最终得到最优价值。我们定义 $V_k(s)$ 为在状态 $s$ 出发，且**还剩下...

#Re-Le #MDP