Hana's Blog
RL笔记(1):初入强化学习Blur image

引言(Introduction)#

强化学习 (Reinforcement Learning, RL) 是机器学习中一个独特的领域,它关注的是智能体 (Agent) 如何在环境 (Environment) 中通过试错 (Trial-and-Error) 来学习最佳策略。

如果说监督学习是“老师手把手教你做题”(有标签),那么强化学习就是“把你扔进游戏里自己玩,赢了得分,输了扣分”。智能体必须通过与环境的交互,自己总结出怎么做才能获得最高的累积奖励

核心直觉: 就像训练小狗:小狗做动作(Action),你给它骨头或训斥(Reward)。小狗为了多吃骨头,逐渐学会了“听到口令坐下”这个策略(Policy)。


强化学习 vs. 其他机器学习#

为了搞懂 RL,我们先看它和我们熟悉的监督学习有什么本质区别:

  1. 没有“正确答案” (No Ground Truth)
    • 监督学习:输入一张猫的图片,标签明确告诉你“这是猫”。
    • RL:你走了一步棋,没人告诉你这一步是“对”还是“错”,你只知道这局棋最后是赢了还是输了。
  2. 反馈是延迟的 (Delayed Reward)
    • 你现在做的一个决定(比如买股票),可能要很久之后(卖出时)才知道好坏。这被称为信用分配问题 (Credit Assignment Problem)
  3. 数据是动态分布的 (Non-i.i.d Data)
    • 你的策略变了,你看到的画面(状态)也就变了。智能体的动作会直接改变它未来接收到的数据。

核心组件:RL 的世界观#

强化学习的一切都发生在一个循环交互中。我们需要掌握以下几个核心术语,它们是后续所有章节的基石。

1. 交互循环 (The Loop)#

在每一个时刻 tt

  1. 观察:智能体看到环境的状态 StS_t
  2. 动作:智能体根据策略,选择一个动作 AtA_t
  3. 反馈:环境受到动作影响,变成新状态 St+1S_{t+1},并给出一个即时奖励 RtR_t

2. 状态 (State, SS)#

状态是对环境现状的描述。

  • 例子:在玩《王者荣耀》时,屏幕上的所有画面(英雄位置、血量、小地图)就是状态。
  • 全观测 vs. 部分观测:如果你能看到整个棋盘,这叫全观测;如果你在打扑克,你看不到对手的牌,这叫部分观测(POMDP)。

3. 动作 (Action, AA)#

智能体能做的事情。

  • 离散动作:上下左右、跳跃、开火(如超级马里奥)。
  • 连续动作:方向盘转动 30.5 度、油门踩 70%(如自动驾驶)。

4. 奖励 (Reward, RR)#

奖励是一个标量数值,是环境给智能体的唯一反馈信号。

  • 奖励假设 (The Reward Hypothesis):所有目标都可以被描述为“最大化累积奖励的期望”。
  • 注意:奖励定义了“好坏”,但没告诉智能体“怎么做”。

5. 策略 (Policy, π\pi)#

策略是智能体的大脑,它定义了在某个状态下该采取什么动作

  • 确定性策略:看到 ss,就做 aa。即 a=π(s)a = \pi(s)
  • 随机性策略:看到 ss,有 70% 概率做 a1a_1,30% 概率做 a2a_2。即 π(as)=P(At=aSt=s)\pi(a|s) = P(A_t=a|S_t=s)

6. 价值 (Value, VV)#

这是 RL 中最关键的概念之一(后续笔记会详细讲)。 奖励是眼前的利益,价值是长远的目光。

  • 例子:为了赢下棋局(高价值),你可能需要牺牲一个车(负的即时奖励)。
  • 价值函数预测了:从当前状态出发,未来总共能拿多少分。

两个核心难题#

在深入学习具体算法前,我们需要理解阻碍智能体变强的两大难题:

1. 序列决策 (Sequential Decision Making)#

智能体的动作有长远影响。现在的选择决定了未来的状态,进而限制了未来的选择。

  • 解决思路:我们需要引入 马尔可夫决策过程 (MDP) 来数学化描述这个过程(详见笔记 3),并通过 动态规划(笔记 5)或 时序差分(笔记 6)来求解未来的价值。

2. 探索与利用 (Exploration vs. Exploitation)#

这是 RL 独有的矛盾。

  • 利用 (Exploitation):根据现有经验,做那个我认为最好的动作(拿确定的分数)。
  • 探索 (Exploration):尝试一个没做过的动作,虽然可能导致扣分,但也可能发现一条通往更高分的新捷径。
  • 解决思路:就像去餐厅吃饭,是去吃那家确定的好吃的店(利用),还是去试一家新开的店(探索)?
  • 这个问题在 多臂老虎机 (Multi-armed Bandit) 问题中最为纯粹(详见笔记 2)。

学习路线图 (Roadmap)#

本系列笔记将按照以下逻辑逐步深入:

  1. 无状态的基础:从最简单的多臂老虎机(笔记 2)开始,只考虑动作选择,不考虑状态转移。
  2. 建立数学模型:引入马尔可夫决策过程 (MDP)(笔记 3),正式描述状态转移和序列决策。
  3. 求解 MDP
    • 如果你知道环境的一切规则(上帝视角),使用动态规划(笔记 5)。
    • 如果你只能通过玩游戏来学习(蒙眼摸象),使用蒙特卡洛(笔记 4)和时序差分(笔记 6)。
  4. 进阶与深度强化学习
    • 当状态太多存不下表格时,我们引入神经网络,进入 Deep RL 时代(DQN, Policy Gradient, Actor-Critic 等)。
    • 一直到最前沿的 SAC, PPO 等算法。

让我们开始这段旅程吧!

RL笔记(1):初入强化学习
https://hana-blog.top/blog/rl-note-1
Author 菊花花
Published at December 10, 2025
Comment seems to stuck. Try to refresh?✨