

引言(Introduction)#
强化学习 (Reinforcement Learning, RL) 是机器学习中一个独特的领域,它关注的是智能体 (Agent) 如何在环境 (Environment) 中通过试错 (Trial-and-Error) 来学习最佳策略。
如果说监督学习是“老师手把手教你做题”(有标签),那么强化学习就是“把你扔进游戏里自己玩,赢了得分,输了扣分”。智能体必须通过与环境的交互,自己总结出怎么做才能获得最高的累积奖励。
核心直觉: 就像训练小狗:小狗做动作(Action),你给它骨头或训斥(Reward)。小狗为了多吃骨头,逐渐学会了“听到口令坐下”这个策略(Policy)。
强化学习 vs. 其他机器学习#
为了搞懂 RL,我们先看它和我们熟悉的监督学习有什么本质区别:
- 没有“正确答案” (No Ground Truth):
- 监督学习:输入一张猫的图片,标签明确告诉你“这是猫”。
- RL:你走了一步棋,没人告诉你这一步是“对”还是“错”,你只知道这局棋最后是赢了还是输了。
- 反馈是延迟的 (Delayed Reward):
- 你现在做的一个决定(比如买股票),可能要很久之后(卖出时)才知道好坏。这被称为信用分配问题 (Credit Assignment Problem)。
- 数据是动态分布的 (Non-i.i.d Data):
- 你的策略变了,你看到的画面(状态)也就变了。智能体的动作会直接改变它未来接收到的数据。
核心组件:RL 的世界观#
强化学习的一切都发生在一个循环交互中。我们需要掌握以下几个核心术语,它们是后续所有章节的基石。
1. 交互循环 (The Loop)#
在每一个时刻 :
- 观察:智能体看到环境的状态 。
- 动作:智能体根据策略,选择一个动作 。
- 反馈:环境受到动作影响,变成新状态 ,并给出一个即时奖励 。
2. 状态 (State, )#
状态是对环境现状的描述。
- 例子:在玩《王者荣耀》时,屏幕上的所有画面(英雄位置、血量、小地图)就是状态。
- 全观测 vs. 部分观测:如果你能看到整个棋盘,这叫全观测;如果你在打扑克,你看不到对手的牌,这叫部分观测(POMDP)。
3. 动作 (Action, )#
智能体能做的事情。
- 离散动作:上下左右、跳跃、开火(如超级马里奥)。
- 连续动作:方向盘转动 30.5 度、油门踩 70%(如自动驾驶)。
4. 奖励 (Reward, )#
奖励是一个标量数值,是环境给智能体的唯一反馈信号。
- 奖励假设 (The Reward Hypothesis):所有目标都可以被描述为“最大化累积奖励的期望”。
- 注意:奖励定义了“好坏”,但没告诉智能体“怎么做”。
5. 策略 (Policy, )#
策略是智能体的大脑,它定义了在某个状态下该采取什么动作。
- 确定性策略:看到 ,就做 。即 。
- 随机性策略:看到 ,有 70% 概率做 ,30% 概率做 。即 。
6. 价值 (Value, )#
这是 RL 中最关键的概念之一(后续笔记会详细讲)。 奖励是眼前的利益,价值是长远的目光。
- 例子:为了赢下棋局(高价值),你可能需要牺牲一个车(负的即时奖励)。
- 价值函数预测了:从当前状态出发,未来总共能拿多少分。
两个核心难题#
在深入学习具体算法前,我们需要理解阻碍智能体变强的两大难题:
1. 序列决策 (Sequential Decision Making)#
智能体的动作有长远影响。现在的选择决定了未来的状态,进而限制了未来的选择。
- 解决思路:我们需要引入 马尔可夫决策过程 (MDP) 来数学化描述这个过程(详见笔记 3),并通过 动态规划(笔记 5)或 时序差分(笔记 6)来求解未来的价值。
2. 探索与利用 (Exploration vs. Exploitation)#
这是 RL 独有的矛盾。
- 利用 (Exploitation):根据现有经验,做那个我认为最好的动作(拿确定的分数)。
- 探索 (Exploration):尝试一个没做过的动作,虽然可能导致扣分,但也可能发现一条通往更高分的新捷径。
- 解决思路:就像去餐厅吃饭,是去吃那家确定的好吃的店(利用),还是去试一家新开的店(探索)?
- 这个问题在 多臂老虎机 (Multi-armed Bandit) 问题中最为纯粹(详见笔记 2)。
学习路线图 (Roadmap)#
本系列笔记将按照以下逻辑逐步深入:
- 无状态的基础:从最简单的多臂老虎机(笔记 2)开始,只考虑动作选择,不考虑状态转移。
- 建立数学模型:引入马尔可夫决策过程 (MDP)(笔记 3),正式描述状态转移和序列决策。
- 求解 MDP:
- 如果你知道环境的一切规则(上帝视角),使用动态规划(笔记 5)。
- 如果你只能通过玩游戏来学习(蒙眼摸象),使用蒙特卡洛(笔记 4)和时序差分(笔记 6)。
- 进阶与深度强化学习:
- 当状态太多存不下表格时,我们引入神经网络,进入 Deep RL 时代(DQN, Policy Gradient, Actor-Critic 等)。
- 一直到最前沿的 SAC, PPO 等算法。
让我们开始这段旅程吧!