主要符号对照表

符号

说明

RL

强化学习 (Reinforcement Learning)

MFRL

免模型强化学习 (Model-free Reinforcement Learning)

MBRL

基于模型的强化学习 (Model-based Reinforcement Learning)

MARL

多智能体强化学习 (Multi-agent Reinforcement Learning)

MetaRL

元强化学习 (Meta Reinforcement Learning)

IL

模仿学习 (Imitation Learning)

On-policy

同策略

Off-policy

异策略

MDP

马尔科夫决策过程 (Markov Decision Process)

POMDP

部分可观测马尔科夫决策过程 (Partially Observable Markov Decision Process)

Agent

智能体

\pi,Policy

策略

Actor

动作(网络),又称作策略(网络)

Critic

评价(网络)

s\in \mathcal{S},State

状态

o\in \mathcal{O},Observation

观测值,为状态的一部分,o\subseteq s

a\in \mathcal{A},Action

动作

r\in \mathcal{R},Reward

奖励

d\in \{0, 1\},Done

结束符,0表示未结束,1表示结束

s_t, o_t, a_t, r_t, d_t

在一个轨迹中时刻 t 的状态、观测值、动作、奖励和结束符

P_{ss^\prime}^a\in \mathcal{P}

在当前状态 s 采取动作 a 之后,转移到状态 s' 的概率;P_{ss^\prime}^a=\mathbb{P}\{s_{t+1}=s^\prime|s_t=s, a_t=a\}

R_s^a

在当前状态 s 采取动作 a 之后所能获得的期望奖励;R_s^a=\mathbb{E}[r_t|s_t=s, a_t=a]

\gamma

折扣因子,作为对未来回报不确定性的一个约束项,\gamma\in [0, 1]

G_t,Return

累计折扣回报,G_t=\sum_{i=t}^\infty \gamma^{i-t} r_{i}

\pi(a|s)

随机性策略,表示获取状态 s 之后采取的动作 a 的概率

\pi(s)

确定性策略,表示获取状态 s 之后采取的动作

V(s)

状态值函数(State-Value Function),表示状态 s 对应的期望累计折扣回报

V^\pi(s)

使用策略 \pi 所对应的状态值函数,V^\pi(s)=\mathbb{E}_{\pi} [G_t|s_t=s]

Q(s, a)

动作值函数(Action-Value Function),表示状态 s 下采取动作 a 所对应的期望累计折扣回报

Q^\pi(s, a)

使用策略 \pi 所对应的动作值函数,Q^\pi(s, a) = \mathbb{E}_{a\sim \pi} [G_t|s_t=s, a_t=a]

A(s, a)

优势函数,A(s, a) = Q(s, a) - V(s)

Batch

数据组

Buffer

数据缓冲区

Replay Buffer

重放缓冲区

RNN

循环神经网络(Recurrent Neural Network)