欢迎查看天授平台中文文档¶
天授 是一个基于PyTorch的深度强化学习平台,目前实现的算法有:
DQN
DQNPolicy
Deep Q-Network双网络DQN
DQNPolicy
Double DQNC51
C51Policy
Categorical DQNQR-DQN
QRDQNPolicy
Quantile Regression DQNRainbow
RainbowPolicy
Rainbow DQNIQN
IQNPolicy
Implicit Quantile NetworkFQF
FQFPolicy
Fully-parameterized Quantile Function策略梯度
PGPolicy
Policy Gradient自然策略梯度
NPGPolicy
Natural Policy Gradient优势动作评价 (A2C)
A2CPolicy
Advantage Actor-Critic信任区域策略优化 (TRPO)
TRPOPolicy
Trust Region Policy Optimization近端策略优化 (PPO)
PPOPolicy
Proximal Policy Optimization深度确定性策略梯度 (DDPG)
DDPGPolicy
Deep Deterministic Policy Gradient双延迟深度确定性策略梯度 (TD3)
TD3Policy
Twin Delayed DDPG软动作评价 (SAC)
SACPolicy
Soft Actor-Critic离散软动作评价
DiscreteSACPolicy
Discrete Soft Actor-Critic模仿学习
ImitationPolicy
Imitation LearningBCQ
DiscreteBCQPolicy
Discrete Batch-Constrained deep Q-LearningCQL
DiscreteCQLPolicy
Discrete Conservative Q-LearningCRR
DiscreteCRRPolicy
Critic Regularized Regression后验采样强化学习 (PSRL)
PSRLPolicy
Posterior Sampling Reinforcement Learning优先级经验重放 (PER)
PrioritizedReplayBuffer
Prioritized Experience Replay广义优势函数估计器 (GAE)
compute_episodic_return()
Generalized Advantage Estimator
天授还有如下特点:
实现优雅,使用4000多行代码即完全实现上述功能
目前为止实现效果最好的 MuJoCo benchmark
支持任意算法的多个环境(同步异步均可的)并行采样,详见 环境并行采样
支持动作网络和价值网络使用循环神经网络(RNN)来实现,详见 RNN训练
支持自定义环境,包括任意类型的观测值和动作值(比如一个字典、一个自定义的类),详见 自定义环境与状态表示
支持自定义训练策略,详见 定制化训练策略
支持 N-step bootstrap 采样方式
compute_nstep_return()
和优先级经验重放PrioritizedReplayBuffer
在任意基于Q学习的算法上的应用;感谢numba jit的优化让GAE、nstep和PER运行速度变得巨快无比支持多智能体学习,详见 多智能体强化学习
拥有全面的 单元测试,包括功能测试、完整训练流程测试、文档测试、代码风格测试和类型测试
与英文文档不同,中文文档提供了一个宏观层面的对天授平台的概览。(其实都是 毕业论文 里面弄出来的)
安装¶
天授目前发布在 PyPI 和 conda-forge 中,需要Python版本3.6以上。
通过PyPI进行安装:
$ pip install tianshou
通过conda进行安装:
$ conda install -c conda-forge tianshou
还可以直接从GitHub源代码最新版本进行安装:
$ pip install git+https://github.com/thu-ml/tianshou.git@master --upgrade
在安装完毕后,打开您的Python并输入
import tianshou
print(tianshou.__version__)
如果没有异常出现,那么说明已经成功安装了。