欢迎查看天授平台中文文档¶
天授 是一个基于PyTorch的深度强化学习平台,目前实现的算法有:
DQN
DQNPolicyDeep Q-Network双网络DQN
DQNPolicyDouble DQNC51
C51PolicyCategorical DQNQR-DQN
QRDQNPolicyQuantile Regression DQNRainbow
RainbowPolicyRainbow DQNIQN
IQNPolicyImplicit Quantile NetworkFQF
FQFPolicyFully-parameterized Quantile Function策略梯度
PGPolicyPolicy Gradient自然策略梯度
NPGPolicyNatural Policy Gradient优势动作评价 (A2C)
A2CPolicyAdvantage Actor-Critic信任区域策略优化 (TRPO)
TRPOPolicyTrust Region Policy Optimization近端策略优化 (PPO)
PPOPolicyProximal Policy Optimization深度确定性策略梯度 (DDPG)
DDPGPolicyDeep Deterministic Policy Gradient双延迟深度确定性策略梯度 (TD3)
TD3PolicyTwin Delayed DDPG软动作评价 (SAC)
SACPolicySoft Actor-Critic离散软动作评价
DiscreteSACPolicyDiscrete Soft Actor-Critic模仿学习
ImitationPolicyImitation LearningBCQ
DiscreteBCQPolicyDiscrete Batch-Constrained deep Q-LearningCQL
DiscreteCQLPolicyDiscrete Conservative Q-LearningCRR
DiscreteCRRPolicyCritic Regularized Regression后验采样强化学习 (PSRL)
PSRLPolicyPosterior Sampling Reinforcement Learning优先级经验重放 (PER)
PrioritizedReplayBufferPrioritized Experience Replay广义优势函数估计器 (GAE)
compute_episodic_return()Generalized Advantage Estimator
天授还有如下特点:
实现优雅,使用4000多行代码即完全实现上述功能
目前为止实现效果最好的 MuJoCo benchmark
支持任意算法的多个环境(同步异步均可的)并行采样,详见 环境并行采样
支持动作网络和价值网络使用循环神经网络(RNN)来实现,详见 RNN训练
支持自定义环境,包括任意类型的观测值和动作值(比如一个字典、一个自定义的类),详见 自定义环境与状态表示
支持自定义训练策略,详见 定制化训练策略
支持 N-step bootstrap 采样方式
compute_nstep_return()和优先级经验重放PrioritizedReplayBuffer在任意基于Q学习的算法上的应用;感谢numba jit的优化让GAE、nstep和PER运行速度变得巨快无比支持多智能体学习,详见 多智能体强化学习
拥有全面的 单元测试,包括功能测试、完整训练流程测试、文档测试、代码风格测试和类型测试
与英文文档不同,中文文档提供了一个宏观层面的对天授平台的概览。(其实都是 毕业论文 里面弄出来的)
安装¶
天授目前发布在 PyPI 和 conda-forge 中,需要Python版本3.6以上。
通过PyPI进行安装:
$ pip install tianshou
通过conda进行安装:
$ conda install -c conda-forge tianshou
还可以直接从GitHub源代码最新版本进行安装:
$ pip install git+https://github.com/thu-ml/tianshou.git@master --upgrade
在安装完毕后,打开您的Python并输入
import tianshou
print(tianshou.__version__)
如果没有异常出现,那么说明已经成功安装了。
贡献