欢迎查看天授平台中文文档¶
天授 是一个基于PyTorch的深度强化学习平台,目前实现的算法有:
策略梯度
PGPolicy
Policy Gradient深度Q网络
DQNPolicy
Deep Q-Network双网络深度Q学习
DQNPolicy
Double DQN with n-step returns优势动作评价
A2CPolicy
Advantage Actor-Critic深度确定性策略梯度
DDPGPolicy
Deep Deterministic Policy Gradient近端策略优化
PPOPolicy
Proximal Policy Optimization双延迟深度确定性策略梯度
TD3Policy
Twin Delayed DDPG软动作评价
SACPolicy
Soft Actor-Critic模仿学习
ImitationPolicy
Imitation Learning优先级经验重放
PrioritizedReplayBuffer
Prioritized Experience Replay广义优势函数估计器
compute_episodic_return()
Generalized Advantage Estimator
天授支持所有算法的并行环境采样,所有算法均被重新形式化为基于重放缓冲区的算法。所有算法的Actor均支持循环状态表示(RNN Network)。
与英文文档不同,中文文档提供了一个宏观层面的对天授平台的概览。(其实都是 毕业论文 里面弄出来的)
安装¶
天授目前发布在 PyPI 中,可以通过
pip3 install tianshou
来在您的Python环境中直接安装(注意Python版本需要是3.6以上)。当然也可以选择从GitHub源代码直接安装最新开发版本:
pip3 install git+https://github.com/thu-ml/tianshou.git@master
如果使用的Python是托管在Anaconda或者Miniconda中,那么可以用如下命令进行安装:
# 搞个新环境并让它自带pip
conda create -n myenv pip
# 激活这个新环境
conda activate myenv
# 安装天授
pip install tianshou
在安装完毕后,打开您的Python并输入
import tianshou as ts
print(ts.__version__)
如果没有异常出现,那么说明已经成功安装了。