欢迎查看天授平台中文文档¶

天授是一个基于PyTorch的深度强化学习平台，目前实现的算法有：

天授还有如下特点：

实现优雅，使用4000多行代码即完全实现上述功能
目前为止实现效果最好的 MuJoCo benchmark
支持任意算法的多个环境（同步异步均可的）并行采样，详见环境并行采样
支持动作网络和价值网络使用循环神经网络（RNN）来实现，详见 RNN训练
支持自定义环境，包括任意类型的观测值和动作值（比如一个字典、一个自定义的类），详见自定义环境与状态表示
支持自定义训练策略，详见定制化训练策略
支持 N-step bootstrap 采样方式 compute_nstep_return() 和优先级经验重放 PrioritizedReplayBuffer 在任意基于Q学习的算法上的应用；感谢numba jit的优化让GAE、nstep和PER运行速度变得巨快无比
支持多智能体学习，详见多智能体强化学习
拥有全面的单元测试，包括功能测试、完整训练流程测试、文档测试、代码风格测试和类型测试

与英文文档不同，中文文档提供了一个宏观层面的对天授平台的概览。（其实都是毕业论文里面弄出来的）

安装¶

天授目前发布在 PyPI 和 conda-forge 中，需要Python版本3.6以上。

通过PyPI进行安装：

$ pip install tianshou

通过conda进行安装：

$ conda install -c conda-forge tianshou

还可以直接从GitHub源代码最新版本进行安装：

$ pip install git+https://github.com/thu-ml/tianshou.git@master --upgrade

在安装完毕后，打开您的Python并输入

import tianshou
print(tianshou.__version__)

如果没有异常出现，那么说明已经成功安装了。

教程

文档

贡献