总结

本论文描述了一个基于PyTorch的深度强化学习算法平台“天授”。该平台支持了诸多主流的强化学习算法(主要为免模型强化学习算法),支持各种不同的环境的并行采样、数据存储、定制化,还同时做到了模块化、实现简洁、可复现性强、接口灵活等特性,并且在基准测试中,天授的速度优于其他已有平台。

天授平台旨在提供一个用户友好的标准化的强化学习平台,降低算法开发成本。如今天授已在GitHub上开源 1 ,并且提供了一系列教程和代码文档 2 ,目前已经拥有1500多颗星标,收到了众多使用者的一致好评。

后续的工作将围绕如下方面进行:

  • 算法: (1)加入更多免模型强化学习算法,比如Rainbow DQN [HMvH+18] ;(2)加入基于模型的强化学习算法,比如MCTS与AlphaGo [SHM+16] (目前平台接口已经支持,代码正在完善中);(3)加入更多模仿学习算法,比如GAIL [HE16] ;(4)加入多智能体训练的接口;

  • 环境: 加入更多种类的环境并行接口,比如共享内存的环境接口,做到更高效的并行采样;

  • 文档: 完善教程;

  • 示例: 提供更多任务上(如Atari、Mujoco各个任务)调优过的示例代码,方便开箱即用与二次开发。

1

GitHub项目地址:https://github.com/thu-ml/tianshou/

2

文档地址:http://tianshou.readthedocs.io/