中文摘要

深度强化学习近年来取得了一系列的突破,在包括Atari游戏 [MKS+15] 、围棋 [SHM+16] 、蛋白质结构预测 [SEJ+20] 和策略游戏Dota2 [BBC+19] 等多个领域取得了极大进展,提升了业界对深度强化学习的需求与信心。但是,目前主流深度强化学习平台框架无法很好地满足这一日渐增长的需求。无论是在学术研究领域还是工业应用,现有框架普遍存在缺乏灵活的可定制化接口、代码嵌套关系复杂、训练速度较慢、完整单元测试缺失等缺点。研究者们通常需要大幅改动框架结构,甚至需要从头开始编写算法程序才能满足自身需求,阻碍了强化学习技术的进一步应用。因此,一个灵活可定制、代码简洁、训练速度快、有着可靠测试的强化学习平台对整个领域而言十分重要。

针对以上问题,本项目构建了一个基于PyTorch [PGM+19] 的深度强化学习平台 天授。天授平台仅通过2000余行代码,简洁地实现了基于策略梯度、基于Q价值函数、综合Q价值与策略梯度、模仿学习等10余种主流强化学习算法及其主要改进,支持了部分观测马尔科夫决策过程训练以及任意仿真环境的数据处理,将主流强化学习算法充分模块化并实现了需求可定制化,在和其它著名强化学习平台进行的性能对比评测中以显著优势胜出。天授旨在为用户提供一个更加友好的强化学习算法平台,降低强化学习算法的开发成本。平台代码已经在GitHub上开源:https://github.com/thu-ml/tianshou/,目前已获得超过1500个星标,受到学术界和产业界的广泛关注。

关键词:强化学习,算法,平台,PyTorch