• Stable Baselines官方文档中文版

    起这个名字有点膨胀了。

    网上没找到关于Stable Baselines使用方法的中文介绍,故翻译部分官方文档。非专业出身,如有错误,请指正。

    官方文档中文版汇总:Github CSDN

  • 注释

    @@@后的内容是自己加的注释

Stable Baselines是一组基于OpenAI Baselines的改进版强化学习(RL: Reinforcement Learning)实现。

Github网址: https://github.com/hill-a/stable-baselines

RL Baselines Zoo(预训练agents集合):https://github.com/araffin/rl-baselines-zoo

RL Baselines zoo也提供一个简单界面,用于训练、评估agents以及超参数微调。

你可以在Medium上查看一篇详细介绍Stable Baselines的文章:《Stable Baselines: OpenAI Baselines的分支:让强化学习更容易

  • 与OpenAI Baselines的主要区别

    此工具集源自OpenAI Baselines的一个分支,进行了主体结构重塑和代码清理:

    • 统一算法结构
    • PEP8兼容(统一代码风格)
    • 文档化的函数和类
    • 更多的测试&更多的代码覆盖
  • 用户向导

    • 安装

      • 预备知识
      • 稳定版本
      • 最新版本
      • 用Docker图片
    • 开始

    • 强化学习资源

    • RL算法

    • 案例

      • 先用Colab Notebook在线试试吧
      • 基础用法:训练、保存、载入
      • 多重处理:释放向量化环境的力量
      • 使用Callback:监控训练
      • Atari游戏
      • Mujoco:标准化输入特征
      • 自定义策略网络
      • 获取并调整模型参数
      • 迭代策略
      • 事后经验回放(HER)
      • 持续学习
      • 记录视频
      • 好处:制作训练好智体的GIF图片
    • 矢量化环境

      • DummyVecEnv
      • SubprocVecEnv
      • Wrappers
    • 使用自定义环境

    • 自定义策略网络

      • 案例
    • Tensorborad集成

      • 基础用法
      • 遗留集成
    • RL Baselines Zoo

      • 安装
      • 训练智体
      • 享受训练有素的智体
      • 超参数优化
      • Colab Notebook:在线尝试!
    • 预训练(克隆行为)

      • 轨迹生成专家
      • 用克隆行为预训练模型
      • 专家数据集的数据结构
    • 处理NaN和inf

      • 如何以及为何
      • Numpy参数
      • Tensorflow参数
      • VecCheckNan封装
      • 深度学习模型超参数
      • 数据集中的缺失值
  • 强化学习算法

    • Base RL Class

    • Policy Networks