A05_rl: 本课程主要介绍强化学习的基础知识，其目标是帮助同学们快速、顺利地进入强化学习及其应用领域的研究工作。课程主要内容包含有限马尔可夫决策过程，动态规划，无模型预测与控制(SASA,Q-Learning)，价值函数逼近(DQN)，策略梯度方法(REINFORCE)，执行者/评论者方法（AC,TRPO,PPO)，连续动作空间的确定性策略(DDPG)。

代码拉取完成，页面将自动刷新

捐赠前请先登录

将跳转至支付宝完成支付

提示

下载代码请复制以下命令到终端执行

为确保你提交的代码身份被 Gitee 正确识别，请执行以下命令完成配置

git config --global user.name userName 
git config --global user.email userEmail

初次使用 SSH 协议进行代码克隆、推送等操作时，需按下述提示完成 SSH 配置

1 生成 RSA 密钥

2 获取 RSA 公钥内容，并配置到 SSH公钥中

在 Gitee 上使用 SVN，请访问使用指南

使用 HTTPS 协议时，命令行会出现如下账号密码验证步骤。基于安全考虑，Gitee 建议配置并使用私人令牌替代登录密码进行克隆、推送等操作

Username for 'https://gitee.com': userName

Password for 'https://userName@gitee.com': # 私人令牌

请认真填写举报原因，尽可能描述详细。

举报类型

举报原因

此处可能存在不合适展示的内容，页面不予展示。您可通过相关编辑功能自查并修改。

如您确认内容无涉及不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容，可点击提交进行申诉，我们将尽快为您处理。

取消

提交

本课程主要介绍强化学习的基础知识，其目标是帮助同学们快速、顺利地进入强化学习及其应用领域的研究工作。课程主要内容包含有限马尔可夫决策过程，动态规划，无模型预测与控制(SASA,Q-Learning)，价值函数逼近(DQN)，策略梯度方法(REINFORCE)，执行者/评论者方法（AC,TRPO,PPO)，连续动作空间的确定性策略(DDPG)。

简介内容

主页

该操作需登录 Gitee 帐号，请先登录后再操作。

cv-xueba/A05_rl

简介

发行版

贡献者

近期动态

cv-xueba/A05_rl .gitee-modal { width: 500px !important; }

简介

发行版

贡献者

近期动态

搜索帮助

cv-xueba/A05_rl