谷歌推出强化学习新框架“多巴胺”-常德之声

您所在的位置: > 主页 > 常德之声 > 科技 > 正文

谷歌推出强化学习新框架“多巴胺”来源：　日期：2020-10-18 13:50:24 阅读：-

增强学习是一种十分关键的 AI 技术性，它能应用奖赏（或处罚）来驱动器智能体向着特殊总体目标前行，例如它训炼的 AI 系统软件 AlphaGo 战胜了顶级中国围棋参赛选手，它也是 DeepMind 的深层 Q 互联网的关键一部分，它能够在好几个 workers 中间逐层学习培训，比如，在 Atari 2600 游戏里面完成“超人2”特性。

不便的是，增强学习架构必须花销很多時间来把握一个总体目标，并且架构通常不是灵便和不一直平稳的。如今，Google公布了一个根据TensorFlow的增强学习开源框架，全名是Dopamine。此外，也有一组Dopamine的课堂教学colab。和它的姓名Dopamine（胆碱）一样，新架构听上来就激动人心。

除开增强学习架构的公布，Google还发布了一个网站，容许开发者迅速数据可视化好几个智能体的训炼运作状况。她们期待，这一架构的协调能力和便捷性将使科学研究工作人员能积极主动试着新的念头，无论是渐进性還是激进派式的念头。

清楚，简约，实用

清楚和简约是该架构设计方案时要考虑到的2个首要条件。大家出示更精减的编码（大概 15 个Python 文档），而且有详尽纪录。它是根据致力于 Arcade 学习环境（一个完善的，便于了解的标准）和四个根据 value 的智能体来完成的：DQN，C51，一个精心安排的 Rainbow 智能体的简单化版本号，及其隐式分位数互联网（Implicit Quantile Network）智能体，这已在上月的 ICML 交流会上早已发布。大家期待这类形象性使科学研究工作人员可以轻轻松松掌握智能体內部的运行情况，并积极主动试着新的念头。

可重现

大家对可重复性在增强学习科学研究中的必要性尤其比较敏感。因此，大家为编码出示详细的检测普及率，这种检测也可做为别的文本文档方式。除此之外，大家的试验架构遵照 Machado 等得出的有关应用 Arcade 学习环境规范化工作经验评定的提议。

标准检测

针对新的科学研究工作人员而言，可以依据明确方式迅速对其念头开展标准检测十分关键。因而，大家为 Arcade 学习环境适用的 60 个手机游戏出示四个智能体的详细学习培训数据信息，可作为 Python pickle 文档（用以应用大家架构训炼的智能体）和 JSON 数据库文件（用以与受到别的架构训炼的智能体开展较为）；大家还出示了一个网站，你能在这其中迅速查询 60 个游戏里面全部智能体的训炼运作状况。

下边展现我们在 Seaquest 上的 4 个代理商的训炼状况，它是由 Arcade 学习环境适用的一种 Atari 2600 手机游戏。

下列得出Github新项目的详细地址https://github.com/google/dopamine，热烈欢迎大伙儿fork和star！

（正文已结束）

免责声明及提醒：此文内容为本网所转载企业宣传资讯，该相关信息仅为宣传及传递更多信息之目的，不代表本网站观点，文章真实性请浏览者慎重核实！任何投资加盟均有风险，提醒广大民众投资需谨慎！

推荐图文

高星商业广场助推常德开启商贸物

9月28日,和立东升集团旗下又一产业园区迎来喜庆时刻,常德高星商业广场5...