深度强化学习领域盘点系列

编程入门行业动态更新时间:2024-10-13 12:17:37

深度强化学习领域盘点系列

今天，你AI了没？

关注：决策智能与机器学习，每天学点AI干货

深度强化学习的快速发展得益于神经网络技术的成熟，然而深层次的技术研究主要集中在一部分高精尖企业和研究机构，他们提出了很多深度强化学习的相关算法、优化方法以及应用领域，在顶尖赛事（围棋、星际争霸等）和实际应用（药物研发等）中取得了突破性的进展。

注：对诸如IPhone SE等小屏幕手机阅读不太友好，还望见谅！

DeepMind

创始人团队

Demis Hassabis, Shane Legg and Mustafa Suleyman

2010年，英国人工智能公司

2016年，Google收购DeepMind

DeepMind，位于英国伦敦，是由人工智能程序师兼神经科学家戴密斯·哈萨比斯(Demis Hassabis)等人联合创立，是前沿的人工智能企业，其将机器学习和系统神经科学的最先进技术结合起来，建立强大的通用学习算法。其最初成果主要应用于模拟、电子商务、游戏开发等商业领域。目前，Google 旗下的 DeepMind 已经成为 AI 领域的明星，据外媒 2016年6月8日，DeepMind 欲将其算法应用到医疗保健行业，包括计划在 5年内使用机器学习处理英国国家医疗服务体系（以下简称：NHS）的数据。

/ 相关研究

【应用】DeepMind研究了Gym在内的很多游戏的应用，包括击败了人类围棋选手的AlphaGo/Zero, 星际争霸II的AlphaStar以及蛋白质应用的AlphaFold等三款明星产品。

【算法】在算法领域提出了诸如DQN系列、Rainbow、DPG、DDPG、PGQ、A3C、UNREAKL等

【框架】在框架方面提出了基于Tensorflow的TRFL强化学习框架、Sonnet、graph_nets等诸多产品

【环境】在强化学习模拟环境方面提出了基于Mujoco的dm_control套件

【应用】提出了为Google数据中心的智能电力调度方法、解决了医疗、社会方面的诸多问题

【Wiki】

【研究】

【应用】

【Blog】

【Github】

OpenAI

创始人团队

马斯克与其他硅谷科技大亨进行连续对话后，共同创建

OpenAI，由诸多硅谷大亨联合建立的人工智能非营利组织。2015年马斯克与其他硅谷科技大亨进行连续对话后，决定共同创建OpenAI，希望能够预防人工智能的灾难性影响，推动人工智能发挥积极作用。特斯拉电动汽车公司与美国太空技术探索公司SpaceX创始人马斯克、Y Combinator总裁阿尔特曼、天使投资人彼得·泰尔（Peter Thiel）以及其他硅谷巨头去年12月份承诺向OpenAI注资10亿美元。目前在诸如OpenAI Five等方面取得了突破性成就。

/ 相关研究

【开源】为业界贡献了第一个学习强化学习手册SpinningUp(/),每个强化学习者都需要看的文档

【算法】在算法领域提出了诸如TRPO、PPO等经典算法

【环境】在强化学习模拟环境方面提出了基于Mujoco的Gym环境，也是目前最为流行的强化学习框架

【应用】提出了为Google数据中心的智能电力调度方法、解决了医疗、社会方面的诸多问题

【研究】

【Blog】

【Github】

UC Berkeley

（高等院校研究机构）

University of California,Berkeley[电子工程与计算机系]，在20世纪60年代早期，伴随着最早的实用分时计算机系统的诞生，1968年，一群电气工程学院的成员转到字母和科学学院，建立了计算机科学系。1973年，电子工程和计算机科学两个学院合并成电子工程和计算机科学学部。伯克利大学对计算机科学的研究有着重要的贡献。

在20世纪80年代和90年代，人工智能得到了很大程度的发展，伯克利的研究人员在开发新的、更有概率和面向学习的人工智能方面发挥了重要作用。这种新合成方法将传统人工智能与控制理论、模式识别、神经网络和统计学习理论结合起来。如今，伯克利大学的毕业生已经成为了计算机行业和学术机构、全国乃至全球的领导者。学院现成立了包括伯克利人工智能研究实验室(BAIR)、Berkeley视听信号处理与通信系统(基础)、伯克利分校自动化科学实验室、伯克利新媒体中心(BCNM)在内的70多个研究中心和实验室，其中伯克利人工智能研究实验室将加州大学伯克利分校的研究人员聚集在计算机视觉、机器学习、自然语言处理、规划和机器人领域。BAIR包括超过24名教师和100多名研究生，他们正在研究上述领域的基本进步，以及跨界主题，包括多模态深度学习、与人兼容的人工智能，以及将人工智能与其他科学学科和人文学科联系起来。

目前UC伯克利强化学习的主要的带头人是Pietter Abbeel等，他也是OpenAI的重要科学家。

相关研究

【课程】CS 294

【研究】开源了交通信号控制能开源学习环境

【算法】提出了诸如TRPO等经典算法

【Blog】

/?refresh=1

Google Brain

（一个深度学习与人工智能科研项目团队）

Google Brain，2011年，“谷歌大脑”的雏形起源于一项斯坦福大学与谷歌公司的联合研究项目。谷歌资深专家杰夫·迪恩（Jeff Dean）, 研究员格雷科拉多（Greg Corrado）与斯坦福大学知名人工智能教授吴恩达（Andrew Ng）是这个小团队的最初三名成员。其中，吴恩达教授更是从2006年就开始尝试用深度学习技巧来解决人工智能领域的问题，这促使他在2011年与迪恩和克拉多联手创造了一个大型深度学习软件平台“DistBelief”。这是一个架构于谷歌云计算平台上的一个服务。谷歌大脑一开始只是Google X的一个研究项目而已。但因为它惊人的效益和成功，它脱离了Google X成为了谷歌总公司的单独部门。Google X前负责人埃里克泰勒(Eric Teller)曾透露谷歌大脑团队当时赚到的钱超过了整个Google X部门的成本。2012年6月，《纽约时报》报道了一个由16000台计算机集群组成的人工神经网络通过YouTube上有关于猫的资料自行训练而能够识别出“猫”这一概念。这个系统集群的机理在于模拟人类大脑活动。当时这个突破同时被美国国家公共广播和智能星球媒体报道。当前，谷歌大脑团队的标语为“让机器更智能，以提升人类生活质量。” 其七个主要研究方向如下：机器学习算法和技术、医疗健康、机器学习支撑计算机系统、机器人、自然语言理解、音乐和艺术创作、知觉仿真等。

/research/teams/brain/

目前由传奇人物Jeff Dean带队