编者注:请关注将会在2018年4月10-13日举办的人工智能北京大会上的议题“Get your hard hat: Intelligent industrial systems with deep reinforcement learning”。

大量关于AlphaGo Zero(DeepMind最新版的围棋人工智能系统)新闻头条的出现意味着对于强化学习(RL)的兴趣必定会增加。强化学习是人工智能中仅次于深度学习的最受关注的主题之一。对于大多数公司来说,强化学习是需要调查和评估的技术,但只有很少企业已经找到强化学习可能发挥作用的应用场景。在进入2018年之际,我想简要介绍一下已经采用强化学习的一些领域。

目前,强化学习经常被混淆地用来指代一系列问题和技术,所以让我们先来看看这篇文章里所说的强化学习是什么。一般来说,强化学习的目标是学习如何将观测和测量映射到一组行为。而这些行为会试图去最大化一些长期的奖励。这个目标通常会涉及到智能体与环境进行交互,并学习最佳序贯决策。在事实上,强化学习的许多最初的应用都是出现在长期寻求自动化贯序决策的领域。和传统的在线学习不同,强化学习带来了一系列独特的挑战,因为它经常会碰到延迟反馈、稀疏奖励等问题。同时(最重要的是)智能体会给它所互动的环境造成影响。

作为一种机器学习技术,深度学习已经开始被很多公司在机器学习应用中所使用,但强化学习还没有能进入许多企业。我写这篇文章的目标就是勾勒出强化学习的应用会出现的一些领域。

图1 PPT由Ben Lorica友情提供

让我首先列举强化学习在企业中面临的一些挑战。正如Andrew Ng(吴恩达)在旧金山人工智能大会上的主题演讲中指出的那样,强化学习需要大量的数据,因此它经常与有模拟数据的领域(游戏、机器人等)相关联。把研究论文的结果应用到实际应用中并不容易。即使对于强化学习研究人员来说,复制别人的研究结果也是一个挑战,更不用说常规的数据科学家了(可参见最近的这篇文章和OpenAI的博客)。随着机器学习被部署在企业的关键任务场景里,可重现性和估计错误的能力正变得至关重要。所以至少是现在,强化学习可能并不适用于需要持续进行控制的关键任务的应用。

尽管如此,依赖于强化学习的应用和产品已经出现。有不少定义明确的涉及个性化或自动化的任务,它们可以从强化学习能帮助实现自动化的序贯决策中受益(或者,强化学习至少可以帮助增强人类专家)。对企业而言,关键是从简单的适合强化学习场景的应用案例开始,而不是从过于复杂的“需要AI”的问题开始。为了使事情更加具体,让我重点列出一些强化学习开始出现的关键应用领域。

机器人和工业自动化

强化学习在高维控制问题(诸如机器人等)中的应用已经是学术界和工业界共同的研究课题。同时初创公司也开始使用强化学习来打造机器人产品。

工业自动化是另一个有前景的领域。DeepMind的强化学习技术帮助Google显着降低了其数据中心的能耗(HVAC)。初创公司已经注意到自动化解决方案有一个很大的市场。其中之一就是Bonsai,它们正在开发工具来帮助企业将强化学习和其他技术用于工业应用。一个常见的例子是使用人工智能来调优机器和设备,而目前这些工作需要专家级的操作人员才能完成。

图2 胶片由Mark Hammond提供,并授权使用

如果考虑的是工业系统,Bonsai最近给出了下列可能需要考虑使用强化学习的标准:

  • 你正在使用模拟器,因为系统或过程对于通过试错来训练机器来说太复杂(或者物理上过于危险);

  • 你正在处理大状态空间;

  • 你正寻求通过优化运营效率和提供决策支持来增强人类分析师和领域专家的能力。

数据科学和机器学习

机器学习库已经变得很更容易使用了,但是选择合适的模型或模型架构对于数据科学家来说仍然是一个挑战。随着深度学习成为数据科学家和机器学习工程师使用的技术之一,那些可以帮助人们识别和调优神经网络架构的工具成为了活跃的研究领域。多个研究小组已经提出使用强化学习来使神经网络架构的设计更容易(例如,MIT的MetaQNN和Net2Net操作)。Google的AutoML可以使用强化学习为计算机视觉和语言建模生成最前沿的机器生成的神经网络架构。

除了可以简化创建机器学习模型的工具之外,还有一些人认为强化学习可以帮助软件工程师编写计算机程序。

教育和培训

在线平台已经开始尝试使用机器学习来创建个性化的体验。一些研究人员正在研究在教学系统和个性化学习中使用强化学习和其他机器学习方法。采用强化学习可以为辅导系统提供适应学生个人特定需求的定制化的指导和素材。一些研究人员正在为未来的辅导系统开发强化学习算法和统计的方法。这些方法需要的数据比较少。

保健和医学

强化学习的智能体和环境进行交互并基于所采取的行动接收反馈的场景和医学里学习治疗策略有相似之处。事实上,强化学习在医疗保健中的很多应用都和找到最佳的治疗策略有关。最近一些论文引用了强化学习在医疗设备、药物剂量和两阶段临床试验中的应用。

文字,语音和对话系统

企业收集了大量的文本,因此可以帮助“解锁”这些非结构化文本的好工具将赢得用户。2017年早些时候,SalesForce的人工智能研究人员使用深度强化学习来进行摘要性文本总结(一种从原始文本文档中“摘要出”内容总结的自动化技术)。这可能是基于强化学习的工具能赢得用户的一个新领域,因为许多企业都需要更好的文本挖掘解决方案。

强化学习也被用来让对话系统(即聊天机器人)通过和用户的交互来学习,从而能帮助它们随着时间的推移逐步改进(现在的许多企业的聊天机器人是依赖于决策树的)。这是一个科研和风险投资都很活跃的领域:参见语义机器和VocalIQ(最近被Apple收购)。

传媒和广告

微软最近的一篇论文里介绍了一个名为Decision Service(决策服务)的内部系统,这个系统已经在Azure上开放。论文里描述了决策服务在内容推荐和广告中的应用。决策服务更通用的目标是针对模型失效的机器学习产品,包括“循环反馈和偏置、分布式数据收集,环境变化和未能监控和调试的模型“。

强化学习的其他应用包括优化跨渠道营销和实时投标在线广告系统。

金融

作为对冲基金的一个带队数据分析师,我开始了自己的职业生涯。所以我并不感到惊讶的是很少有金融公司愿意公开讲话。总体而言,我接触过一些正在评估深度学习和强化学习的数据分析师和交易员,但除了小规模试验外他们还没有找到足够的场景来使用这些工具。尽管在一些研究论文中描述了这些技术在金融领域的潜在应用,但很少有企业宣称它们在生产系统软件里已经采用了。

不过一个例外是JP摩根用于交易执行的系统。《金融时报》的一篇文章介绍了这个基于强化学习实现优化交易执行的系统。该系统(被称为“LOXM”)正被用来以最快的速度和最好的价格执行交易。

与任何新科技一样,运用强化学习的关键在于了解其优缺点,然后找到简单的应用场景来尝试。我们应该抵制AI的炒作。相反,我们应该地把强化学习看成是有用的机器学习技术的一种,即便它是一种最适合于特定类别的问题的技术。 我们刚刚开始在企业应用中看到强化学习的身影。伴随着对算法的不断研究,许多软件工具(库、模拟器、分布式计算框架,如Ray、SaaS)开始出现。 不过可以肯定的是,这些工具很少是针对行业应用所感兴趣的用户的。但是,已经有几家初创公司将强化学习纳入其产品。所以,在你知道之它们的存在之前,你可能很快就会从强化学习和相关技术的发展中受益。

相关资源:

  • “强化学习解释”

  • 企业中的深度强化学习——跨越游戏与行业之间的鸿沟(Mark Hammond在 2017年人工智能大会上的演讲)

  • Ray:一种强化学习应用的分布式执行框架(Ion Stoica在2017年人工智能大会上的演讲)

  • 用于机器人的深度强化学习 (Pieter Abbeel在2016年人工智能大会上的演讲)

  • 与人合作的汽车(Anca Dragan在2017年人工智能大会上的主题演讲)

  • 《神经进化:一种不一样的深度学习》

  • 《为什么持续学习是人工智能的关键》

This article originally appeared in English: "Practical applications of reinforcement learning in industry".

Ben Lorica

本·罗瑞卡是O'Reilly的首席数据科学家和关于数据方面的内容策略主管。在多个领域里(包括直销市场、消费者和市场研究、精准广告、文本挖掘和金融工程),他曾经进行了商业智能、数据挖掘、机器学习和统计分析的工作。他曾效力于投资管理公司、互联网创业企业和金融服务公司。

强化学习在业界的实际应用相关推荐

  1. 【华为云技术分享】华为开发者大会HDC.Cloud带你探索强化学习三大挑战及落地实践

    2015-2017年间,AlphaGo系列事件宣告在围棋领域AI算法战胜人类世界冠军,这主要得益于其背后的核心技术-深度强化学习技术.之后研究者开始转向更加复杂的对战博弈场景,典型例子如Deepmin ...

  2. 重磅下载!业界首本强化学习应用宝典,阿里核心算法团队联袂打造

    作为一名技术人,你是否曾有过这样的疑惑: 人工智能大热,作为一名传统程序员,该如何转型或学习? 网上AI教程.书籍,质量参差不齐,如何找到真正专业的资源? AI理论遍地皆是,但几乎都在纸上谈兵,该从哪 ...

  3. 业界 |「多巴胺」来袭!谷歌推出新型强化学习框架Dopamine

    作者:Pablo Samuel Castro.Marc G. Bellemare 来源:Google AI Blog,机器之心 摘要:在过去几年里,强化学习研究取得了多方面的显著进展. 在过去几年里, ...

  4. 被追捧为“圣杯”的深度强化学习已走进死胡同

    作者 | 朱仲光 编译 | 夕颜 出品 | AI科技大本营(ID:rgznai1100) [导读]近年来,深度强化学习成为一个被业界和学术界追捧的热门技术,社区甚至将它视为金光闪闪的通向 AGI 的圣 ...

  5. 推荐系统中的前沿技术研究与落地:深度学习、AutoML与强化学习 | AI ProCon 2019...

    整理 | 夕颜 出品 | AI科技大本营(ID:rgznai100) 个性化推荐算法滥觞于互联网的急速发展,随着国内外互联网公司,如 Netflix 在电影领域,亚马逊.淘宝.京东等在电商领域,今日头 ...

  6. 打破深度学习局限,强化学习、深度森林或是企业AI决策技术的“良药”

    算法.算力和数据是人工智能时代的三驾马车,成为企业赋能人工智能的动力,但它们自身的特性也为企业和高校在研究和落地应用过程带来了重重挑战.比如,训练算法的成本高昂,数据从采集.处理到存储已面临瓶颈,目前 ...

  7. 从这篇YouTube论文,剖析强化学习在工业级场景推荐系统中的应用

    作者 | 吴海波 转载自知乎用户吴海波 [导读]本文作者根据两篇工业界背景的论文解答了 RL 在推荐场景需要解决的问题与困难,以及入门需要学习得相关知识点. 2 个月前,业界开始流传 youtube ...

  8. 强化学习大规模应用还远吗?Youtube推荐已强势上线

    来源 | 转载自深度传送门 导读:本文将介绍在深度学习的强力驱动下,给推荐系统工业界所带来的最前沿的变化.本文主要根据几大顶会2019的最新论文,总结一下深度强化学习给推荐系统以及CTR预估工业界带来 ...

  9. 强化学习,路在何方?

    ↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale干货 来源:DeepRL实验室,转自:睿慕课 ▌一.深度强化学习的泡沫 201 ...

最新文章

  1. 遥望星空FTP文件同步工具(附源码)1.0 发布
  2. ML 04、模型评估与模型选择
  3. 【代码笔记】iOS-评分,支持我们
  4. Android开发学习之路-环境搭建
  5. boost::mpl模块实现fold相关的测试程序
  6. 移动端效果之Picker
  7. 周报_2012第11周(2012/03/11-2012/03/17)
  8. LeetCode 36. 有效的数独
  9. (2015秋) 软工作业成绩公布
  10. 抽奖砍价之类以均值为基础的波动算法 demo版本
  11. 美团推出外卖版拼多多;iOS 14 Beta 3暂禁用3D Touch功能;Rust 1.45 发布| 极客头条
  12. 我推荐的一些C\C++书籍
  13. Wifi Enable 启动过程
  14. mysql uroot pg t_【原创】MySQL和PostgreSQL 导入数据对比
  15. win7系统服务优化——服务列表禁止项
  16. python+百度云orc识别身份证信息
  17. 华为大数据研发第1轮面试
  18. 如何选择美颜SDK接口?
  19. 滴滴云A100 GPU裸金属服务器性能及硬件参数详解
  20. 好用的一些功能性网站

热门文章

  1. 挖到这个高危SSRF漏洞,我和我的小伙伴们都惊呆了!
  2. 联想在钛媒体峰会上提前泄漏了MOTO新杀器
  3. 190111- Dartmouth COCS1 【第五章:参数、返回值和范围】
  4. 今天14:00 | 12位一作华人学者开启 ICLR 2022
  5. 人生就像微信,迭代才有机会
  6. pr安装无法启动 计算机丢失,为什么pr安装成功却无法启动?
  7. Python中的字母范围
  8. Wipro Limited任命Rishad Premji为执行董事长
  9. 产业分析:抖音三农行业分析
  10. 口音英语识别能力评测,你的AI升级了吗?