强化学习在业界的实际应用

编者注：请关注将会在2018年4月10-13日举办的人工智能北京大会上的议题“Get your hard hat: Intelligent industrial systems with deep reinforcement learning”。

大量关于AlphaGo Zero（DeepMind最新版的围棋人工智能系统）新闻头条的出现意味着对于强化学习（RL）的兴趣必定会增加。强化学习是人工智能中仅次于深度学习的最受关注的主题之一。对于大多数公司来说，强化学习是需要调查和评估的技术，但只有很少企业已经找到强化学习可能发挥作用的应用场景。在进入2018年之际，我想简要介绍一下已经采用强化学习的一些领域。

目前，强化学习经常被混淆地用来指代一系列问题和技术，所以让我们先来看看这篇文章里所说的强化学习是什么。一般来说，强化学习的目标是学习如何将观测和测量映射到一组行为。而这些行为会试图去最大化一些长期的奖励。这个目标通常会涉及到智能体与环境进行交互，并学习最佳序贯决策。在事实上，强化学习的许多最初的应用都是出现在长期寻求自动化贯序决策的领域。和传统的在线学习不同，强化学习带来了一系列独特的挑战，因为它经常会碰到延迟反馈、稀疏奖励等问题。同时（最重要的是）智能体会给它所互动的环境造成影响。

作为一种机器学习技术，深度学习已经开始被很多公司在机器学习应用中所使用，但强化学习还没有能进入许多企业。我写这篇文章的目标就是勾勒出强化学习的应用会出现的一些领域。

图1 PPT由Ben Lorica友情提供

让我首先列举强化学习在企业中面临的一些挑战。正如Andrew Ng（吴恩达）在旧金山人工智能大会上的主题演讲中指出的那样，强化学习需要大量的数据，因此它经常与有模拟数据的领域（游戏、机器人等）相关联。把研究论文的结果应用到实际应用中并不容易。即使对于强化学习研究人员来说，复制别人的研究结果也是一个挑战，更不用说常规的数据科学家了（可参见最近的这篇文章和OpenAI的博客）。随着机器学习被部署在企业的关键任务场景里，可重现性和估计错误的能力正变得至关重要。所以至少是现在，强化学习可能并不适用于需要持续进行控制的关键任务的应用。

尽管如此，依赖于强化学习的应用和产品已经出现。有不少定义明确的涉及个性化或自动化的任务，它们可以从强化学习能帮助实现自动化的序贯决策中受益（或者，强化学习至少可以帮助增强人类专家）。对企业而言，关键是从简单的适合强化学习场景的应用案例开始，而不是从过于复杂的“需要AI”的问题开始。为了使事情更加具体，让我重点列出一些强化学习开始出现的关键应用领域。

机器人和工业自动化

强化学习在高维控制问题（诸如机器人等）中的应用已经是学术界和工业界共同的研究课题。同时初创公司也开始使用强化学习来打造机器人产品。

工业自动化是另一个有前景的领域。DeepMind的强化学习技术帮助Google显着降低了其数据中心的能耗（HVAC）。初创公司已经注意到自动化解决方案有一个很大的市场。其中之一就是Bonsai，它们正在开发工具来帮助企业将强化学习和其他技术用于工业应用。一个常见的例子是使用人工智能来调优机器和设备，而目前这些工作需要专家级的操作人员才能完成。

图2 胶片由Mark Hammond提供，并授权使用

如果考虑的是工业系统，Bonsai最近给出了下列可能需要考虑使用强化学习的标准：

你正在使用模拟器，因为系统或过程对于通过试错来训练机器来说太复杂（或者物理上过于危险）；
你正在处理大状态空间；
你正寻求通过优化运营效率和提供决策支持来增强人类分析师和领域专家的能力。

数据科学和机器学习

机器学习库已经变得很更容易使用了，但是选择合适的模型或模型架构对于数据科学家来说仍然是一个挑战。随着深度学习成为数据科学家和机器学习工程师使用的技术之一，那些可以帮助人们识别和调优神经网络架构的工具成为了活跃的研究领域。多个研究小组已经提出使用强化学习来使神经网络架构的设计更容易（例如，MIT的MetaQNN和Net2Net操作）。Google的AutoML可以使用强化学习为计算机视觉和语言建模生成最前沿的机器生成的神经网络架构。

除了可以简化创建机器学习模型的工具之外，还有一些人认为强化学习可以帮助软件工程师编写计算机程序。

教育和培训

在线平台已经开始尝试使用机器学习来创建个性化的体验。一些研究人员正在研究在教学系统和个性化学习中使用强化学习和其他机器学习方法。采用强化学习可以为辅导系统提供适应学生个人特定需求的定制化的指导和素材。一些研究人员正在为未来的辅导系统开发强化学习算法和统计的方法。这些方法需要的数据比较少。

保健和医学

强化学习的智能体和环境进行交互并基于所采取的行动接收反馈的场景和医学里学习治疗策略有相似之处。事实上，强化学习在医疗保健中的很多应用都和找到最佳的治疗策略有关。最近一些论文引用了强化学习在医疗设备、药物剂量和两阶段临床试验中的应用。

文字，语音和对话系统

企业收集了大量的文本，因此可以帮助“解锁”这些非结构化文本的好工具将赢得用户。2017年早些时候，SalesForce的人工智能研究人员使用深度强化学习来进行摘要性文本总结（一种从原始文本文档中“摘要出”内容总结的自动化技术）。这可能是基于强化学习的工具能赢得用户的一个新领域，因为许多企业都需要更好的文本挖掘解决方案。

强化学习也被用来让对话系统（即聊天机器人）通过和用户的交互来学习，从而能帮助它们随着时间的推移逐步改进（现在的许多企业的聊天机器人是依赖于决策树的）。这是一个科研和风险投资都很活跃的领域：参见语义机器和VocalIQ（最近被Apple收购）。

传媒和广告

微软最近的一篇论文里介绍了一个名为Decision Service（决策服务）的内部系统，这个系统已经在Azure上开放。论文里描述了决策服务在内容推荐和广告中的应用。决策服务更通用的目标是针对模型失效的机器学习产品，包括“循环反馈和偏置、分布式数据收集，环境变化和未能监控和调试的模型“。

强化学习的其他应用包括优化跨渠道营销和实时投标在线广告系统。

金融

作为对冲基金的一个带队数据分析师，我开始了自己的职业生涯。所以我并不感到惊讶的是很少有金融公司愿意公开讲话。总体而言，我接触过一些正在评估深度学习和强化学习的数据分析师和交易员，但除了小规模试验外他们还没有找到足够的场景来使用这些工具。尽管在一些研究论文中描述了这些技术在金融领域的潜在应用，但很少有企业宣称它们在生产系统软件里已经采用了。

不过一个例外是JP摩根用于交易执行的系统。《金融时报》的一篇文章介绍了这个基于强化学习实现优化交易执行的系统。该系统（被称为“LOXM”）正被用来以最快的速度和最好的价格执行交易。

与任何新科技一样，运用强化学习的关键在于了解其优缺点，然后找到简单的应用场景来尝试。我们应该抵制AI的炒作。相反，我们应该地把强化学习看成是有用的机器学习技术的一种，即便它是一种最适合于特定类别的问题的技术。我们刚刚开始在企业应用中看到强化学习的身影。伴随着对算法的不断研究，许多软件工具（库、模拟器、分布式计算框架，如Ray、SaaS）开始出现。不过可以肯定的是，这些工具很少是针对行业应用所感兴趣的用户的。但是，已经有几家初创公司将强化学习纳入其产品。所以，在你知道之它们的存在之前，你可能很快就会从强化学习和相关技术的发展中受益。

Ben Lorica

本·罗瑞卡是O'Reilly的首席数据科学家和关于数据方面的内容策略主管。在多个领域里（包括直销市场、消费者和市场研究、精准广告、文本挖掘和金融工程），他曾经进行了商业智能、数据挖掘、机器学习和统计分析的工作。他曾效力于投资管理公司、互联网创业企业和金融服务公司。