Neural Contextual Bandits with UCB-based Exploration

摘要

我们研究随机上下文老虎机问题，其中奖励是由具有加性噪声的未知函数生成的。除了有界之外，没有对奖励函数做出任何假设。我们提出了一种新算法 NeuralUCB，它利用深度神经网络的表示能力，并使用基于神经网络的随机特征映射来构建奖励的置信上限 (UCB) 以进行有效探索。我们证明，在 √ 标准假设下，NeuralUCB 实现了 e T ) 遗憾，其中 T 是轮数。
O( 据我们所知，它是第一个基于神经网络的上下文老虎机算法，具有近乎最优的遗憾保证。我们还表明，该算法在许多基准测试中与代表性基线相比具有经验竞争力。

1 引言

随机上下文老虎机问题已在机器学习中得到广泛研究（Langford & Zhang, 2008; Bubeck & Cesa-Bianchi, 2012; Lattimore & Szepesvári, 2019）：在第 t 轮 ∈ {1, 2, . . . , T }，一个代理被呈现一组 K 个动作，每个动作都与一个 d 维特征向量相关联。选择一个动作后，代理将收到一个随机奖励，该奖励是从某个未知分布生成的，该分布取决于该动作的特征向量。代理的目标是最大化 T 轮的预期累积奖励。上下文老虎机算法已应用于许多现实世界的应用，例如个性化推荐、广告和网络搜索。
文献中研究最多的模型是线性上下文强盗（Auer，2002；Abe 等，2003；Dani 等，2008；Rusmevichientong & Tsitsiklis，2010），它假设每轮的预期奖励在特征向量中是线性的。虽然在理论和实践上都取得了成功（Li et al., 2010; Chu et al., 2011; Abbasi-Yadkori et al., 2011），但它所做出的线性回报假设在实践中常常无法成立，这激发了研究非线性或非参数上下文强盗（Filippi et al., 2010; Srinivas et al., 2010; Bubeck et al., 2011; Valko et al., 2013）。但是，它们仍然需要对奖励函数进行相当严格的假设。例如，Filippi 等人。（2010）对奖励做出广义线性模型假设，Bubeck 等人。
（2011）要求它在适当的度量空间中具有 Lipschitz 连续属性，而 Valko 等人。（2013）假设奖励函数属于一些再生核希尔伯特空间（RKHS）。
为了克服上述缺点，深度神经网络 (DNN) (Goodfellow et al., 2016) 被引入来学习上下文老虎机问题中的底层奖励函数，这要归功于它们强大的表示能力。我们将这些方法统称为神经上下文老虎机算法。鉴于 DNN 使代理能够利用领域知识较少的非线性模型，现有工作 (Riquelme et al., 2018; Zahavy & Mannor, 2019) 研究了神经线性老虎机。也就是说，他们使用 DNN 的最后一层以外的所有层作为特征图，将上下文从原始输入空间转换为低维空间，通常具有更好的表示和较少的更新频率。然后，他们在 DNN 的最后一个隐藏层之上学习线性探索策略，并进行更频繁的更新。这些尝试取得了巨大的经验成功，但没有提供任何遗憾的保证。
在本文中，我们考虑了可证明有效的神经上下文老虎机算法。新算法 NeuralUCB 使用神经网络来学习未知的奖励函数，并遵循 UCB 策略进行探索。该算法的核心是新颖地使用基于 DNN 的随机特征映射来构建 UCB。其遗憾分析基于深度神经网络优化和泛化的最新进展（Jacot 等人，2018；Arora 等人，2019；Cao & Gu，2019）。至关重要的是，该分析没有对奖励函数进行建模假设，除了它是有界的。虽然我们论文的主要重点是理论，但我们还在一些基准问题中展示了 NeuralUCB 的有效性，并证明了它对几个代表性基线的好处。
我们的主要贡献如下： • 我们提出了一种神经上下文老虎机算法，可以看作是现有（广义）线性老虎机算法的扩展（Abbasi-Yadkori 等人，2011；Filippi 等人，2010；Li 等人） ., 2010; 2017) 对于任意有界奖励函数的情况。
假设，我们的算法 • 我们证明，在标准 √ e d e T ) 遗憾下，其中 d e 是能够实现神经正切核矩阵的 O( tive 维数的效果，T 是轮数 √。边界恢复了现有的 O(d T ) 对作为特例的线性上下文强盗感到遗憾（Abbasi-Yadkori et al., 2011），其中 d 是上下文的维度。
• 我们通过经验证明了算法在综合问题和基准问题中的有效性。
符号：标量用小写字母表示，向量用小写粗体字母表示，矩阵用大写粗体字母表示。对于正整数 k，[k] 表示 {1, . . . , k}。 q 对于向量 θ ∈ R d ，我们用 kθk 2 = i=1 θ i 表示它的 P d 2 ` 2 范数，用 [θ] j 表示它的第 j 个坐标。对于矩阵 A ∈ R d×d ，我们分别用 kAk 2 、kAk F 和 [A] i,j 表示其谱范数、Frobenius 范数和第 (i, j) 项。我们用 {θ j } tj=1 表示向量序列，矩阵也类似。对于两个序列 {a n } 和 {b n }，我们使用 a n = O(b n ) 来表示存在某个常数 C > 0 使得 a n ≤ Cb n ；类似地，a n = Ω(b n ) 意味着存在一些常数 C 0 > 0 这样 e 来隐藏 a n ≥ C 0 b n 的对数。此外，我们使用 O(·) 麦克风因子。我们说随机变量 X 是 ν-sub-Gaussian 如果 E exp(λ(X − EX)) ≤ exp(λ 2 ν 2 /2) 对于任何 λ > 0。

2 问题描述

我们考虑随机 K 臂上下文老虎机问题，其中总轮数 T 是已知的。在回合 t ∈ [T ]，代理观察由 K 个特征向量组成的上下文：{x t,a ∈ R d | a ∈ [K]}。代理选择一个动作 a t 并获得奖励 r t,a t 。为简洁起见，我们将 K 表示为 {x i } T i=1 的集合 {x 1,1 , x 1,2 , . . . , x T,K }。我们的目标是最大化以下伪遗憾（或简称为遗憾）：
(2.1)
其中 a ∗ t = argmax a∈[K] E[r t,a ] 是第 t 轮中最大化预期奖励的最优动作。
这项工作对奖励生成做了以下假设：对于任何一轮 t，
(2.2)
其中 h 是对于任何 x 满足 0 ≤ h(x) ≤ 1 的未知函数，而 ξ t 是基于 x 1,a 1 , 的 ν-亚高斯噪声。 . . , x t−1,a t−1 满足 Eξ t = 0。ξ t 的 ν-subGaussian 假设在随机老虎机文献中是标准的（例如，Abbasi-Yadkori 等人，2011；Li 等人，2017），以及满足，例如，任何有界噪声。
当 h 属于线性函数、广义线性函数、高斯过程和在有界域上具有有界 RKHS 范数的核函数等时，有界 h 假设成立。
为了学习（2.2）中的奖励函数 h，我们建议使用深度 L ≥ 2 的全连接神经网络：
(2.3)
其中 σ(x) = max{x, 0} 是整流线性单元 (ReLU) 激活函数，W 1 ∈ R m×d , W i ∈ R m×m , 2 ≤ i ≤ L − 1, W L ∈ R m×1 , θ = [vec(W 1 ) > , . . . , vec(W L ) > ] > ∈ R p 其中 p = m + md + m 2 (L − 1)。不失一般性，为了便于分析，我们假设每个隐藏层的宽度相同（即 m）。我们用 g(x; θ) = ∇ θ f (x; θ) ∈ R p 表示神经网络函数的梯度。

3 The NeuralUCB Algorithm

NeuralUCB（算法 1）的关键思想是使用神经网络 f (x; θ) 来预测上下文 x 的奖励，以及从网络计算的置信上限来指导探索（Auer，2002）。
初始化它通过从适当的高斯分布 W 0 属性随机生成 θ 的每个条目来初始化网络：对于 1 ≤ l ≤ L - 1，W l 设置为 , 0 W 其中 W 的每个条目独立地生成 N (0, 4/m); W L 设置为 (w > , -w > )，其中 w 的每个条目独立于 N (0, 2/m) 生成。
学习在第 t 轮，算法 1 观察所有动作的上下文，{x t,a } K a=1 。首先，它根据 x t,a 、θ t-1 （当前神经网络参数）和正比例因子 γ t-1 计算每个动作 a 的置信上限 U t,a 。然后它选择 U t,a 最大的动作 a t ，并获得相应的奖励 r t,a t 。在第 t 轮结束时，NeuralUCB 通过应用算法 2 以（近似）使用梯度下降最小化 L(θ) 来更新 θt，并更新 γt。为了分析的简单性，我们在算法 2 中选择梯度下降，尽管训练方法可以用更复杂的分析替换为随机梯度下降（Allen-Zhu et al., 2019; Zou et al., 2019）。
与现有算法的比较我们将 NeuralUCB 与其他神经上下文老虎机算法进行比较。
阿莱西亚多等人。 (2014) 提出了由 K 个神经网络组成的 NeuralBandit。它使用一个网络委员会来计算每个动作的分数，并使用-greedy 策略选择一个动作。相比之下，我们的 NeuralUCB 使用基于置信上限的探索，这比 -greedy 更有效。此外，我们的算法仅使用一个神经网络而不是 K 个网络，因此计算效率更高。
立顿等人。 (2018) 在强化学习中使用深度神经网络上的汤普森采样（通过变分推理）； Azizzadenesheli 等人提出了一种变体。 (2018) 在一组 Atari 基准测试中运行良好。
里克尔梅等人。 (2018) 提出了 NeuralLinear，它使用 L 层 DNN 的前 L-1 层来学习表示，然后在最后一层上应用 Thompson 采样选择行动。 Zahavy & Mannor (2019) 提出了一种内存有限的 NeuralLinear (NeuralLinearLM)，它还使用 L 层 DNN 的前 L-1 层来学习表示，并在最后一层应用 Thompson 采样。 NeuralLinearLM 仅计算它们的近似值，而不是计算 Thompson 采样中的确切均值和方差。与 NeuralLinear 和 NeuralLinearLM 不同，NeuralUCB 使用整个 DNN 来学习表示，并基于神经网络梯度定义的随机特征映射构建置信上限。最后，Kveton 等人。（2020）研究了在基于神经网络的老虎机算法中使用奖励扰动进行探索。
附录 E 中描述了称为 NeuralUCB 0 的 NeuralUCB 变体。它可以被视为 NeuralUCB 的简化版本，其中仅通过在线岭回归更新神经网络围绕初始化参数的一阶泰勒近似。从这个意义上说，NeuralUCB 0 可以被视为 KernelUCB (Valko et al., 2013) 专门用于神经切线内核 (Jacot et al., 2018)，或 LinUCB (Li et al., 2010) 具有神经正切随机特征 ( 曹和顾，2019）。
虽然此变体具有与 NeuralUCB 相当的遗憾界限，但我们预计后者在实践中会更强。
事实上，正如 Allen-Zhu & Li (2019) 所表明的，神经切线内核似乎并没有完全实现神经网络在监督学习中的表示能力。
第 7 节将展示类似的现象，用于上下文老虎机学习。

4 Regret 分析

本节分析NeuralUCB的遗憾。回想一下，K {x i } T i=1 是所有 {x t,a } 的集合。我们的遗憾分析基于最近提出的神经正切核矩阵（Jacot 等人，2018 年）：定义 4.1（Jacot 等人（2018 年）；Cao & Gu（2019 年））。令 K {x i } T i=1 是一组上下文。定义
()
然后，H = ( H 核 (NTK) 矩阵在上下文集上。
在上面的定义中，对于 L 层神经网络，在 K 个上下文 {x i } T i=1 上的 NTK 的 Gram 矩阵 H 是从网络的输入层一直到输出层递归定义的。感兴趣的读者可以参考 Jacot 等人。（2018）有关神经正切核的更多详细信息。
根据定义 4.1，我们可以在上下文中陈述以下假设 K：{x i } T i=1 。
假设 4.2。 H λ 0 I。此外，对于任何 1 ≤ i ≤ T K，kx i k 2 = 1 和 [x i ] j = [x i ] j+d/2 。
假设的第一部分说神经正切核矩阵是非奇异的，这是相关文献中常见的温和假设（Du 等人，2019a；Arora 等人，2019；Cao & Gu，2019）。只要{x i } T i=1 中没有两个上下文是平行的，就可以满足。第二部分也是温和的，只是为了方便分析：对于任何上下文 x, kxk 2 = 1, √ 我们总是可以构造一个新的上下文 x 0 = [x > , x > ] > / 2 以满足假设 4.2。可以验证，如果 θ 0 像在 NeuralUCB 中那样初始化，那么对于任何 i ∈ [T K]，f (x i ; θ 0 ) = 0。
接下来我们定义神经正切核矩阵的有效维度。
定义 4.3。上下文 {x i } T i=1 上的神经 K 正切核矩阵的有效维度 d e 定义为
(4.1)
备注 4.4。 Valko 等人首先引入了有效维度的概念。（2013）用于分析内核上下文强盗，它由限制在给定上下文的任何内核矩阵的特征值定义。我们采用了类似但不同的 Yang & Wang (2019) 定义，用于分析基于核的 Q 学习。
假设给定核诱导的再生核希尔伯特空间的维数是 d b 并且给定核诱导的特征映射 ψ : R d → R d 对于任何 x ∈ R d 满足 kψ(x)k 2 ≤ 1。然后，可以验证b如附录A.1所示。直观地说，d e 衡量 d e ≤ d，即 H 的特征值减小的速度，并且仅在几种特殊情况下与 T 成对数关系（Valko 等人，2013 年）。
现在我们准备展示主要结果，它提供了算法 1 的遗憾界 R T。
定理 4.5。设 d e 为有效维度，h = K [h(x i )] T i=1 ∈ R T K 。存在常数 C 1 , C 2 > 0，使得对于任何 δ ∈ (0, 1)，如果
(4.2)
λ ≥ max{1, S -2 } 且 S ≥ 2h > H -1 h，则至少有 1 - δ 的概率，算法 1 的遗憾满足
(4.3)
备注 4.6。值得注意的是，简单地将线性老虎机的结果应用于我们的算法会导致遗憾中 p 或 p 的 √ 线性相关性。这样的界限是空洞的，因为在我们的设置中，p 与轮数 T 和输入上下文维度 d 相比会非常大。相比之下，我们的遗憾界仅取决于 e，它可以比 p 小得多。
d，备注 4.7。我们的遗憾 p 界 (4.3) 有一个项 (λ + C 2 T L)(1 - λ/(T L)) J/2 T /λ，它表征了算法 2 在 J 次迭代后的优化误差。环境
(4.4)
与 p √ m 无关，我们有 (λ + C 2 T L)(1 − λ/(T L)) J/2 √ T /λ ≤ λS，所以优化误差由 λS 支配。因此，遗憾界的顺序不受优化误差的影响。
备注 4.8。将 ν 和 λ 视为常数，S = √ 2h > H -1 h 和 J 在 (4.4) 中给定 q，遗憾界 (4.3) p e e h > H -1 h} 。 Specifie 变为 R T = O dT max{ d, 即如果 h 属于由神经网络诱导的 RKHS H切核 √ 有界 RKHS 范数 khk H ，我们有 khk H ≥ h > H -1 h；有关详细信息，请参见附录 A.2。
因此我们的遗憾界可以进一步写成
(4.5)
定理 4.5 中的高概率结果可用于获得预期遗憾的界限。
推论 4.9。在定理 4.5 的相同条件下，存在一个正常数 C，使得
()

5. 主要结果的证明

本节概述了定理 4.5 的证明，它必须处理以下技术挑战： • 我们没有像以前的工作那样对奖励函数进行参数假设（Filippi 等人，2010；Chu 等人）等人，2011 年；Abbasi-Yadkori 等人，2011 年）。
• 为了避免强参数假设，我们使用过参数化的神经网络，这意味着m（因此p）非常大。因此，我们需要确保遗憾界与 m 无关。
• 与核老虎机算法中使用的静态特征映射不同 (Valko et al., 2013)，NeuralUCB 使用神经网络 f (x; θ t ) 及其梯度 g(x; θ t ) 作为取决于 θ 的动态特征映射吨。这种差异使 NeuralUCB 的分析更加困难。
以下技术引理解决了这些挑战，其证明收集在附录中。
引理 5.1。存在一个正常数 C̄ 使得对于任何 δ ∈ (0, 1)，如果 m ≥ C̄T 4 K 4 L 6 log(T 2 K 2 L/δ)/λ 40 ，则概率至少为 1 - δ，存在一个 θ ∗ ∈ R p 使得
(5.1)
引理 5.1 表明，在高概率情况下，限制为 {x i } T i=1 的奖励 K 函数可以视为线性
由 θ ∗ - θ 0 参数化的 g(x i ; θ 0 ) 的函数，其中 θ ∗ 位于以 θ 0 为中心的球中。请注意，这里 θ ∗ 不是奖励函数的真实参数。相反，它只是为了分析而引入。配备引理 5.1，我们可以利用线性老虎机的现有结果 (Abbasi-Yadkori et al., 2011) 来证明 θ ∗ 很有可能位于置信集序列中。
引理 5.2。存在正常数 C̄ 1 和 C̄ 2 使得对于任何 δ ∈ (0, 1)，如果 η ≤ C̄ 1 (T mL + mλ) -1 并且
()
那么 p 的概率至少为 1 - δ，我们 √ 有 kθ t - θ 0 k 2 ≤ 2 t/(mλ) 和 kθ ∗ - θ t k Z t ≤ γ t / m 对于所有 t ∈ [T ]，其中 γ t 在算法 1 中定义。
引理 5.3。令 a ∗ t = argmax a∈[K] h(x t,a )。存在一个正常数 C̄ 使得对于任何 δ ∈ (0, 1)，如果 η 和 m 满足与引理 5.2 中相同的条件，那么概率至少为 1 - δ，我们有
()
引理 5.3 给出了 h x t,a ∗ t − h x t,a t 的上限，可用于限制遗憾 R T 。值得注意的是，γ t 有一个术语 log det Z t 。 log det Z t 的一个微不足道的上限将导致对网络宽度 m 的二次依赖，因为 Z t 的维度是 p = md + m 2 (L - 2) + m。相反，我们使用下一个引理来建立一个与 m 无关的上限。对 d e 的依赖类似于 Valko 等人。 (2013, Lemma 4)，但证明是不同的，因为我们对有效维度的概念不同。
引理 5.4。存在正常数 { C̄ i } 3 i=1 使得对于任何 δ ∈ (0, 1)，如果 m ≥ C̄ 1 max T 7 λ -7 L 21 (log m) 3 , T 6 K 6 L 6 (log(T KL 2 /δ)) 3/2 和 η ≤ C̄ 2 (T mL + mλ) -1 ，那么概率至少为 1 - δ，我们有
()

6 相关工作

上下文强盗有一系列关于线性强盗的广泛工作（例如，Abe 等人，2003；Auer，2002；Abe 等人，2003；Dani 等人，2008；Rusmevichientong & Tsitsiklis，2010；Li 等人。 , 2010; Chu et al., 2011; Abbasi-Yadkori et al., 2011)。这些算法中的许多都是基于置信上限的概念，并且被证明可以实现接近最优的遗憾界限。我们的算法也基于 UCB 探索，遗憾界降低到 Abbasi-Yadkori 等人的算法。（2011）在线性情况下。
为了处理非线性，一些作者考虑了广义线性老虎机（Filippi et al., 2010; Li et al., 2017; Jun et al., 2017），其中奖励函数是一个线性函数和一个 ( 非线性）链接函数。这些模型是我们在这项工作中研究的特例。
还考虑了更一般的非线性老虎机，但没有做出强建模假设。一项工作是专家学习算法系列（Auer et al., 2002; Beygelzimer et al., 2011），其时间复杂度通常与专家数量呈线性关系（在许多情况下，专家数量可能呈指数增长）参数）。
第二种方法是将老虎机问题简化为监督学习，例如具有非最优 O(T 2/3 ) 遗憾的 epoch-greedy 算法 (Langford & Zhang, 2008)。
后来，Agarwal 等人。 (2014) 开发了一种算法，该算法具有近乎最优的遗憾，但依赖于预言机，其实现仍需要适当的建模假设。
第三种方法使用非参数建模，例如感知器 (Kakade et al., 2008)、随机森林 (Féraud et al., 2016)、高斯过程和内核 (Kleinberg et al., 2008; Srinivas et al., 2010; Krause & Ong，2011 年；Bubeck 等人，2011 年）。最相关的是 Valko 等人。 (2013)，他假设奖励函数存在于具有有界 RKHS 范数的 RKHS 中，并开发了一种基于 UCB 的算法。他们还证明了 O(dT) 遗憾，其中 d e 是一种与我们类似的有效维度形式。与这些有趣的作品相比，我们基于神经网络的算法避免了仔细选择好的内核或度量的需要，并且在大规模问题中的计算效率更高。最近，Foster & Rakhlin (2020) 提出了带有回归预言的上下文老虎机算法，该算法实现了与维度无关的 O(T 3/4 ) 遗憾。与 Foster & Rakhlin √ (2020) 相比，NeuralUCB 实现了 e d e T ) 后悔，在时间范围内具有更好的 depena 维度相关 O( dence。
神经网络在理解 DNN 的表达能力方面已经取得了实质性进展，与网络深度有关（Telgarsky，2015；2016；Liang & Srikant，2016；Yarotsky，2017；2018；Hanin，2017）以及网络宽度（Lu 等人，2017 年；Hanin & Sellke，2017 年）。
这篇关于神经上下文老虎机算法的论文受到了文献中这些理论论证和经验证据的启发。
我们对 NeuralUCB 的遗憾分析利用了优化 DNN 的最新进展。一系列工作表明，（随机）梯度下降可以找到训练损失的全局最小值（Li & Liang，2018；Du 等人，2019b；AllenZhu 等人，2019；Du 等人，2019a；Zou 等人） .，2019；邹和顾，2019）。对于 DNN 的泛化，许多作者（Daniely，2017；Cao & Gu，2019；2020；Arora 等，2019；Chen 等，2019）表明，通过使用（随机）梯度下降，一个 DNN 位于特定的区域，并且 DNN 的泛化界限可以通过相应的神经切线核空间中的最佳函数来表征（Jacot 等人，2018 年）。

7 实验

在本节中，我们根据经验评估 NeuralUCB，并将其与七个具有代表性的基线进行比较：（1）LinUCB，同样基于 UCB，但采用线性表示； (2) GLMUCB (Filippi et al., 2010)，将非线性链接函数应用于线性函数； (3) KernelUCB (Valko et al., 2013)，一种使用预定义核函数的核化 UCB 算法； (4) BootstrappedNN (Efron, 1982; Riquelme et al., 2018)，它同时使用自举样本训练一组神经网络，并在每一轮根据随机选择的模型的预测选择一个动作； (5) Neural -Greedy，将算法1中基于UCB的探索替换为-greedy； (6) NeuralUCB 0 ，如第 3 节所述； (7) Neural -Greedy 0 ，与 NeuralUCB 0 相同，但具有 -greedy 探索。我们使用累积后悔作为性能指标。
7.1 Synthetic Datasets
在第一组实验中，我们使用上下文维度 d = 20 和 K = 4 动作的上下文强盗。轮数 T = 10 000。上下文向量{x 1,1 , . . . , x T,K } 是从单位球中均匀随机选择的。奖励函数 h 是以下之一：
()
其中 A ∈ R d×d 的每个条目是从 N (0, 1) 随机生成的，a 是从单位球上的均匀分布随机生成的。对于每个 h i (·)，奖励由 r t,a = h i (x t,a ) + ξ t 生成，其中 ξ t ∼ N (0, 1)。
继李等人之后。（2010），我们使用常数α（用于UCB中的方差项）来实现LinUCB。我们在 {0.01, 0.1, 1, 10} 上对 α 进行网格搜索。对于 GLMUCB，我们使用 sigmoid 函数作为链接函数，并采用在线牛顿步法来加速计算（Zhang et al., 2016; Jun et al., 2017）。我们对 {0.1, 1, 10} 进行网格搜索以获取正则化参数，{1, 10, 100} 获取步长，{0.01, 0.1, 1} 获取探索参数。对于 KernelUCB，我们使用带有参数 σ 的径向基函数 (RBF) 内核，并将正则化参数设置为 1。
在 {0.1, 1, 10} 上对 σ 进行网格搜索，在 {0.01, 0.1, 1, 10} 上搜索探索参数。为了加速计算，我们在 1000 轮后停止向 KernelUCB 添加上下文，遵循 Riquelme 等人的高斯过程的相同设置。（2018 年）。对于所有五种神经算法，我们选择网络宽度 m = 20 的两层神经网络 f (x; θ) = √ mW 2 σ(W 1 x)，其中 θ = [vec(W 1 ) > , vec( W 2 ) > ] ∈ R p 和 p = md + m = 420。1 此外，我们在 NeuralUCB 中设置 γ t = γ，并在 {0.01,0.1,1,10} 上进行网格搜索。对于 NeuralUCB 0 ，我们在 {0.1, 1, 10} 上搜索 ν，在 {0.1, 1, 10} 上搜索 λ，在 {0.01, 0.1, 1} 上搜索 δ，在 {0.01, 0.1, 1 上搜索 S , 10}。对于 Neural -Greedy 和 Neural -Greedy 0 ，我们对超过 {0.001, 0.01, 0.1, 0.2} 进行网格搜索。对于 BootstrappedNN，我们遵循 Riquelme 等人。 (2018) 将模型数量设置为 10，转移概率设置为 0.8。加速在训练过程中，对于 BootstrappedNN、NeuralUCB 和 Neural-Greedy，我们每 50 轮通过 TrainNN 更新参数 θ t。我们使用批量大小为 50 的随机梯度下降，在第 t 轮 J = t，并在 {0.001, 0.01, 0.1} 上对步长 η 进行网格搜索。对于所有网格搜索的参数，我们选择其中最好的进行比较。
所有实验重复 10 次，并报告平均结果以供比较。
7.2. 真实世界数据集
我们在来自 UCI 机器学习存储库 (Dua & Graff, 2017) 的真实世界数据集上评估我们的算法：covertype、magic 和 statlog。我们还在 mnist 数据集上评估我们的算法 (LeCun et al., 1998)。
这些都是 K 类分类数据集（表 1），并被转换为 K 臂上下文强盗（Beygelzimer & Langford，2009）。轮数设置为 T = 15000。继 Riquelme 等人之后。（2018 年），我们创造基于预测准确性的上下文老虎机问题。具体来说，为了将具有 k 类的分类问题转化为老虎机问题，我们采用了不相交模型 (Li et al., 2010)，该模型将每个上下文向量 x ∈ R d 转换为 k 个向量 x (1) = (x, 0, . . . , 0), . . . , x (k) = (0, . . . , 0, x) ∈ R dk 。如果他正确分类上下文，则代理收到遗憾 0，否则为 1。对于所有算法，我们重新调整上下文的顺序并重复实验 10 次。报告平均结果以供比较。
对于 LinUCB、GLMUCB 和 KernelUCB，我们按照 7.1 节的建议调整它们的参数。对于 BootstrappedNN、NeuralUCB、NeuralUCB 0 、Neural -Greedy 和 Neural Greedy 0 ，我们选择宽度为 m = 100 的两层神经网络。对于 NeuralUCB 和 NeuralUCB 0 ，因为存储和计算整个矩阵的计算成本很高 Z t ，我们使用由 Z t 的对角元素组成的对角矩阵来近似 Z t 。为了加速训练过程，对于 BootstrappedNN、NeuralUCB 和 Neural -Greedy，我们从第 2000 轮开始每 100 轮通过 TrainNN 更新参数 θ t。我们在 {10 -i } 上对 λ 进行网格搜索，i = 1, 2 , 3, 4，对于 {2 × 10 -i , 5 × 10 -i } 上的 η，i = 1, 2, 3, 4。我们设置 J = 1000 并使用批量大小为 500 的随机梯度下降来训练网络 . 对于其余参数，我们将它们调整为第 7.1 节中的参数，并选择其中最好的进行比较。
7.3. 结果
图 1 和图 2 显示了所有算法的累积后悔。
首先，由于奖励函数 h 的非线性，LinUCB 几乎无法在所有任务中学习它们。由于其简单的链接功能，GLMUCB 只能学习某些任务的真正奖励功能。相比之下，由于神经网络表示和有效的探索，NeuralUCB 实现了显着降低的遗憾。 Neural -Greedy 的表现介于两者之间。这表明虽然神经 -Greedy 可以捕获潜在奖励函数的非线性，但基于 -Greedy 的探索不如基于 UCB 的探索有效。
这证实了 NeuralUCB 对于具有非线性奖励函数的上下文老虎机问题的有效性。其次，值得注意的是 NeuralUCB 和 Neural -Greedy 优于 NeuralUCB 0 和 Neural -Greedy 0 。这表明使用深度神经网络来预测奖励函数比使用与神经切线内核相关的固定特征映射更好，这反映了监督学习中的类似发现（Allen-Zhu & Li，2019）。此外，我们可以看到 KernelUCB 不如 NeuralUCB，这表明与灵活的神经网络相比，RBF 等简单内核的局限性。更重要的是，BootstrappedNN 可以具有竞争力，在某些数据集中接近 NeuralUCB 的性能。然而，它需要维护和训练多个神经网络，因此在计算上比我们的方法更昂贵，尤其是在大规模问题中。

8.结论

在本文中，我们提出了NeuralUCB，一种基于神经网络和置信上限的随机上下文强盗的新算法。基于深度神经网络优化和泛化的最新进展，我们证明了对于任意 √ 有界奖励函数，e d e T ) 后悔界。 Promisour 算法在合成数据和真实世界数据上都取得了 O(ing) 的经验结果，证实了我们的理论发现，并暗示了该算法在实践中的潜力。
我们在论文的结尾提出了未来研究的建议方向。鉴于这项工作中对 UCB 探索的关注，当使用 DNN 时，一个自然的开放问题是可证明基于随机策略的有效探索。
这些方法在实践中是有效的，但现有的后悔分析主要针对浅层（即线性或广义线性）模型（Chapelle & Li，2011；Agrawal & Goyal，2013；Russo 等，2018；Kveton 等，2020 ）。将它们扩展到 DNN 会很有趣。同时，我们目前对 NeuralUCB 的分析是基于 NTK 理论。虽然 NTK 有助于分析，但它有其自身的局限性，我们将把对 NeuralUCB 的分析留在 NTK 之外作为未来的工作。