Eye Tracking for Everyone 译文版

论文原文下载：Eye Tracking for Everyone.pdf

摘要

从科学研究到商业应用，眼动跟踪是许多领域的重要工具。尽管眼动跟踪器的应用范围很广，但它还没有成为一种普遍的技术。我们相信，通过构建可在手机和平板电脑等商品硬件上运行的眼动跟踪软件，我们可以将眼动跟踪的力量放在每个人的手掌上，而不需要额外的传感器或设备。我们通过引入 GazeCapture 来解决这个问题，这是第一个大规模的眼球追踪数据集，包含了来自 1450 多人的数据，包括近 250 万帧。利用 GazeCapture，我们训练了 iTracker，一个用于眼球追踪的卷积神经网络，该网络在现代移动设备上实时运行（10-15 fps）时，实现了比以前的方法大幅减少误差。我们的模型在没有校准的情况下，在手机和平板电脑上实现的预测误差分别为 1.71 厘米和 2.53 厘米。通过校准，这个误差降低到 1.34 厘米和 2.12 厘米。此外，我们证明了 iTracker 学到的特征可以很好地推广到其他数据集，取得了最先进的结果。代码、数据和模型可在 http://gazecapture.csail.mit.edu。

注：下载数据集时，最好要使用学校邮箱注册帐号

1. 介绍

从人机交互技术[16,23,26]到医学诊断[12]到心理学研究[27]到计算机视觉[3,18]，眼动跟踪在许多领域都有应用[6]。凝视是人类视觉注意力的外部可观察指标，许多人试图记录它，可以追溯到 18 世纪晚期。今天，存在各种各样的解决方案(其中许多是商业化的)，但都存在以下一种或多种问题：高成本（如 Tobii X2-60）、定制或侵入性硬件（如 Eye Tribe、Tobii EyeX）或在现实环境下的不准确性（如[25,34,43]）。这些因素阻止了眼球追踪成为一项普及的技术，而这项技术应该对任何拥有合理摄像头（如智能手机或网络摄像头）的人都适用。在这项工作中，我们的目标是克服这些挑战，将眼球追踪带到每个人身上。

图1：在这项工作中，我们开发了 GazeCapture，这是第一个通过众包采集的大规模眼球追踪数据集。利用 GazeCapture，我们训练了 iTracker，一个卷积神经网络，用于稳健的凝视预测。

我们相信，这一目标可以通过开发在智能手机和平板电脑等移动设备上可靠运行的系统来实现，而不需要任何外部附件（图 1）。与其他平台相比，移动设备提供了几个好处：（1）广泛使用——据估计，到 2019 年，超过三分之一的世界人口将拥有智能手机[32]，远远超过台式机 / 笔记本电脑用户的数量；（2）技术升级的采用率高——很大一部分人拥有最新的硬件，可以实时使用昂贵的计算方法，如卷积神经网络 (cnn)；（3）移动设备上摄像头的大量使用导致了摄像头技术的快速发展和部署，（4）摄像头相对于屏幕的固定位置减少了未知参数的数量，潜在地允许发展高精度的无校准跟踪。
最近，深度学习在计算机视觉的多个领域取得了明显的成功[20,7,36,28,19]，但其对提高眼动跟踪性能的影响相当有限。我们认为这是由于缺乏大规模数据的可用性，最大的数据集有大约 50 个受试者[13,34]。在这项工作中，使用众包，我们建立了 GazeCapture，一个基于移动的眼睛跟踪数据集，包含了来自各种背景的近 1500 名受试者，记录在可变的照明条件和不受约束的头部运动。
利用 GazeCapture，我们训练 iTracker，一个卷积神经网络 (CNN) 学习端到端注视预测。iTracker 不依赖于任何预先存在的头部姿态估计系统或其他人工设计的特征进行预测。通过对网络进行训练，只需对眼睛和面部进行裁剪，我们在这一领域的性能大大优于现有的眼睛跟踪方法。虽然我们的网络在精度方面达到了最先进的性能，但输入的大小和参数的数量使其难以在移动设备上实时使用。为了解决这个问题，我们应用 Hinton 等人[11]关于黑暗知识的研究中的思想，训练一个更小、更快的网络，以最小的精度损失在移动设备上实现实时性能。
总的来说，我们朝着让每个人都能掌握眼球追踪的力量迈出了重要的一步。

2. 相关工作

关于预测凝视的工作已经很多了。在这里，我们简要介绍了一些现有的凝视估计方法，并敦促读者阅读这篇优秀的调查论文[8]以获得更完整的画面。我们还讨论了 GazeCapture 和其他流行的注视估计数据集之间的差异。
凝视估计：凝视估计方法分为基于模型的和基于外观的[8]。基于模型的方法使用眼睛的几何模型，可以细分为基于角膜反射的方法和基于形状的方法。基于角膜反射的方法[42,45,46,10]依赖外部光源来检测眼睛特征。另一方面，基于形状的方法[15,4,39,9]从观察到的眼睛形状（如瞳孔中心和虹膜边缘）推断注视方向。这些方法往往在低图像质量和多变的光照条件下受到影响，就像在我们的场景中。基于外观的方法[37,30,22,21,38,2]直接使用眼睛作为输入，可以在低分辨率的图像上工作。与基于模型的方法相比，基于外观的方法被认为需要更多的用户特定训练数据。然而，我们表明，我们的模型能够很好地泛化到新的面孔，而不需要用户特定的数据。虽然校准是有帮助的，但由于我们的模型通过使用深度学习和大规模数据获得了固有的泛化能力，其影响不如其他方法显著。因此，我们的模型不需要依赖视觉显著性图[5,33]或按键[35]来实现精确的无校准注视估计。总的来说，iTracker 是一个端到端的数据驱动的基于外观的模型，不使用任何手工设计的特征，如头部姿态或眼中心位置。我们还证明，我们训练过的网络可以在其他数据集上产生优秀的注视预测特征（优于手工设计的特征），尽管它们没有经过训练。

	# People	Poses	Targets	Illum.	Images
[24]	20	1	16	1	videos
[40]	20	19	2–9	1	1,236
[31]	56	5	21	1	5,880
[25]	16	cont.	cont.	2	videos
[34]	50	8+synth.	160	1	64,000
[43]	15	cont.	cont.	cont.	213,659
[13]	51	cont.	35	cont.	videos
Ours	1474	cont.	13+cont.	cont.	2,445,504

表 1: 我们的 GazeCapture 数据集与流行的公开数据集的比较。GazeCapture 的参与者大约是最大数据集的 30 倍，帧数是最大数据集的 10 倍，它包含了大量的姿势和照明变化，因为它是通过众包记录的。我们使用以下缩写：_cont. _连续的，illum. 照明，synth. 合成。

凝视数据集：社区中有许多公开可用的凝视数据集 [24,40,31,25,34,43,13]。我们在 Tbl.1 中总结了这些数据集的区别。许多早期的数据集 [24,40,31] 不包含头部姿态的显著变化，也没有粗略的注视点采样密度。我们通过鼓励参与者在记录和生成每个参与者的注视点随机分布的同时移动他们的头来克服这个问题。虽然一些现代数据集遵循类似的方法[34,25,43,13]，但它们的规模——尤其是参与者的数量——相当有限。我们通过众包的使用克服了这个问题，允许我们建立一个参与者数量是目前最大数据集的 30 倍的数据集。此外，与 [43] 不同的是，给定我们的记录权限，我们可以在不进行后期处理的情况下发布完整的图像。我们相信，GazeCapture 将成为该领域未来工作的宝贵资源。

3.GazeCapture:大规模数据集

在本节中，我们将描述如何实现扩大眼动数据收集的目标。我们发现，现有的大多数眼动数据集都是由研究人员邀请参与者到实验室来收集的，这一过程导致数据缺乏变化，而且扩大规模成本高、效率低。我们通过众包（一种收集大规模数据集的流行方法）克服了这些限制 [29,19,44,28]。在 3.1 节中，我们描述了通过众包获得可靠数据的过程，在 3.2 节中，我们比较了 GazeCapture 与现有数据集的特征。

3.1. 收集眼动数据

我们在此的目标是开发一种方法，用于在移动设备上收集眼球跟踪数据，该方法应（1）可扩展，（2）可靠，（3）产生较大的可变性。下面，我们将详细描述如何实现这三个目标。
可扩展性：为了使我们的方法具有可伸缩性，我们必须设计一种自动机制来收集数据和联系参与者。众包是研究人员用来实现可扩展性的一种流行技术。这种方法的主要困难在于，大多数众包平台是为笔记本电脑 / 台式机设计的，为设计所需的用户体验提供的灵活性有限。因此，我们决定采用一种混合的方法，将众包平台的可扩展劳动力与构建定制移动应用程序所提供的设计自由结合起来。具体来说，我们构建了一个 iOS 应用程序，同样命名为GazeCapture，能够记录和上传注视跟踪数据，并使用 Amazon Mechanical Turk (AMT) 作为平台，招募人们使用我们的应用程序。在 AMT 上，工人们得到了如何从苹果应用商店下载应用程序并完成任务的详细说明。
我们之所以选择为苹果 iOS 平台开发 GazeCapture 应用，是因为最近苹果设备的大规模应用，以及使用通用代码库在 iphone 和 ipad 等多种设备类型上的轻松部署。此外，操作系统的版本 (与其他平台相比) 没有碎片化，这大大简化了开发过程。此外，我们在 App Store 上公开发布了应用程序 (与有限覆盖范围的 beta 版本相反)，简化了应用程序的安装，从而进一步帮助我们的方法的可扩展性。
可靠性：我们的 GazeCapture 应用程序最简单的表现方式包括在屏幕上随机位置向员工显示点，并使用前置摄像头记录他们的注视。虽然这种方法可能在把个别参与者叫到实验室时工作得很好，但如果没有人类的监督，它不可能产生可靠的结果。因此，我们必须设计一种自动机制，确保工人的注意力直接集中在屏幕上显示的点上。

图 2：单个点的显示时间线。灰色的点线表示该点是如何随着时间的推移而改变大小的以保持注意力。

首先，为了避免通知的干扰，我们确保工作人员在整个任务过程中使用无网络连接的_飞行模式_，直到任务完成并准备上传。第二，我们不是展示一个普通的点，而是在点周围展示一个脉动的红色圆圈，如图 2 所示，它引导眼睛注视在圆圈的中间。这个脉动点显示了大约 2 秒，我们开始记录 0.5 秒。在点移动到一个新的位置后，让工作人员有足够的时间来固定在点的位置。第三，在 2 秒快结束时。窗口，一个小字母，L 或 R 显示 0.05 秒。根据这个字母，工人被要求点击屏幕的左 (L) 或右 ® 边。这是一种监测员工注意力和提供应用参与的手段。如果工人点错了边，他们就会受到警告，必须再点一次。最后，我们使用 iOS 内置的实时人脸检测器，以确保工人的脸在大部分记录的帧中可见。这一点至关重要，因为如果没有眼睛的照片，我们无法追踪到某人在看哪里。
可变性：为了学习一个稳健的眼动模型，数据的显著可变性是很重要的。我们认为，这种可变性对于实现高精度无校准眼动跟踪至关重要。因此，我们设计我们的程序来明确地鼓励高可变性。
首先，考虑到我们使用众包，我们希望在姿势、外观和照明方面有很大的变化。其次，为了鼓励员工在姿势上更多的变化，我们告诉他们不断地移动他们的头部以及手机相对于他们的距离，通过给他们看一段教学视频，视频中有一个人在做同样的动作。最后，我们强迫工人在每 60 个点后改变他们移动设备的方向。这种变化可以通过设备上的内置传感器检测到。这改变了相机和屏幕的相对位置，提供了进一步的可变性。

图3：我们的GazeCapture数据集的样本帧。请注意光照、头部姿势、外观和背景的显著变化。这种变化使我们能够学习稳健的模型，使其对新面孔具有良好的概括性。

实施细节：在这里，我们提供了一些实施细节，可能对其他进行类似研究的研究人员有帮助。为了将每个移动设备与 AMT 任务关联起来，我们为每个工作人员提供了 AMT 中唯一的代码，他们随后将这些代码输入到他们的移动应用程序中。点的位置都是随机的，并且来自 13 个固定位置(与 [41] 图 3 的位置相同)——我们使用固定位置来研究校准的效果 (第 5.3 节)。我们在设备的每个方向上总共显示了 60 个点，因此任务持续时间为约 10min。每个工人只被允许完成一次任务，我们付给他们 1 - 1.5 美元。我们上传的数据是单独的帧，而不是视频，以避免压缩伪影。此外，虽然我们在这项工作中没有使用它，我们也记录了设备运动传感器的数据。我们相信这对未来的其他研究人员来说是一个有用的资源。

3.2. 数据集特征

我们共收集了 1474 名受试者的数据。1103 名被试通过 AMT，230 名被试通过 UGA 的课堂招聘，141 名被试通过其他各种 App Store 下载。这导致了总共2,445,504 个具有相应固定位置的帧。示例帧如图 3 所示。1249 名受试者使用 iPhone，而 225 名受试者使用 iPad，导致每个设备的总帧数分别达到 210 万和 36 万。

图4：TabletGaze、MPIIGaze 和 GazeCapture（我们的）数据集的头部姿势 h（第一行）和相对于头部姿势的注视方向 g（第二行）的分布。所有的强度都是对数。

最近研究头部姿态，三个角度搞得头大。

pitch是围绕X轴旋转，也叫做俯仰角。

yaw是围绕Y轴旋转，也叫偏航角。

roll是围绕Z轴旋转，也叫翻滚角。

在3D系统中，假设视点为原点，则视点坐标系如下图所示，通常z轴的负方向是视点方向

来源：https://blog.csdn.net/LEE18254290736/article/details/88046068

为了证明我们数据的可变性，我们使用了 [43] 中的方法来估计每一帧的头部姿势（h）和注视方向（g）。在图 4 中，我们绘制了 GazeCapture 以及现有的最先进的数据集 MPIIGaze[43] 和 TabletGaze[13] 上 h 和 g 的分布。我们发现，虽然我们的数据集包含类似的 h 的总体分布，但与现有的数据集相比，异常值的比例明显较大。此外，我们观察到，与其他数据集相比，我们在第 3.1 节中的数据采集技术引入了摄像头与用户相对位置的显著变化；例如，我们有摄像头安装在屏幕下方（即设备被颠倒时）和上方的帧。这些变化对训练和评估眼动跟踪方法有帮助。

4. iTracker: 用于眼球追踪的深度网络

在本节中，我们描述了使用我们的大规模数据集 GazeCapture 构建一个健壮的眼动跟踪器的方法。鉴于最近卷积神经网络 (CNNs) 在计算机视觉中的成功，我们使用这种方法来解决眼动跟踪问题。我们相信，如果有足够的数据，我们可以学习到端到端的眼球跟踪，而不需要包括任何人工设计的特征，比如头部姿势[43]。在第 4.1 节中，我们描述了我们如何设计一个端到端的 CNN，用于健壮的眼跟追踪。然后，在第 4.2 节中，我们使用_黑暗知识_ [11] 的概念来学习一个更小的网络，在现代移动设备上以 10-15fps 运行时获得类似的性能。

FPS：每秒传输帧数 (Frames Per Second)

4.1. 学习一个端到端模型

图5：iTracker的概述，我们的眼球追踪 CNN。输入包括左眼、右眼和从原始帧中检测和裁剪出来的脸部图像（尺寸均为 224×224）。人脸网格（face grid）输入是一个二进制掩码，用于指示头部在画面中的位置和大小（尺寸为 25×25）。输出是与摄像机的距离，单位是厘米。CONV 代表卷积层（有滤波器大小/核数。CONV-E1, CONV-F1: 11 × 11/96, CONV-E2, CONV-F2: 5 × 5/256, CONV-E3, CONV-F3: 3 × 3/384, CONVE4, CONV-F4: 1 × 1/64）而 FC 代表全连接层（其大小为 FC-E1: 128, FC-F1: 128, FC-F2: 64, FC-FG1: 256, FC-FG2: 128, FC1: 128, FC2: 2）。确切的模型配置可在项目网站上找到。

我们的目标是设计一种方法，可以利用单一图像的信息来稳健地预测凝视。我们选择使用深度卷积神经网络(CNNs)来有效地使用我们的大规模数据集。具体来说，我们提供以下信息作为模型的输入:**(1)人脸的图像及其在图像中的位置(称为人脸网格)，(2)眼睛的图像。我们认为，使用该模型可以(1)推断出头部相对于相机的姿态，(2)推断出眼睛相对于头部的姿态。**通过结合这些信息，该模型可以推断注视的位置。基于这些信息，我们设计了我们的 iTracker 网络的整体架构，如图 5 所示。各个层的大小类似于 AlexNet[20]。请注意，我们将眼睛作为单独的输入输入到网络中(尽管人脸已经包含了眼睛)，以便为网络提供更高分辨率的眼睛图像，以便识别细微的变化。

图 6：统一预测空间。上面的图表显示了我们的数据集中映射到预测空间的所有点的分布。坐标轴表示距离相机的厘米；也就是说，屏幕上的所有点都被投影到这个空间，摄像机在(0,0)处。

为了最好地利用我们大规模数据集的力量，我们设计了一个统一的预测空间，允许我们使用所有数据训练一个单一的模型。请注意，这并非微不足道，因为我们的数据是使用不同方向的多个设备收集的。在单一方向的单一设备之外，直接预测屏幕坐标没有任何意义，因为输入可能会发生显著变化。相反，我们利用的事实是，前置摄像头通常是在同一平面上，并垂直于屏幕。如图 6 所示，我们预测点相对于相机的位置(在 x 和 y 方向上以厘米为单位)。我们通过精确测量设备屏幕尺寸和摄像头位置来获得这一点。最后，我们使用欧几里得损失在 x 和 y 注视位置训练模型。训练参数见第 5.1 节。
此外，在训练联合网络后，我们发现根据每个设备和方向对网络进行微调很有帮助。这对于处理移动电话和平板电脑之间不平衡的数据分布特别有用。我们称这个模型为 iTracker。

4.2. 实时推理

由于我们的目标是建立一个实际有用的眼动跟踪器，我们提供了证据，证明我们的模型可以应用于资源有限的移动设备。受到 Hinton 等人[11]工作的鼓励，我们应用黑暗知识来减少模型的复杂性，从而减少计算时间和内存占用。首先，虽然我们设计的 iTracker 网络对低质量的眼检测具有鲁棒性，但在较小的网络中，我们使用了由面部地标眼检测[1]产生的更紧的裁剪(尺寸为80 × 80)。这些更紧凑的裁剪将网络的注意力集中在图像的更有分辨力的区域，同时由于减小了图像大小，速度也更快。然后，我们使用验证集微调架构配置，以优化效率，而不牺牲太多的准确性。**具体来说，我们对真实值、完整模型的预测以及倒数第二层的特征进行了综合损失，以协助网络产生高质量的结果。**我们使用 Jetpac 的 Deep Belief SDK 在 iPhone 上实现了这一模型。我们发现模型的简化版大约需要 0.05 秒。在 iPhone 6s 上运行结合苹果的人脸检测管道，我们可以期望在一个典型的移动设备上实现 10-15fps 的整体检测率。

5. 实验

在本节中，我们将使用大规模的 GazeCapture 数据集来全面评估 iTracker 的性能。总体而言，我们的性能显著优于最先进的方法，无需校准即可实现约 2cm 的平均误差，并能够通过校准进一步降低到 1.8cm。此外，我们还展示了拥有大规模数据集的重要性，以及在主题数量方面拥有数据多样性的重要性，而不是每个主题的示例数量。然后，我们将 iTracker 学习到的特征应用到现有的数据集 TabletGaze[13] 上，以证明我们的模型的泛化能力。

5.1. 设置

数据准备：首先，从 GazeCapture 中的 2,445,504 帧中，我们选择 1,490,959 帧同时具有人脸和眼睛检测。如第 4.1 节所述，这些检测作为模型的重要输入。这导致总共选择了 1471 个受试者，其中每个人至少有一个有效的检测帧。然后，我们将数据集分为训练组、验证组和测试组，分别包含 1271、50 和150 个受试者。对于验证和测试分割，我们只选择那些查看了完整的点集合的受试者。这确保了验证/测试集中统一的数据分布，并允许我们对这些受试者的校准影响进行彻底的评估。此外，我们通过移动眼睛和脸，适当地改变人脸网格，将训练和测试集增加 25 倍来评估我们的方法的性能。对于训练集，每个增强样本被独立处理，而对于测试集，我们平均增强样本的预测，以获得对原始测试样本的预测 (类似于 [20])。
实现细节：模型使用 Caffe [17] 实现。它在 GazeCapture 数据集上从头训练了 15 万个轮次，批大小为 256。初始学习率为 0.001，经过 75000 次迭代后，学习率降至 0.0001。此外，与 AlexNet[20] 类似，我们在整个训练过程中使用了 0.9 的动量和 0.0005 的权重衰减。此外，我们根据设备的大小截断预测。
评估指标：与 [13] 相似，我们报告从真实固定位置的平均欧氏距离（厘米）的误差。此外，鉴于屏幕尺寸不同，以及手机和平板电脑的使用距离不同，我们提供了这两种设备的性能（尽管两种设备使用的模型完全相同，除非另有说明）。最后，为了模拟一个真实的用例，在这个用例中，对每个给定的帧流进行处理，而不是对单个帧进行处理，我们报告一个称为_点错误_的值。在这种情况下，分类器的输出被认为是对应于某一位置的凝视点的所有帧的平均预测值。

5.2. 不受约束的眼动跟踪

Model	Aug.	Mobile phone		Tablet 平板电脑
Model	Aug.	error	dot err.	error	dot err.
Baseline	tr + te	2.99	2.40	5.13	4.54
iTracker	None	2.04	1.62	3.32	2.82
iTracker	te	1.84	1.58	3.21	2.90
iTracker	tr	1.86	1.57	2.81	2.47
iTracker	tr + te	1.77	1.53	2.83	2.53
iTracker∗	tr + te	1.71	1.53	2.53	2.38
iTracker(no eyes)	None	2.11	1.72	3.40	2.93
iTracker(no face)	None	2.15	1.69	3.45	2.92
iTracker(no fg.)	None	2.23	1.81	3.90	3.36

表 2：无约束眼动追踪结果(上半部分)和消融研究(下半部分)。误差和点误差值以厘米为单位报告(详见第5.1节)；越低越好。Aug.表示数据集增强，tr和te分别表示训练集和测试集。Baseline是指对预训练的 ImageNet 网络的特征应用支持向量回归 (SVR)，如第 5.4 节所述。我们发现这种方法优于所有现有的方法。对于消融研究 (第5.5 节)，我们删除了模型的每个关键输入，即眼睛、脸和脸网格 (fg.)，一次一个，并评估其性能。

在这里，我们的目标是评估 iTracker 对新面孔的泛化能力，通过评估无约束 (无校准) 眼动跟踪。如第 5.1 节所述，我们在数据的适当分割上训练和测试iTracker。为了证明在训练和测试期间执行数据增强的影响，我们包括了有和没有训练/测试增强的性能。作为基准，我们在 TabletGaze (第5.4节) 上应用最佳性能方法 (预训练的 ImageNet 模型) 到 GazeCapture。Tbl. 2 的上半部分总结了结果，图 7 绘制了误差分布。

图 7：iTracker（带训练和测试增强）在整个预测空间的误差分布，绘制在真值位置。黑白圆圈表示相机的位置。我们观察到，相机附近的误差趋于较低。

我们观察到，我们的模型在很大程度上始终优于基线方法，在手机和平板电脑上分别实现了低至 1.53 厘米和 2.38 厘米的误差。此外，我们发现，点误差 始终低于误差，证明了在现实眼动跟踪应用中使用时间平均的优势。同时注意训练和测试增强都有助于减少预测误差。虽然测试增强可能不允许实时性能，但训练增强可以用来学习更稳健的模型。最后，我们观察到，针对每个设备和方向对一般的 iTracker 模型进行微调（iTracker∗）有助于进一步减少误差，特别是对平板电脑。这是可以预期的，因为在 GazeCapture 中，手机的样本比例（85%）比平板电脑（15%）大。

5.3. 带有校准的眼动跟踪

如 3.1 节所述，我们从每个受试者的 13 个固定点位置 (每个设备方向) 收集数据。我们使用这些位置来模拟校准过程。

Model	# calib. 校准	Mobile phone		Tablet 平板电脑
Model	points	error	dot err.	error	dot err.
iTracker	0	1.77	1.53	2.83	2.53
	4	1.92	1.71	4.41	4.11
	5	1.76	1.50	3.50	3.13
	9	1.64	1.33	3.04	2.59
	13	1.56	1.26	2.81	2.38
iTracker*	0	1.71	1.53	2.53	2.38
	4	1.65	1.42	3.12	2.96
	5	1.52	1.22	2.56	2.30
	9	1.41	1.10	2.29	1.87
	13	1.34	1.04	2.12	1.69

表 3：采用不同点数进行校准的 iTracker 性能（误差和点误差，以厘米为单位；较低的更好）。校准可显著提高性能。

对于测试集中的每个受试者，我们使用这 13 个固定位置的帧进行训练，并在剩余的位置进行评估。具体来说，我们从 iTracker 的 fc1 层提取特征，并使用 SVR 训练模型来预测每个受试者的注视位置。结果汇总于 Tbl. 3。我们观察到，当给出少量校准点时，性能略有下降。这可能是由于训练 SVR 时过拟合造成的。但是，当使用全套 13 个点进行校准时，性能明显提高，在手机和平板上的误差分别为 1.34cm 和 2.12cm。

5.4. 跨越数据集泛化

Method	Error	Description
Center	7.54	Simple baseline
TurkerGaze [41]	4.77	pixel features + SVR
TabletGaze	4.04	Our implementation of [13]
MPIIGaze [43]	3.63	CNN + head pose
TabletGaze[13]	3.17	Random forest + mHoG
AlexNet [20]	3.09	eyes (conv3) + face (fc6) + fg.
iTracker (ours)	2.58	fc1 of iTracker + SVR

表 4：对 TabletGaze[13] 数据集应用各种先进方法的结果 (cm 误差)。对于 AlexNet + SVR 方法，我们根据 AlexNet 各层 (conv3 代表眼睛，fc6 代表人脸)和二元人脸网格 (fg.) 的特征拼接训练 SVR。

我们通过将 iTracker 学习到的特征应用到另一个数据集 TabletGaze[13] 来评估其泛化能力。TabletGaze 包含 51 个受试者的记录和 40 个可用受试者的子数据集。我们将 40 个受试者分成 32 个进行训练，8 个进行测试。我们将支持向量回归（SVR）应用于使用 iTracker 提取的特征，以预测该数据集中的凝视位置，并将该训练好的分类器应用于测试集。结果见 Tbl.4。我们报告了应用各种最先进的方法（TabletGaze[13]， TurkerGaze[41] 和 MPIIGaze[43]）和其他基线方法进行比较的性能。我们提出了两种简单的基线方法：（1）中心预测（即，无论数据如何，始终预测屏幕的中心）和（2）对使用 AlexNet[20] 在ImageNet[29] 上预训练的图像特征应用支持向量回归 (SVR)。有趣的是，我们发现 AlexNet + SVR 方法优于所有现有的最先进的方法，尽管其特性是为完全不同的任务训练的。重要的是，我们发现来自 iTracker 的特征显著优于所有现有的方法，达到 2.58cm 的误差，这证明了我们的特征的泛化能力。

5.5. 分析

消融研究：在 Tbl. 2 的下半部分，我们报告了移除模型中不同组件后的性能，每次一个，以更好地理解它们的意义。一般来说，所有三个输入 (眼睛、脸和脸网格) 都有助于我们的模型的性能。有趣的是，有脸但没有眼睛的模式达到了与我们的完整模型相当的性能，这表明我们可能能够设计出一种更有效的方法，只需要人脸和人脸网格作为输入。我们相信，大规模的数据可以让 CNN 有效地识别人们面部 (他们的眼睛) 的细微差异，从而做出准确的预测。

图 8：数据集大小对于实现低错误非常重要具体来说，增加数据集中的受试者数量比样本数量更重要，这进一步推动了众包的使用

大规模数据的重要性：在图 8.b 中，我们绘制了随着训练受试者总数的增加，iTracker 的表现。我们发现，随着受试者数量的增加，误差显著降低，这说明了收集大规模数据集的重要性。此外，为了说明数据具有可变性的重要性，在图 8.b，我们绘制了 iTracker 的性能 (1) 在保持每个受试者的样本数量不变的情况下，增加受试者的数量 (蓝色)，和 (2) 在保持受试者数量不变的情况下，增加了每个受试者的样本数量（红色）。在这两种情况下，样本总数都保持不变，以确保结果具有可比性。我们发现，随着受试者数量的增加，误差显著更快地下降，这表明数据中具有可变性的重要性。

6. 结论

在这项工作中，我们介绍了一种针对移动设备的、端到端眼动跟踪解决方案。首先，我们引入了 GazeCapture，这是第一个大规模移动眼球跟踪数据集。我们展示了众包收集凝视数据的力量，这是一种以前工作中未探索过的方法。我们证明了拥有大规模数据集的重要性，以及拥有大量不同的数据以能够训练出健壮的眼球追踪模型。然后，我们使用 GazeCapture 训练了用于预测凝视的深度卷积神经网络 iTracker。通过仔细的评估，我们表明 iTracker 能够稳健地预测凝视，在手机和平板上的误差分别低至 1.04cm 和 1.69cm。此外，我们还展示了通过我们的模型学习到的特征可以很好地推广到现有的数据集，在很大程度上优于最先进的方法。虽然眼动跟踪技术已经存在了几个世纪，但我们相信这项工作将成为下一代眼动跟踪解决方案的关键基准。我们希望通过这项工作，将眼球追踪的力量带给每一个人。

致谢

我们要感谢 Kyle Johnsen 对 IRB 的帮助，以及 Bradley Barnes 和 Karen Aguar 帮助招募参与者。这项研究得到了三星、丰田和 qcr - csail 合作伙伴的支持。

参考文献

[1] T. Baltrusaitis, P. Robinson, and L.-P. Morency. Constrained local neuralfields for robust facial landmark detection in the wild. In Computer Vision Workshops (ICCVW), 2013 IEEE International Confer-ence on, pages 354–361. IEEE, 2013. 6
[2] S. Baluja and D. Pomerleau. Non-intrusive gaze tracking using arti-ficial neural networks. Technical report, 1994. 2
[3] A. Borji and L. Itti. State-of-the-art in visual attention modeling. PAMI, 2013. 1
[4] J. Chen and Q. Ji. 3d gaze estimation with a single camera without ir illumination. In ICPR, 2008. 2
[5] J. Chen and Q. Ji. Probabilistic gaze estimation without active per-sonal calibration. In CVPR, 2011. 2
[6] A. Duchowski. Eye tracking methodology: Theory and practice. Springer Science & Business Media, 2007. 1
[7] R. Girshick, J. Donahue, T. Darrell, and J. Malik. Rich feature hier- archies for accurate object detection and semantic segmentation. In CVPR, 2014. 2
[8] D. W. Hansen and Q. Ji. In the eye of the beholder: A survey of models for eyes and gaze. PAMI, 2010. 2
[9] D. W. Hansen and A. E. Pece. Eye tracking in the wild. CVIU, 2005. 2
[10] C. Hennessey, B. Noureddin, and P. Lawrence. A single camera eye-gaze tracking system with free head motion. In ETRA, 2006. 2
[11] G. Hinton, O. Vinyals, and J. Dean. Distilling the knowledge in a neural network. arXiv:1503.02531, 2015. 2, 5, 6
[12] P. S. Holzman, L. R. Proctor, D. L. Levy, N. J. Yasillo, H. Y. Meltzer, and S. W. Hurt. Eye-tracking dysfunctions in schizophrenic patients and their relatives. Archives of general psychiatry, 1974. 1
[13] Q. Huang, A. Veeraraghavan, and A. Sabharwal. TabletGaze: A dataset and baseline algorithms for unconstrained appearance-based gaze estimation in mobile tablets. arXiv:1508.01244, 2015. 2, 4, 6, 7, 8
[14] E. B. Huey. The psychology and pedagogy of reading. The Macmil- lan Company, 1908. 1
[15] T. Ishikawa. Passive driver gaze tracking with active appearance models. 2004. 2
[16] R. Jacob and K. S. Karn. Eye tracking in human-computer interaction and usability research: Ready to deliver the promises. Mind, 2003. 1
[17] Y. Jia, E. Shelhamer, J. Donahue, S. Karayev, J. Long, R. Girshick, S. Guadarrama, and T. Darrell. Caffe: Convolutional architecture for fast feature embedding. arXiv:1408.5093, 2014. 6
[18] S. Karthikeyan, V. Jagadeesh, R. Shenoy, M. Ecksteinz, and B. Man- junath. From where and how to what we see. In ICCV, 2013. 1
[19] A. Khosla, A. S. Raju, A. Torralba, and A. Oliva. Understanding and predicting image memorability at a large scale. In ICCV, 2015. 2, 3
[20] A. Krizhevsky, I. Sutskever, and G. E. Hinton. Imagenet classification with deep convolutional neural networks. In NIPS, 2012. 2, 5, 6, 8
[21] F. Lu, T. Okabe, Y. Sugano, and Y. Sato. Learning gaze biases with head motion for head pose-free gaze estimation. Image and Vision Computing, 2014. 2
[22] F. Lu, Y. Sugano, T. Okabe, and Y. Sato. Adaptive linear regression for appearance-based gaze estimation. PAMI, 2014. 2
[23] P. Majaranta and A. Bulling. Eye tracking and eye-based human–computer interaction. In Advances in Physiological Computing. Springer, 2014. 1
[24] C. D. McMurrough, V. Metsis, J. Rich, and F. Makedon. An eye tracking dataset for point of gaze detection. In ETRA, 2012. 2
[25] K. A. F. Mora, F. Monay, and J.-M. Odobez. Eyediap: A database for the development and evaluation of gaze estimation algorithms from rgb and rgb-d cameras. ETRA, 2014. 1, 2
[26] C. H. Morimoto and M. R. Mimica. Eye gaze tracking techniques for interactive applications. CVIU, 2005. 1
[27] K. Rayner. Eye movements in reading and information processing: 20 years of research. Psychological bulletin, 1998. 1
[28] A. Recasens, A. Khosla, C. Vondrick, and A. Torralba. Where are they looking? In NIPS, 2015. 2, 3
[29] O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma, Z. Huang, A. Karpathy, A. Khosla, M. Bernstein, et al. Imagenet large scale visual recognition challenge. IJCV, 2014. 3, 8
[30] W. Sewell and O. Komogortsev. Real-time eye gaze tracking with an unmodified commodity webcam employing a neural network. In SIGCHI, 2010. 2
[31] B. A. Smith, Q. Yin, S. K. Feiner, and S. K. Nayar. Gaze locking: Passive eye contact detection for human-object interaction. In UIST, 2013. 2
[32] Statista. Global smartphone user penetration 2014 - 2019. http://www.statista.com/statistics/203734/global-smartphone-penetration-per-capita-since-2005/, 2015. 1
[33] Y. Sugano, Y. Matsushita, and Y. Sato. Appearance-based gaze esti- mation using visual saliency. PAMI, 2013. 2
[34] Y. Sugano, Y. Matsushita, and Y. Sato. Learning-by-synthesis for appearance-based 3d gaze estimation. In CVPR, 2014. 1, 2
[35] Y. Sugano, Y. Matsushita, Y. Sato, and H. Koike. An incremental learning method for unconstrained gaze estimation. In Computer Vision–ECCV 2008, pages 656–667. Springer, 2008. 2
[36] Y. Taigman, M. Yang, M. Ranzato, and L. Wolf. Deepface: Closing the gap to human-level performance in face verification. In CVPR, 2014. 2
[37] K.-H. Tan, D. J. Kriegman, and N. Ahuja. Appearance-based eye gaze estimation. In WACV, 2002. 2
[38] D. Torricelli, S. Conforto, M. Schmid, and T. D’Alessio. A neural-based remote eye gaze tracker under natural head motion. Computer methods and programs in biomedicine, 2008. 2
[39] R. Valenti, N. Sebe, and T. Gevers. Combining head pose and eye location information for gaze estimation. TIP, 2012. 2
[40] U. Weidenbacher, G. Layher, P.-M. Strauss, and H. Neumann. A comprehensive head pose and gaze database. 2007. 2
[41] P. Xu, K. A. Ehinger, Y. Zhang, A. Finkelstein, S. R. Kulkarni, and J. Xiao. Turkergaze: Crowdsourcing saliency with webcam based eye tracking. arXiv:1504.06755, 2015. 3, 8
[42] D. H. Yoo and M. J. Chung. A novel non-intrusive eye gaze estima- tion using cross-ratio under large head motion. CVIU, 2005. 2
[43] X. Zhang, Y. Sugano, M. Fritz, and A. Bulling. Appearance-based gaze estimation in the wild. In CVPR, 2015. 1, 2, 4, 5, 8
[44] B. Zhou, A. Khosla, A. Lapedriz, A. Torralba, and A. Oliva. Places2: A large-scale database for scene understanding. arXiv, 2016. 3
[45] Z. Zhu and Q. Ji. Eye gaze tracking under natural head movements. In CVPR, 2005. 2
[46] Z. Zhu, Q. Ji, and K. P. Bennett. Nonlinear eye gaze mapping func-tion estimation via support vector regression. In Pattern Recognition, 2006. 2