Driver Gaze Zone Estimation 翻译

编程入门行业动态更新时间:2024-10-10 17:31:38

Driver <a href=https://www.elefans.com/category/jswz/34/1762477.html style= Gaze Zone Estimation 翻译"/>

Driver Gaze Zone Estimation 翻译

使用卷积神经网络的驾驶员注视区域估计

摘要：

驾驶员注视已被证明是智能车辆中驾驶员注意力的绝佳替代品。随着最近高度自动驾驶汽车的激增，驾驶员凝视可用于确定与人类驾驶员的交接时间。虽然个性化驾驶员注视区域估计系统已经有了显着改进，但仍然缺乏对不同主题、视角和尺度保持不变的通用系统。我们使用卷积神经网络 (CNN) 朝着这个广义系统迈出了一步。我们为此任务微调了 4 个流行的 CNN 架构，并对它们的输出进行了广泛的比较。我们还对不同的输入图像块进行了实验，并检查了图像大小如何影响性能。为了训练和测试网络，我们收集了一个大型自然驾驶数据集，其中包含 11 次长途驾驶，由 10 名受试者驾驶两辆不同的汽车。我们最好的模型在跨学科测试期间达到了 95.18% 的准确率，超过了当前最先进的技术。最后，我们在公开可用的 Columbia Gaze 数据集上评估我们的最佳性能模型，该数据集包含来自 56 个具有不同头部姿势和凝视方向的受试者的图像。在没有任何训练的情况下，我们的模型成功地编码了这个多样化数据集上的不同注视方向，展示了良好的泛化能力。

1、介绍

根据最近关于无人驾驶汽车“接管时间”的研究 [1]，从事次要任务的驾驶员表现出更大的差异，并且对恢复控制的请求的响应速度较慢。众所周知，驾驶员注意力不集中是导致车辆事故的主要原因。根据另一项研究 [2]，80% 的撞车事故和 65% 的接近撞车事故都与驾驶员分心有关。
对汽车碰撞的调查 [3]、[4] 表明，当驾驶员有一名或多名乘客可以提醒他们注意看不见的危险时，驾驶员不太可能 (30%-43%) 造成与伤害相关的碰撞。因此，高级驾驶辅助系统 (ADAS) 必须捕获这些干扰，以便在发生危险情况时提醒或引导驾驶员。这确保了驾驶员与自动驾驶汽车之间的交接过程顺畅、安全。

驾驶员注视是识别驾驶员分心的重要线索。在一项关于在高度自动化驾驶模拟器中执行次要任务的影响的研究中 [5]，发现在执行次要任务期间，与正常的基线驾驶相比，镜子检查的频率和持续时间减少了。或者，Ahlstrom 等人。 [6] 开发了一种基于规则的 2 秒“注意力缓冲区”框架，当驾驶员将视线从与驾驶相关的领域 (FRD) 移开时，该框架就会耗尽；当注视方向重定向到 FRD 时，它开始填充。驾驶员注视活动也可用于预测驾驶员行为 [7]。马丁等人。 [8] 开发了一个框架，用于从注视注视和转换中对驾驶员行为和机动预测进行建模。

虽然在改进个性化驾驶员注视区域估计系统方面进行了大量研究，但在将这项任务推广到不同驾驶员、汽车、视角和规模方面几乎没有进展。我们使用卷积神经网络 (CNN) 在这个方向上进行了尝试。 CNN 在图像分类、目标检测和识别领域显示出巨大的潜力。 CNN 也擅长迁移学习。奥夸布等人。 [15]表明，在大规模带注释的数据集上用 CNN 学习的图像表示可以有效地转移到其他视觉识别任务中。因此，我们不是从头开始训练网络，而是采用迁移学习范式，在这种范式中，我们对四个不同的网络进行了微调，这些网络已经过训练以在 ImageNet [16] 数据集上获得最先进的结果。我们分析了每个网络在概括驾驶员注视区域估计方面的有效性，通过在两个不同的汽车中收集了超过 11 个驱动器的大型自然驾驶数据集对它们进行评估，这些数据集由 10 个不同的受试者在两辆不同的汽车中收集，每辆车的相机设置和视野都略有不同（图 2）。 1）。

2、相关研究

驾驶员监控一直是计算机视觉领域的一个长期研究问题。有关驾驶员注意力不集中监控系统的概述，鼓励读者参考 Dong 等人的评论。 [17]。
驾驶员注视区域估计的一种突出方法是远程眼动跟踪。然而，远程眼动追踪在户外环境中仍然是一项非常具有挑战性的任务。这些系统 [18]-[21] 依靠近红外 (IR) 照明器来产生明亮的瞳孔效果。这使它们对室外照明条件敏感。此外，产生亮眼效果所需的硬件阻碍了系统集成。这些专用硬件还需要一个冗长的校准程序，由于在驾驶过程中会经历持续的振动和颠簸，因此维护成本很高。

由于上述限制，基于视觉的系统似乎是凝视区估计的有吸引力的解决方案。这些系统可以分为两类：仅使用头部姿势的技术 [9]、[22] 和使用驾驶员头部姿势以及注视的技术 [10]、[23]、[24]。驾驶员头部姿势提供了对粗略注视方向的适当估计。为了更好地概述基于视觉的头部姿势估计系统，鼓励读者参考 Murphy-Chutorian 等人的调查。 [25]。然而，仅依赖头部姿势的方法无法区分由微妙的眼球运动分隔的相邻区域，如前挡风玻璃和速度计。塔瓦里等人。 [9] 在多相机框架中将静态头部姿势与时间动态相结合，以获得对驾驶员注视的更稳健的估计。然而，当驾驶员保持头部静止并且仅用眼睛看不同区域时，对驾驶员注视方向进行分类的问题仍然存在。

因此，“注视”驾驶员的眼睛至关重要。塔瓦里等人。 [10] 将头部姿势与从眼睛面部标志中提取的特征相结合，取得了令人印象深刻的结果。瓦斯利等人。 [11] 进一步使用头部姿势、从眼睛中提取的特征以及从汽车的几何约束中获得的特征的融合，将驾驶员的视线分为六个区域。弗里德曼等人。 [13] 还结合了头部姿势和眼睛姿势，将驾驶员的视线分为 6 个区域。评估在一个包含 40 个不同驱动程序的大型数据集上进行，值得称赞。

上述方法存在两个问题：1）因为它们涉及人脸检测、地标估计、瞳孔检测和最终特征提取的复杂流程，分类器做出的决定完全依赖于各个子模块的正常工作。 2）根据眼睛面部标志设计的手工特征对于不同驾驶员、汽车和座椅位置的变化并不完全稳健。

当系统在不同的对象、汽车、相机和座椅位置等变化中进行评估时，这些问题就会暴露出来。据我们所知，弗里德曼等人的研究。 [12]、[13] 是除了我们之外唯一为注视区估计任务执行交叉驾驶员测试（在训练期间未见过的驾驶员上测试系统）的测试。在他们对包含 40 个司机的庞大数据集的分析中，发现在总注释帧的 40% 中，没有检测到面部或瞳孔。在车内恶劣的照明条件下实时准确检测面部标志和瞳孔仍然是一项非常具有挑战性的任务，尤其是对于侧脸。此外，他们采用了 10 的高置信度决策剪枝，即他们仅在分类器预测的最高概率与第二高概率之比大于 10 时才做出决策。这表明他们的模型不能很好地推广到新司机总的来说，他们模型的决策能力最终被限制在 30 fps 视频中的每秒 1.3 帧 (fps)。决策率低的系统会错过几次后视镜检查（后视镜或车速表的典型快速检查持续不到一秒）。这将使这样的系统无法用于监控驾驶员的注意力。

最近使用自然驾驶数据（NDS）进行注视区域估计（涉及 6 个或更多区域）的研究总结如表 I 所示。可以看出，关于 CNN 预测驾驶员注视的有效性的研究并不多 . 崔等人。 [14] 使用五层卷积神经网络将驾驶员的视线分为 9 个区域。但是，据我们所知，他们不进行交叉驱动程序测试。在本研究中，我们通过在训练集和测试集中设置单独的主题来进一步系统化这种方法。我们还在相机位置和视野的变化中评估我们的模型。这有助于我们测试 CNN 对注视区域估计任务的泛化能力。

3、数据集

收集了大量自然驾驶数据，使我们能够训练和评估我们的卷积神经网络模型。十名受试者驾驶两辆不同的汽车，配备两个内部摄像头和一个外部摄像头。内视摄像头从不同角度捕捉驾驶员的面部：一个安装在后视镜附近，另一个安装在侧窗上的 A 柱附近。相机套件与所有以每秒 30 帧和 2704 x 1524 像素分辨率捕获彩色视频流的相机同步。高分辨率和宽广的视野在一个画面中同时捕捉到驾驶员和乘客。
我们的实验只使用了安装在后视镜附近的摄像头的图像，而其他视图则交给了人类专家，用于标记地面实况注视区。在我们的研究中考虑了七个不同的凝视区域（图 2）——前挡风玻璃、右、左、中控台（信息娱乐面板）、中央后视镜、车速表以及“闭眼”状态，这通常发生在司机眨眼。

在不同的日子和一天的不同时间记录了 11 个不同的驱动器。这是为了确保我们的数据集包含足够的天气变化和照明。 10 个不同的受试者参加了这些活动。表 II 描述了每次驾驶的天气条件，并列出了驾驶员的年龄和性别。
每个区域的帧是从大量跨时间分离的“事件”中收集的。事件被定义为驾驶员只查看特定区域的一段时间。在自然驱动中，正面事件持续时间更长，而且发生频率最高。与车速表或后视镜等区域对应的事件通常持续更短的时间，并且与正面事件相比更稀少。从大量事件中收集帧的目的是确保帧中头部姿势和瞳孔位置的足够可变性，以及获得不同的光照条件。表 III 显示了每个注视区标记帧数的分布。

由于前向帧在数据集中占主导地位，因此对它们进行二次采样以创建平衡的数据集。此外，数据集被划分为使得来自 7 个科目的驱动用于训练，而来自其余 3 个科目的驱动用于测试以满足跨学科测试要求。这一点特别重要，因为它可以帮助我们深入了解模型是否可以很好地推广到不同的驱动程序。表 III 显示了最终在我们的训练和测试数据集中使用的每个区域的帧数。训练集被进一步分成两个子集以创建验证集。我们使用包含 5% 训练图像的验证集。我们确保训练集和验证集的图像不仅不同，而且在时间上也很好地分开。这是因为在特定时间捕获的帧彼此非常相似。如果我们随机划分训练集，我们最终会在训练集和验证集中都有相似的图像，这是不可取的。

图 1 显示了驾驶员注视不同视线区域的一些示例实例。这些视频是在具有不同视野（广角与正常）的不同驱动器上故意捕获的。所有受试者还被要求根据他们的舒适度调整他们的座位位置。我们认为，数据集中的这种变化对于构建和评估泛化良好的稳健模型是必要的。

4、建议的方法

图 3：为凝视区域估计任务选择最佳性能 CNN 架构和最佳图像预处理技术的拟议策略概述。整个过程分为两个块——输入预处理块和网络微调块。在训练和测试期间仅选择四种输入预处理技术中的一种和四种 CNN 架构中的一种。

图 3 描述了我们选择性能最佳的 CNN 架构的策略和用于凝视区域估计任务的图像预处理的最佳技术。它由两个主要块组成，即：a) 输入预处理块和 b) 网络微调块。输入预处理块从原始输入图像中提取与注视区估计最相关的子图像。我们考虑四种不同的预处理技术。在网络微调块中，我们使用输入预处理块输出的子图像对四个不同的 CNN 进行微调。
因此，我们训练了 16 个不同的 CNN，其中每个 CNN 都在我们的验证集上进行了调整。我们在第五节中报告了测试集上每个模型的性能（准确性和推理时间）。这种消融研究在最近的文献 [26]、[27] 中非常普遍，研究人员可以使用它来选择基于其准确性/运行时要求的模型。以下小节更详细地描述了输入预处理块、网络微调块和训练过程。

A. 网络微调块

我们对最初在 ImageNet 数据集 [16] 上训练的四个 CNN 进行了微调。我们考虑以下选项：a）AlexNet，由 Krizhevsky 等人介绍。 [28] b) 由 Simonyan 等人引入的 16 层 VGG。 [27] c) 具有 50 层的 ResNet，由 He 等人介绍。 [26] 和 d) SqueezeNet，由 Iandola 等人介绍。 [29]。微调四个不同网络背后的动机是确定哪个网络效果最好，以及更深入地了解架构细节，如深度、层、内核大小和模型大小，以及它们如何影响注视区分类任务。

AlexNet 是一个八层 CNN，由五个卷积层和两个全连接层组成，后跟一个 softmax 层。第一个卷积层的内核大小为 11 × 11，步长为 5，然后是第二层的 5 × 5 内核和后续层的 3 × 3 内核。 VGG16 由 16 个卷积和全连接层组成，具有同构架构，从头到尾仅执行 3 × 3 卷积和 2 × 2 池化。 ResNet 中引入了特殊的跳过连接。它由第一层的 7×7 卷积和后续层的 3×3 内核组成。 SqueezeNet 由 fire 模块组成，这些模块是 1×1 和 3×3 内核的特殊连接。它具有非常小的模型尺寸，因此具有 FPGA 和嵌入式部署的可行性。 Resnet50 和 SqueezeNet 在网络末端都有一个全局平均池化层。 SqueezeNet 跟随具有 softmax 非线性的全局平均池化层，而 Resnet50 在池化层和 softmax 层之间包含一个全连接层。

B. 输入预处理块

我们选择四种不同的方法（图 4）在训练时对 CNN 的输入进行预处理。在第一种情况下，驾驶员的环绕声（我们称为人脸嵌入视野 (FoV)）被用作输入。这对应于后视镜和（驾驶员）左后视镜之间原始图像的大子图像。驱动程序的头部将始终位于该子图像中。这将帮助我们评估是否可以直接从输入图像训练我们的网络，从而跳过人脸检测步骤。在第二种情况下，检测到驾驶员的面部并将其用作 CNN 的输入。 Yuen 等人提出的人脸检测器。 [30]用于我们的实验。在第三个预处理策略中，通过向各个方向扩展人脸边界框，为驾驶员的人脸添加了一些上下文。为驾驶员面部添加上下文背后的思考过程是学习确定驾驶员头部相对于其固定环境位置的特征。添加上下文在几个计算机视觉问题中提高了性能，这种输入策略将帮助我们确定它是否与驾驶员注视区域分类任务相同。在第四种预处理方法中，只有人脸的上半部分被用作输入。根据网络要求将提取的图像全部调整为 224x224 或 227x227，最后减去平均值。

C. 训练

对于 AlexNet、VGG16 和 Resnet50 架构，我们将网络的最后一层（有 1000 个神经元）替换为一个新的具有 7 个神经元的全连接层，并在其上添加一个 softmax 层。对于 SqueezeNet，我们将最后一个卷积层的内核数从 1000 限制为 7。我们使用 He 等人提出的方法初始化新添加的层。 [31]。我们使用我们的训练数据微调整个网络。由于网络已经在非常大的数据集上进行了预训练，因此我们使用低学习率。对于所有网络，我们从用于训练各自网络的学习率的百分之一开始，并观察训练和验证的损失和准确性。如果损失函数振荡，我们进一步降低学习率。发现 4 × 1004 的学习率适用于 SqueezeNet，而 1004 的学习率适用于其他三个网络。所有网络都使用自适应学习率通过小批量梯度下降进行了 50 个时期的微调。超过 50 个时期后，网络开始过度拟合。基于 GPU 内存限制，64、64、32 和 16 的批大小分别用于训练 AlexNet、SqueezeNet、VGG16 和 ResNet50。使用了由 Kingma 和 Ba [32] 引入的 Adam 优化算法。没有通过翻转或旋转图像进行数据增强，因为它可能会改变图像的标签或生成在正常驾驶过程中不会看到的不真实的图像。改变像素强度是可能的，但我们决定反对它，因为我们的数据集已经有大量的光照变化。所有实验均在 Caffe [33] 框架上进行。

五、实验分析与讨论

在 IV 中进行的实验的评估使用三个指标呈现。前两种形式的评估指标是宏观平均准确率和微观平均准确率。它们的计算方式如下：

where, N = Number of gaze zones.

第三个评估指标是 N 类混淆矩阵，其中每一行代表真实的注视区，每一列代表估计的注视区。

我们实验中使用的人脸检测器 [30] 目前是 VIVA-Face 数据集 [34] 上性能最好的人脸检测器，该数据集包含从 39 个自然驾驶视频中采样的图像，具有恶劣的照明条件和面部遮挡。关于其性能的详细分析，建议读者参考[30]。我们在训练集上观察到不到 0.25% 的错误检测。由于它非常健壮，我们不会检查测试集上的错误检测，因此以下部分中报告的性能将是我们系统的真实性能。

A. 网络架构和不同图像裁剪区域的分析

表 IV 显示了在测试集上获得的 16 种不同网络和图像裁剪区域组合的宏观平均精度。从表 IV 中可以清楚地观察到两个趋势。首先，由于在训练和测试时为网络提供了更高分辨率的眼睛图像，因此所有三个网络的性能都得到了提高。可以看出，当仅将人脸的上半部分作为网络输入时，所有网络都表现最佳。其次，SqueezeNet 架构始终优于 VGG16，VGG16 在所有不同的图像裁剪区域上进一步优于 ResNet50。与其他三个网络相比，AlexNet 的表现并不好，尤其是当驾驶员的眼睛只占图像很小的一部分时。我们表现最好的模型是在人脸上半部分图像上训练的微调 SqueezeNet，其准确率达到 95.18%，并清楚地展示了通过 CNN 学习的特征的泛化能力。
特别有趣的是，与其他三个网络相比，在使用嵌入人脸的 FoV 图像时，经过微调的 AlexNet 的性能非常低。这可以归因于大内核大小 (11 × 11) 和第一个卷积层中的 4 步长。注视区随着瞳孔或眼睑的非常轻微的移动而改变。我们觉得由于大卷积核和大步幅，在前几层中错过了眼睛的这种精细区分信息。在我们的实验中，我们发现该网络可以轻松地对头部运动较大的区域（左和右）进行分类，而它却很难对眼睛轻微运动的区域进行分类（例如，前部、车速表和闭眼（图 5））。与提供大子图像时相比，仅提供面部的上半部分作为输入时准确度的大幅提高进一步证实了这一事实。 V-C 中进一步阐述了这种对网络所见眼睛分辨率的依赖。

SqueezeNet 由 3 × 3 和 1 × 1 内核的组合组成，而 VGG16 由执行步长为 1 的 3 × 3 卷积的卷积层组成。即使瞳孔或眼睑轻微移动，也有助于区分凝视区域。这使它们的性能比 AlexNet 好得多。
对于所有输入预处理方法，与 SqueezeNet 和 VGG16 相比，使用 ResNet50，我们在测试集上的准确率始终略低。这可能又是因为第一层（7×7）中的大卷积核。另一个可能的原因可能是用于微调更深（50 层）网络的训练数据量有限。
表 V、VII、VIII 和 IX 分别针对微调的 SqueezeNet、VGG16、AlexNet 和 Resnet50 进一步显示了混淆矩阵和精度形式的结果，当网络针对半人脸图像进行训练时。

B. 我们基于 CNN 的模型与一些当前最先进的模型的比较

在本节中，我们将我们的最佳性能模型（在人脸图像上半部分训练的 SqueezeNet）与其他一些最近的注视区估计研究进行比较。 Tawari 等人提出的技术。 [10] 在我们的数据集上实施，以便进行公平的比较。他们使用带有手工制作的头部姿势和注视代理特征的随机森林分类器，这些特征是使用面部标志计算的。

表 V 显示了通过测试我们微调的 SqueezeNet 模型获得的混淆矩阵，而表 VI 显示了通过随机森林模型获得的混淆矩阵。我们看到我们的基于 CNN 的模型明显优于随机森林模型 26.42%。导致随机森林模型性能低下的因素有很多。随机森林模型使用头部姿势和凝视角度作为区分不同凝视区域的特征，这些角度对于驾驶员相对于相机的位置和方向不具有鲁棒性。这个问题在我们的数据集中进一步突出，因为它由在不同视野设置下捕获的图像组成。由于不正确的界标估计，特别是对于轮廓或部分遮挡的面部，角度测量会进一步失真。此外，为了确定眼睛的张开程度，随机森林模型中使用了上眼睑的面积。眼睛区域也不是一个强大的功能，因为它会随着不同的主题、不同的座位位置和不同的相机设置而变化。所有这些因素结合在一起限制了随机森林模型的泛化，如我们数据集的结果所示。

我们还将我们的工作与 Choi 等人进行了比较。 [14]，他们使用了 AlexNet 的截断版本，并在他们自己的数据集上实现了 95% 的高精度。但是，据我们所知，他们不会进行交叉驱动程序测试，也不会临时划分每个驱动器。每个驱动器的前 70% 帧用于训练，接下来的 15% 帧用于验证，而最后 15% 帧用于测试。在我们的实验中（表 IV），我们表明 AlexNet 与我们考虑的其他网络相比表现不佳。当我们尝试通过在时间上划分每个驱动器（从而对相同驱动器的图像进行训练和测试）并使用调整后的人脸图像作为我们网络的输入来复制他们的实验设置时，我们实现了 98.7% 的非常高的准确率。在不同驱动程序上进行测试时，准确率大幅下降至 82.5%。这清楚地表明网络通过学习驱动程序的特定特征来过度拟合任务。

C. 没有人脸检测我们怎么逃？

在 V-A 中，我们观察到微调的 SqueezeNet 模型即使在嵌入人脸的 FoV 图像上也表现得非常好（表 IV）。事实上，除了 AlexNet 之外，所有经过微调的网络架构都表现良好。在本节中，我们试图了解网络正在学习什么，并确定它是否能够聚焦于驾驶员的眼睛，这是图像的一小部分。
我们在本节的实验中考虑了微调的 SqueezeNet 模型，因为它在 V-A 中表现最好。在 SqueezeNet 架构中，没有全连接层。最后的卷积层有七个过滤器，产生七个类激活图 (CAM)，它们对应于本研究中考虑的七个凝视区域。
最后的卷积层之后是全局平均池化 (GAP) 层，最后是 softmax 层。周等人。 [35]表明，尽管在图像级标签上进行了训练，但 GAP 层明确地使 CNN 具有卓越的定位能力。我们在实验中进一步看到了这一点。我们考虑三个样本图像（图像 A、图像 B 和图像 C）并可视化在 GAP 层之前获得的七个类激活图（CAM）。当 SqueezeNet 模型在不同的图像裁剪区域（即人脸的上半部分、人脸边界框、人脸和上下文以及人脸嵌入的 FoV）上进行微调时，我们会生成这些 CAM。生成的 CAM 被调整为图像的大小 (224 × 224)，以便我们能够看到激活在图像上的位置。

图 6 显示了所有 CAM。它由四个主要行组成，其中每个主要行对应于在不同图像裁剪区域上训练的网络。每个主要行进一步细分为三个子行，其中每个子行对应于在原始测试图像的图像裁剪区域上可视化的激活。我们从可视化 CAM 中获得了一些见解。
首先，激活总是定位在驾驶员的眼睛上。即使网络是在 Faceembedded FoV 图像上训练的，其中眼睛只占图像的一小部分。这尤其令人着迷，因为网络没有提供任何眼睛或脸部的边界框标签，并且它已经学会了有效地定位眼睛。

其次，网络还学会了智能地关注驾驶员的一只或两只眼睛。这可以在图像 C 的激活与图像 A 和 B 的激活中观察到。在图像 A 和 B 中，驾驶员正在看收音机，后视镜和网络使用驾驶员的双眼来做出决定。在图像 C 中，驾驶员正在看车速表，网络仅使用驾驶员的右眼做出决定。左眼离摄像头较远，每当驾驶员向左看或面部倾斜时，左眼就会被驾驶员的面部遮挡。当我们查看图 7 中几个不同图像的预测类的 CAM 时，可以进一步观察到这一点。因此，网络通过智能地聚焦于驾驶员的一只眼睛或双眼来学习处理遮挡。

受网络学习定位眼睛并观察到在驾驶员面部上半部分训练的模型具有更高的准确度这一事实的鼓舞，我们尝试在更高分辨率的面部嵌入式 FoV 图像上训练我们的模型。
由于 SqueezeNet 架构不包含任何全连接层而仅包含卷积层，因此可以在更大尺寸的图像上进行微调。我们相信在上半人脸图像上训练的模型能够更好地提取眼睛的更精细特征，如虹膜和眼睑的位置和形状，这说明它具有更好的性能。因此，提高 Face Embedded FoV 图像的分辨率也应该有助于模型更好地执行。

表 X 显示了网络在使用更高分辨率的人脸嵌入 FoV 图像进行训练时获得的宏观平均精度。训练设置类似于 IV-C 中描述的设置，并且仅根据 GPU 内存限制更改了批大小。可以清楚地观察到，随着分辨率的提高，模型开始表现得更好。当网络在 625 × 625 图像上进行微调时，我们达到了 92.13% 的准确率。尽管性能仍然低于在上半部分人脸图像上训练网络时的性能，但有一个巨大的优势，即不需要单独的人脸检测步骤。大多数现代最先进的对象检测器由区域提议网络 (RPN) 和进一步细化这些提议的检测网络组成。这些检测器仅限于以 30 fps 的速度实时执行。如果我们跳过人脸检测步骤直接预测注视标签，我们只需要通过网络执行一次前向传递。这使我们的系统能够实时执行。此外，预测不会受到不准确的人脸检测的影响。

D. 使用不同架构的凝视估计的推理时间

我们分析了本研究中使用的不同 CNN 架构的推理时间。该分析是在配备 Titan X GPU 的系统上使用 Caffe 的 Matlab 界面进行的。表 XI 列出了图像通过各种网络单次前向传递的运行时间。正如预期的那样，AlexNet 和 SqueezeNet 的运行时间比 VGG16 和 Resnet50 快得多。因此，微调的 SqueezeNet 因其高性能（在速度和准确性方面）而成为凝视区域估计的直接选择。
我们在 V-C 部分看到我们的独立系统，在 625×625 人脸嵌入式 FoV 图像上训练的微调 SqueezeNet，准确率达到 92.13%，在 166.7 Hz 下实时运行。我们表现最好的模型是在人脸的上半部分训练的微调 SqueezeNet，需要额外的时间来进行人脸检测。当使用 [30] 中介绍的人脸检测器时，我们的系统以 16 Hz 运行。然而，人脸检测不是本研究的目标，我们使用的人脸检测器可以很容易地被任何其他实时人脸检测器或使用检测器和跟踪器的组合所取代。

六、 COLUMBIA GAZE DATASET数据集的概括

在本节中，我们测试了我们的模型在 Columbia Gaze 数据集 [36] 上的泛化能力。该数据集是为感知图像中的眼神接触而创建的。它共有 5,880 张高分辨率图像，包含 56 名受试者（32 名男性和 24 名女性），这些受试者的种族差异很大（21 名亚洲人、19 名白人、8 名南亚人、7 名黑人和 4 名西班牙裔或拉丁裔）。此外，56 名受试者中有 37 名佩戴处方眼镜。

受试者坐在距离相机 2m 的地方，并被要求看一看附着在他们面前墙壁上的点网格。对于每个受试者，针对五种水平头部姿势（0°、±5°、±30°）、七个水平凝视方向（0°、±5°、±10°、±15°）和三个垂直凝视方向（0°，±10°）。因此，对于 56 个对象中的每一个，都有一个对应于总共 105 个姿势-凝视配置的单个图像。

由于问题（多类与二元分类）和数据集（自然驾驶数据与实验室在完美照明条件下使用 DSLR 相机精心收集的数据）与我们现有的非常不同，我们不会将我们的方法与他们的方法进行比较.因此，我们没有为此任务训练新网络，而是在该数据集上运行性能最佳的网络，并尝试分析我们的网络是否可以对不同的注视方向进行编码。这应该是可能的，因为通过仔细观察该数据集的图像，我们发现 105 个姿势-凝视配置中的一些与我们在汽车中向前（或朝向其他凝视区域）的方式相似。对于每个配置，我们检查我们的网络是否为大多数受试者输出单个注视区。为此，我们将直方图绘制为条形图，其中 y 轴代表输出特定凝视区的 56 名受试者的百分比，而 x 轴代表凝视区。我们还计算每个配置的归一化熵。归一化熵定义为

更多推荐

Driver Gaze Zone Estimation 翻译

本文发布于:2024-02-14 07:24:39，感谢您对本站的认可！

本文链接:https://www.elefans.com/category/jswz/34/1762191.html