计算机视觉领域近年来对群体计数问题展开了广泛的研究。由于尺度变化(scale variation)较大,该项任务仍然具有很大的挑战性。在这篇论文中,中科院计算技术研究所提出了一种简单而有效的群体数量统计网络:DSNet。该网络的核心结构是密集扩张卷积块,其中每个扩张层与其他层紧密相连,防止信息受到尺度变化的影响。论文还介绍了一种新的多尺度密度水平一致性损失,提升了网络的表现性能。作者在四个群体计数数据集(ShanghaiTech、UCF-QNRF、UCF_CC_50和UCSD)上与最新算法进行了比较。实验结果表明,DSNet在所有四个数据集上均达到最佳性能,并有显著的提升:在UCF-QNRF和UCF_CC_50数据集上计数准确率提高了30%,在Shanghai Tech和UCSD数据集上准确率提高了20%。本文是AI前线第84篇论文导读。
1 介绍
近年来,随着人口的快速增长,群体计数在视频监控、交通管制和体育赛事等方面得到了广泛应用。早期的研究工作通过检测身体或头部来估计人群数量,而其他一些方法则学习从局部或全局的特征到实际数量的映射关系来估计数量。最近,群体计数问题被公式化为人群密度图的回归,然后通过对密度图的值进行求和以得到图像中人群的数量。随着深度学习技术的成功,研究人员采用卷积神经网络(CNN)生成准确的群体密度图,并能获得比传统方法更好的表现。
然而,由于尺度变化(scale variation)较大、遮挡严重、背景噪声和透视失真,群体计数仍然是一项极具挑战性的任务。其中,尺度变化是最主要的问题。为了更好地处理尺度变化,研究人员提出了许多多列(multi-column)或多分支(multi-branch)网络。这些架构一般由CNN的几个列或主干网络不同阶段的几个分支组成。这些列或分支具有不同的感受野,以感知人群大小的变化。尽管这些方法有了很好的改进,但它们捕获的尺度多样性受到列或分支数的限制。
尺度变化的主要挑战在于两个方面。首先,如图1左所示,人群图像中的人通常大小不同,从几个像素到几十个像素不等。这就要求网络能够处理尺度变化很大的数据。第二,如图1右所示,整个图像的尺度通常连续变化,特别是对于高密度图像。这就要求网络能够对尺度范围进行密集采样。然而,现有的方法并不能同时应对这两个挑战。
本文提出了一种新的密集尺度单栏神经网络——DSNet,用于群体计数。DSNET由密集连接的扩张卷积块组成,因此它可以输出具有不同感受野的特征,并且捕获不同尺度的人群信息。DSNet的卷积块与DenseASPP结构相似,但具有不同的扩张率组合。作者为块内的层仔细选择这些比率,这样每个块对连续变化的尺度进行更密集的采样。同时,所选择的扩张率组合可以利用感受野的所有像素进行特征计算,防止网格化效果。为了进一步提高DSNet捕获的尺度多样性,作者堆叠了三个密集扩张卷积块,并利用残差连接(residual connection)进行密集连接。最终的网络能够以更密集的方式对非常大的尺度变化范围进行采样,从而能够处理群体计数中尺度变化较大的问题。
以前大多数方法使用传统的欧几里德损失(Euclidean loss)训练网络,这是基于像素独立性的假设。这种损失忽略了密度图的全局和局部一致性,会影响群体计数的结果。为了解决这一问题,作者提出了多尺度密度水平一致性损失,用于保证估计的人群密度图和真实人群密度图之间的全局和局部的密度水平保持一致。
论文贡献
*提出了密集扩张卷积块(DDCB),其扩张率是仔细选择的。DDCB能够对连续变化的尺度进行密集采样。DSNet可以进行端到端的训练,并且可以处理拥挤和稀疏的人群图像。