基于候选区域的无人机侦察影像目标检测技术研究

摘要：针对无人机侦察影像的目标检测问题，研究一种基于候选区域的无人机侦察影像目标检测技术。首先围绕无人机影像特点，分析了基于候选区域的目标检测技术的优势。然后介绍了该技术的关键步骤并归纳了各步骤的主流算法。最后总结了两种较为成熟的候选区域目标检测框架:基于DPM的候选区域目标检测框架和基于卷积神经网络的候选区域目标检测框架，通过对现有算法的分析，为下一步改进算法提供了思路。

关键词：候选区域;目标检测;侦察影像;无人机

相比于传统战场侦察方式，无人机侦察能够在避免人员伤亡的情况下提供近实时的情报信息，逐渐成为一种主流的侦察手段。无人机获得战场侦察影像数据后，通过目标检测技术处理侦察影像，实现对战场典型目标的定位与分类，根据检测信息，可以准确打击敌方目标、掌握敌我部署、增强战场判断力、提高作战效率。

目标检测技术是一种基于目标几何与统计特征的图像识别分割技术。早期的算法有帧差法、背景差法、光流法等，主要利用帧间信息定位出运动目标的空间位置，不涉及对目标类别的智能分类，如需目标判读还要添加目标识别模块，过程繁琐冗余。此外，无人机侦察影像相对于一般研究的目标检测影像有自身的特殊性：

（1）成像环境恶劣、目标背景运动且复杂；

（2）目标相对背景过小，定位困难；

（3）目标特征不明显，识别难度大；

（4）实际应用需求对算法实时性、鲁棒性要求高。

因此，快速鲁棒的进行无人机侦察影像目标检测成为无人机信息处理的关键，而基于候选区域（Region Proposal）的目标检测技术正符合以上要求：

（1）对单幅或单帧影像进行检测，不受运动背景限制；

（2）候选区域检测，缩小待计算窗口数量，运算速度快；

（3）特征提取降维与分类器相结合，识别定位的精度与速度高；

（4）整体框架简单清晰如图1所示，可以根据检测要求对候选区域检测、特征提取、分类器三个检测阶段进行变化，便于算法的改进与评估。

因此对基于候选区域的无人机侦察影像目标检测技术进行研究具有重要意义，接下来将对其三个阶段进行介绍和算法概述。

图1 基于候选区域的目标检测框架1 候选区域检测

候选区域检测是利用图像颜色、边缘、纹理等特征，选择性搜索目标位置的方法。由于目标可能出现在图像的任何位置，大小、长宽比例不定，因此需要根据一定方法将图像分割成各种尺寸的子图像作为候选区域，便于目标定位与特征提取。

而高效的分割候选区域成为候选区域检测阶段的研究重点。传统穷举搜索（Exhaustive Search）算法也可以算作一种特殊的候选区域检测方法，其利用几种尺寸相对固定的矩形窗口，逐行列或随机对整幅图像截取子图像，实现对图像的遍历。这种盲目穷举的区域搜索方法时耗长、冗余大，严重影响整体目标检测算法的运行速度与性能，更无法满足无人机情报处理的实时性，因此为提高检测效率需要一种检测策略对区域搜索进行引导，避免复杂的运算。

现有的可用于候选区域检测的算法有很多，Jan Hosang等将这些算法分为分组区域选择法（Grouping proposal methods）和窗口评分区域选择法（Window scoring proposal methods）两大类。分组区域选择法将图像先分割成小块，随后按照某种原则组合成需要的候选区域。根据产生候选区域方式的不同，分组区域选择法又细分为超像素法（Superpixels, SP）、像素分割法（Graph Cut, GC）和边缘轮廓法（Edge Contours, EC）。窗口评分区域选择法在图像上截取大量的区域窗（Windows），并按照与目标关系的大小进行打分，选择分数高的生成候选区域。图2详细描述了这种分类层次并列举了主要算法。

图2 主要候选区域检测算法分类

上述算法中比较具有代表性的有：Seletive Search、Edge Boxes和MCG。

Seletive Search的主要思路是使用图像分割算法将图像分割成小区域，计算相邻小区域的颜色、纹理等特征的相似度，并融合相似度最高的两个区域，重复相似度计算和融合过程直到合成整张图像，合成过程中产生的各种尺度区域即为候选区域。

Edge Boxes首先使用结构化快速边缘检测算法得到边缘图像（Edge Probability map），利用非极大值抑制（Non-maximum Suppression, NMS）稀疏边缘图像，然后将边缘点组成边缘组（Edge Group）并计算组间的相似度，进而得到框内和与框边缘重叠的两组轮廓数，最后根据轮廓数对区域框进行打分，根据分数确定候选区域。

MCG与Edge Boxes一样先用结构化快速边缘检测算法得到边缘图像，利用分水岭算法得到轮廓图，随后生成超度量轮廓映射图（UCM），之后通过层次分割得到区域集并用随机森立分类器根据尺度、位置和边缘强度等特征对区域进行排序，进而选出符合要求的候选区域。

鲁棒性（Robust）、实时性和召回率（Recall）是评价候选区域选择方法的一般标准。无人机侦察环境复杂导致成像过程中可能存在各种扰动，因此良好的鲁棒性和较高的召回率是保证区域选择算法在实际应用中具备高质量目标检测效果的关键。同时提升区域选择阶段的运行速度，也会降低整体目标检测过程的时耗。2 特征提取

特征提取是目标检测中的关键步骤，其质量直接影响到最终检测结果的准确性。特征提取常用的图像特征有颜色特征、纹理特征、形状特征等。受限于无人机实际侦察条件，应用于复杂多目标背景下无人机侦察目标检测的特征提取算法应对尺度、亮度、旋转、遮挡和噪声等干扰具有较强的鲁棒性，而传统目标检测技术大部分通过人工设计提取图像特征，常见的算法有：

Harris角点检测算法以泰勒展开式构建像素点邻域内的连续曲面，计算所有像素点的微商平方和，采用其中的最大值和最小值作为判断特征角点的显著性依据，该算法能将检测方向扩展到所有方向上。不足之处是计算过程复杂，且人为设定的初始阈值对算法的稳定性具有决定性作用。

SIFT（Scale Invariant Feature Transform）特征检测算法是现阶段较为成熟的一种算法，首先通过高斯平滑构建高斯尺度空间，在其中进行极值点检测并将其作为特征点，经过特征点描述即可用于图像匹配。该算法对于照度变换、尺度和旋转变换、视点变化以及噪声影像都具备一定的鲁棒性，特征点区分力较好，信息量丰富，匹配的准确度较高，但由于算法需要构建尺度空间并计算全局极值，计算量大，无法满足实时要求。

HOG（Histogram of Oriented Gradient）特征检测算法是一种利用局部图像梯度方向直方图特性提取图像特征的方法，能够减弱局部光照、阴影对特征提取的影响，计算像素梯度获取图像轮廓信息。首先将图像划分成多个Cell块，每个Cell块由数个像素点组成，统计Cell块的梯度直方图，再将数个Cell块组合成Block区域，根据密度对区域中的Cell块归一化，区域中所有Cell块的梯度特征组合成Block特征，同理图像中所有Block特征组合成图像特征，HOG对光照和轻微形变有一定的抑制能力，可以很好的表征局部像素之间的关系。与其它传统特征提取算法相同，计算冗长导致的实时性差是算法的主要缺陷。

SURF（Speeded up Robust Features）检测算法采用Hessian矩阵对SIFT算法中高斯尺度空间构建过程进行近似处理，利用积分图像和更低维度的描述子向量简化算法体积，有效减少了计算量，弥补了SIFT算法运行速度缓慢的缺点。但是在采用Hessian矩阵获得极值后，在求取特征点主方向阶段过于依赖局部区域像素点的梯度方向，可能会造成误匹配。而且由于算法采用一种近似处理实现特征点的检测，导致其对于各种变换的鲁棒性相对下降。

之后还有许多基于SIFT和SURF改进的特征检测算法，如BRIEF（Binary Robust Independent Elementary Features）检测算法、ORB（Oriented FAST and Rotated BRIEF）检测算法、BRISK（Binary Robust Invariant Scalable Keypoints）检测算法、非线性特征检测的风式特征（KAZE）算法，鲁棒性和实时性都有大幅提高，但是传统特征提取算法应用于无人机侦察目标检测时，鲁棒性、实时性和准确性等传统指标依然无法满足实际需求，具体表现为以下四个方面：

（1）提取到的特征信息过于单一，无法完整的表述目标；

（2）可分性较差，分类器无法准确的对复杂背景下的目标进行分类；

（3）泛化性不足，不同的特征适用于不同的影像数据，一般人为选取的特征都有自身特定的应用背景；

（4）特征设计工作复杂，研发周期长，且设计工作需要较强的专业背景。

随着深度学习的不断发展，基于深度卷积神经网络（convolution neural network，CNN）的目标检测算法得到深入研究。在图像特征提取方面，卷积神经网络具有明显优势，区别于人工设计的特征，其利用大量图片数据学习到非人工设计的特征，解决了由于人为选取的特征信息单一导致的复杂背景下鲁棒性不强的问题，提升影像目标检测效果。3 分类器

分类是目标检测的核心之一，而分类器的选择是分类的重点。将特征提取中得到的特征送入分类器，判断出图像中目标类别，即基本完成目标的粗检测。如图3所示为目标检测中分类器进行分类的过程。

图3 分类示意图

目标检测分类过程最常用的分类器有：支持向量机（support vector machine,简称 SVM）、Boosting、随机森林（Random Forest, RF）、人工神经网络（Artificial Neural Network, ANN）等。

SVM分类器是以统计学习理论为基础的学习方法，根据结构风险最小化准则，以最大化分类间隔构造最优分类超平面来提高学习机的泛化能力，较好地解决了非线性、高维数、局部极小点等问题。对于分类问题，支持向量机算法根据区域中的样本计算该区域的决策曲面，由此确定该区域中未知样本的类别。传统图像目标检测中大多应用SVM分类器进行特征分类，然而缺失数据敏感和对非线性问题没有通用解决方案仍是急待解决的问题。

Boosting分类器是一种集合分类器即通过组合几个弱分类器实现强分类器的性能。其基本思想是：训练数个弱分类器，在第一个弱分类器中输入相同权值训练样本，在之后的分类器迭代过程中，不断增加正确样本权重直到迭代完成，最后将所有弱分类器组合成强分类器用于分类决策。Adaboost（Adaptive Boosting）算法具体实现了Boosting分类器这一思想，且具有精度高、抗过拟合能力强、构建简单灵活等优点，大量应用于包括目标特征分类等各种分类场景。弱分类器的选择是影响Boosting分类器分类效果的关键，也是制约其发展的阻力。

随机森林是由多个决策树分类器（Classification and Regression Tree, CART）组成的总分类器。为达到提升泛化性的目的，分类器训练过程中通过随机有放回的采样获取子分类器训练样本集，随后将提取到的特征按一定比例随机无放回的采样来训练子分类器节点。随机森林相较于其它分类器具有训练速度快、泛化能力强、实现简单等优点，且可以有效克服样本失衡、特征丢失、特征维度过高的问题。但在数据噪声较大的情况下仍会发生过拟合的问题，此外，该模型内部不可控，只能通过外部参数进行调节。

ANN是基于人脑神经网络对信息处理分类的一种简化模拟，由大量的神经元节点连接构成，通过调整网络结构、网络连接方式、节点激活函数和节点间权值进而对输出进行调整。根据训练结构特点可分为前馈网络、反馈网络和竞争学习网络。人工神经网络通过训练具有良好的联想记忆能力，且具有高精度、高并行性、非线性、良好的容错性和泛化性等优点，不足之处是需要大量训练样本和一定的硬件基础，且需要人为经验来设置参数。4 基于候选区域的图像目标检测框架

4.1基于多尺度形变部件模型

多尺度形变部件模型（Deformable Part Model, DPM）算法是一种基于部件的检测算法，曾多次获得PASCAL VOC（Visual Object Class）挑战赛冠军，是深度学习出现之前应用最广泛、效果最好的目标检测算法。DPM由滑动窗口、改进的HOG特征和SVM分类器组合而成，如图4所示。

图4 DPM流程图

DPM算法通过构建高斯金字塔，在多尺度空间进行检测，每一尺度层的DPM模型包含一个根模型和几个可变部件模型，根模型的分辨率是可变部件模型的1/2。目标检测的结果由模型与待匹配特征之间的相似度确定，相似度越高则检测分数越高，检测窗口得分公式为：

其中,score(x₀,y₀,l₀)表示l₀尺度空间中锚点为(x₀,y₀)窗口的分数，R_0,l0(x₀,y₀)为l₀中根模型相似度得分，为l₀中多个可变部件模型得分和，b为偏差值。

DPM目标检测框架具有以下优势：

（1）采用高斯金字塔多尺度空间检测，保证了尺度不变性；

（2）HOG特征提取算法对光照变化、细小形变具有较好的鲁棒性；

（3）部件模型的提出降低了遮挡、形变等因素对目标检测的影响。

4.2基于卷积神经网络

基于卷积神经网络的目标检测框架有很多，而基于候选区域的卷积神经网络目标检测框架起步最早、应用最成熟，且具有较高的准确率，其中具有代表性的是RCNN，具体步骤如下：

（1）候选区域检测阶段：应用上文介绍的Selective Search算法对侦察影像进行区域选择；

（2）特征提取阶段：将提取的所有候选区域进行归一化处理，通过训练过的深度卷积神经网络进行特征提取；

（3）分类阶段：将特征输入多个SVM二分类器中，判断是否属于该类别。

随着深度学习结构的不断优化，学者们将卷积神经网络贯穿包括特征提取在内的整个基于候选区域的目标检测过程中，先后出现了SPP-Net、Fast-RCNN、Faster-RCNN等框架，大大提高了目标检测的实时性、鲁棒性和准确性。5 结束语

针对无人机侦察影像目标检测问题，提供了一种基于候选区域的无人机侦察影像目标检测思路，对其三个主要步骤:候选区域检测、特征提取、分类器展开了分析与总结，最后归纳了两种主流的基于候选区域的目标检测框架。理论分析表明，该方法具有较强的实用性与应用价值，为无人机侦察影像目标检测算法的研究与改进提供理论研究基础。下一步将对框架中各步骤介绍的算法进行试验对比，提出一种快速鲁棒的无人机侦察影像目标检测算法。

基于候选区域的无人机侦察影像目标检测技术研究

相关推荐