关键词:目标检测;生成对抗网络;超分辨率
摘要:针对海上舰船图像有效像素在整体像素中占比小的问题,提出一种基于目标检测网络的超分辨率方法。该方法包含两个阶段,结合bicubic变换,逐步地将图像的清晰度从粗到细地进行恢复。首先,第一阶段通过目标检测网络,检测出原图像中需要超分辨率的区域,然后,第二阶段将对应区域通过bicubic变换调整至指定分辨率,而后通过生成对抗网络增强图像细节。最终在自建数据集上的实验结果表明,与传统方法和现有基于深度神经网路的超分辨率重建算法相比,该算法不仅图像视觉效果最好,而且在数据集上的峰值信噪比(PSNR)平均提高了0.79dB,结构相似性(SSIM)平均提高了0.04,证明了该算法的有效性。
1.引言
近年来,图像超分辨率技术得到了长足的发展,结合比较有效的深度学习技术,该方法的精度已经得到了较大的提高,并已经广泛应用于各种领域,如视频监控、医学成像、高清晰度电视、遥感、手机与数码相机等[1][2]。本文算法的应用背景为提高海上远距离舰船目标图像的分辨率,主要应用于单幅海上舰船图像的超分辨率,该问题是一个不适定的逆问题,旨在从低分辨率(Low-Resolution,LR)图像中恢复出一个高分辨率(High-Resolution,HR)图像。如图1。
Figure1.Marineshipimage
图1.海上舰船图像
目前传统超分辨率算法在运行时存在以下问题:1)由于远距离舰船图像的像素在整体图像所占比例较少,大部分像素为用户并不关心的海浪天空等区域,因此在运行传统算法的时,大部分运算时间应用到了无关的区域,不符合使用者的使用意图,而且运行效率低下。2)在应用深度学习技术的超分辨率算法中,如果对整张图像进行学习,则算法使用的卷积神经网络不能有效学习舰船目标的特征,而很有可能把海浪天空的特征误认为舰船的特征,从而无法有效对舰船图像进行重建。基于以上两点原因,本文提出一种基于目标检测网络的超分辨率算法。
2.研究背景及现状
2.1.目标检测算法
自从AlexNet在比赛中使用卷积神经网络进而大幅度提高了图像分类的准确率,便有学者尝试将深度学习应用到目标检测中。在这方面,主要有两种主流的算法:一类是结合regionproposal、CNN网络的,基于分类的R-CNN系列目标检测框架(twostage);另一类则是将目标检测转换为回归问题的算法(singlestage)[3]。虽然FasterRCNN算法是目前主流的目标检测算法之一,但是速度上并不能满足实时的要求。随后出现像YOLO,SDD这一类的算法逐渐凸显出其在速度上的优势。YOLO[4]算法的网络设计策略延续了GoogleNet[5]的核心思想,真正意义上实现了端到端的目标检测,且发挥了速度快的优势。YOLO采用以cell为中心的多尺度区域取代regionproposal,舍弃了一些精确度以换取检测速度的大幅提升,检测速度可以达到45f/s,足以满足实时要求。
2.2.超分辨率算法
传统的SISR的方法包括基于插值的算法,基于凸集投影法的算法等,但由于深度学习在计算机视觉领域的突破性进展,人们尝试在超分辨率问题中引入深度神经网络,通过构建深层次的网络进行端到端的训练来解决图像超分辨率重建问题[6]。SRCNN(super-resolutionconvolutionalneuralnetwork)[7]是最早运用深度学习方法在LR与HR之间建立端到端映射的SISR模型,其输入图像采用了插值预处理的方法。Ledig等人[8]基于GAN提出了一种用于图像超分辨率的生成对抗网络SRGAN,通过生成式和判别器的交替执行,充分提取高频信息。由于海上舰船图片成对采集,因此适用于使用建立像素到像素映射关系的超分辨率算法[9],论文借鉴pix2pix[10]的算法设计。
3.基于目标检测网络的超分辨率重建模型
本文所设计的模型是一种基于目标检测算法的模型,目的在于检测出整幅中用户感兴趣的区域,而后再对指定区域进行超分辨率放大,从而减少算法运行的时间,并更好的重建目标区域图像的边缘和纹理,本文的方法由两阶段组成,如图2所示。
Figure2.Modelstructure
图2.模型结构
X为原图,X′X′为X的退化图像,Y为X中用户感兴趣的区域,x为中用户感兴趣的区域,y为生成网络生成的图像。T为目标检测网络,用于获取X中的(x,y,h,w,confidence)信息,G为图像生成网络,D为鉴别网络。
3.1.目标检测卷积神经网络结构设计
目标检测网络T的结构设计借鉴了yoloV3中Darknet-53的神经网络设计,其候选框基于anchor候选框机制,其原理图如图3:
网络实际的预测值为,tx、ty、tw、bh根据上图中的四个公式计算得到预测框的中心点坐标和宽高bx,by,bw,bh。其中cx、cy为当前grid相对于左上角grid偏移的grid数量。
图3所示σ(t)函数为logistic函数,将坐标归一化到0~1之间。最终得到的bx,by为归一化后的相对于gridcell的值。pw,ph与groundtruth重合度最大的anchor框的宽和高。实际在使用中,将bw,bh也归一化到0~1,实际程序中的pw,ph为anchor的宽,高和featuremap的宽,高的比值。最终得到的bw,bh为归一化后相对于anchor的值。
Figure3.AnchorCandidateBox
图3.Anchor候选框
卷积神经网络结构如图4:
Figure4.Convolutionalneuralnetworkarchitecture
图4.卷积神经网络结构
该网络的特点在于使用了连续的3×3和1×1的卷积基层,简化了resnet神经网络,减少了检测时间。
在yoloV3损失函数中,需要