系统结构
遥感影像是目前可以大范围获取海洋、大气和地球表面信息的数据资源,在农业、军事和城市规划等各个领域发挥重要作用. 但是在影像观测过程中会受到云雾等污染因素的影响,导致遥感影像信息缺失,在实际应用中造成巨大的资源损失和浪费. 因此,如何对遥感影像云雾覆盖区域进行检测并对其进行校正和修复是国内外专家广泛关注的具有挑战性的难点问题. 全面综述其研究进展,总结了现有遥感影像云层检测和去除的挑战;根据是否利用深度学习技术将云检测方法分为2大类,根据是否利用辅助影像将云去除方法分为3大类,依照不同方法特性系统分析和对比了其基本原理和优缺点;基于上述总结在2组遥感影像公开数据集上分别对4种云检测、4种薄云去除和4种厚云去除方法进行了性能评测;最后讨论了本领域目前仍存在的问题,对未来研究方向进行了预测,希望能够对该领域研究人员提供有价值的参考.
如今,数码相机和智能手机在人们的生活中扮演着越来越重要的角色,已经成为人们感知世界、记录信息和沟通交流的主要工具. 当使用这些设备拍摄电子屏幕时,显示设备和摄像头传感器网格之间往往会发生混叠,通常导致图片中存在不规则分布的摩尔纹干扰图案,从而严重影响了拍摄图像的视觉质量效果. 因此,摩尔纹图案去除方法研究对于拍摄图像的后期处理具有重要意义. 为此,详细梳理了摩尔纹去除研究的发展脉络,并根据不同的适用场景和技术实现将现有方法分为2类:基于先验知识的摩尔纹去除方法和基于深度学习的摩尔纹去除方法. 鉴于深度学习网络中训练数据集的收集和对齐方式不同,该类方法又分为基于卷积神经网络(CNN)的摩尔纹去除方法和基于生成式对抗网络(GAN)的摩尔纹去除方法. 在此基础上,选择相同的公开数据集,对主流的深度学习方法进行算法实现和性能对比分析,并分别总结了各类方法的优缺点. 最后,对未来的研究方向进行展望.
文物极易因为保存不当而导致部分结构或纹理缺失,而现有的图像修复技术由于受到先验信息和卷积操作的局限而无法直接应用于文物图像修复,为更合理地恢复文物图像原貌,提出了一种新的文物图像修复方法,将文物图像修复工作分为2个步骤:第1步使用Transformer进行粗略的图像重建并恢复连贯的结构;第2步使用卷积神经网络将粗略的重建图像进行上采样并恢复缺失区域的精细纹理. 考虑到目前国内外没有高质量的大型文物数据库,因此也提出了一个新的高质量大型文物图像数据库. 最终实验结果表明,在符合现实场景的破损修复实验和大面积破损修复实验中,修复效果在主观和客观评估中均优于当前图像修复算法. 同时,支持多元化输出,为修复人员提供多样化参考,极大地提升了文物修复效率.
在图像去雾领域中,目前多数去雾模型难以维持精度与效率的平衡,高精度的模型往往伴随着复杂的网络结构,而简单的网络结构又往往会导致低质量的结果. 针对该问题提出一个基于雾浓度分类与暗-亮通道先验的多分支去雾模型,通过对带雾图像分类,使用复杂度不同的网络来处理不同雾浓度的图像,可在保证精度的同时提高计算效率. 模型由轻量级雾图像分类器和基于暗-亮通道先验的多分支去雾网络2部分构成:前者将带雾图像分为轻雾、中雾、浓雾3类,输出雾浓度标签;后者包含3个结构相同、宽度不同的分支网络,根据雾浓度标签选择不同的分支网络处理不同雾浓度图像,恢复至无雾图像. 提出一个新的雾浓度分类方法以及基于该方法的雾浓度分类损失函数,可根据带雾图像的暗通道特征和恢复难度,结合生成图像质量和模型计算效率,得到对带雾图像合理准确的分类结果,达到去雾效果和算力需求的良好平衡. 提出新的暗通道与亮通道先验损失函数,用于约束分支去雾网络,可有效提高去雾精度. 实验结果表明,模型能够以更低的网络参数量和复杂度得到更优的去雾结果.
近年来基于分数阶微积分的信号和图像处理受到广泛关注. 目前常见的应用于图像处理的分数阶微分算子包括G-L(Grünwald-Letnikov)型、R-L(Riemann-Liouville)型和Caputo型3种.G-L和R-L算子尽管能对图像有着一定的增强效果,但其对图像对比度、清晰度的提升有限;而Caputo型微分掩模算子目前多限于(0,1)阶的低阶算子,其高阶次算子的研究和应用相对较少.对高阶次Caputo型分数阶微分算子及其图像增强应用进行研究,首先针对(1,2)阶、(2,3)阶次Caputo型分数阶微分构建一种基于向前差分的微分掩模算子,并对其误差进行了论证;其次进一步给出了更高阶次Caputo型分数阶微分算子的矩阵化表现形式;最后在此基础上将所提出的高阶次Caputo型分数阶微分掩模算子应用于图像增强.实验结果表明所提出的高阶次Caputo型分数阶微分算子取得了很好的图像增强效果,对提升图像的对比度、清晰度和平均梯度具有较为明显的优势.
微小目标的纹理模糊、包含特征少,是目标检测领域的难点.针对小目标检测提出一种新的上下文增强模块(context augmentation module, CAM)和特征提纯模块(feature refinement module, FRM)相结合的特征金字塔复合结构. 利用多尺度空洞卷积的特征融合,补充网络中的上下文信息;引入通道和空间的特征提纯机制来抑制多尺度特征融合后的冲突信息,防止小目标淹没在冲突信息中;同时,引入复制—缩小—粘贴(copy-reduce-paste)的数据增强方法提高小目标的占比,使训练时小目标对损失值的贡献更大,训练更加平衡.由实验结果可知,所提出的算法在VOC数据集上目标检测的平均精度均值(Mean Average Precision, mAP)达到了83.6%(交并比为0.5);对小目标检测的AP值达到了16.9%(交并比为0.5~0.95),比YOLOV4,CenterNet,RefineDet的分别提高3.9%,7.7%和5.3%.在TinyPerson数据集上小目标检测的AP值为55.1%,比YOLOV5,DSFD的分别提高0.8%和 3.5%.
深度学习在2维图像等结构化数据处理中表现出了优越性能,对非结构化的点云数据分析处理的潜力已经成为计算机图形学的重要研究方向,并在机器人、自动驾驶、虚拟及增强现实等领域取得一定进展.通过回顾近年来3维点云处理任务的主要研究问题,围绕深度学习在3维点云形状分析、结构提取、检测和修复等方向的应用,总结整理了典型算法.介绍了点云拓扑结构的提取方法,然后对比分析了变换、分类分割、检测跟踪、姿态估计等方向的以构建神经网络为主要研究方法的进展.最后,总结常用的3维点云公开数据集,分析对比了各类方法的特点与评价指标,指出其优势与不足,并从不同角度对基于深度学习的方法处理点云数据所面临的挑战与发展方向进行了讨论.
互联网电视(over the top, OTT)视频业务逐渐成为最流行的在线业务之一,然而网络视频往往由于网络质量差、服务平台过载等原因,出现播放失败、卡顿次数增加、缓冲时间过长等质量问题,导致用户感知质量(quality of experience, QoE)下降.因此,运营商需要精确评估和掌握用户在使用网络视频业务过程中的质量体验,以便提前发现质量问题,进一步开展网络和业务优化工作.为了解决该问题,提出一种基于用户呼叫/事务/会话记录数据(extend data record, XDR)的无参考网络视频质量评估方法.该方法从大量XDR数据中提取出与视频质量相关性高的少量信息,将大规模、低价值的XDR话单数据转化为高价值、小规模的视频质量特征信息,有利于后续人工智能算法的应用和视频业务质量评价,降低进一步数据挖掘的资源成本,提升机器学习的输入样本质量和QoE评价结果的准确性.实验表明:使用该方法提取后的数据进行QoE预测,得到的预测结果在准确性方面明显优于目前基于原始XDR数据的QoE机器学习评估方法.
为解决相关滤波类视觉跟踪算法中的边界效应问题,提出一种基于自适应空间正则化的视觉跟踪算法.在经典滤波模型中引入自适应空间正则化项,通过建立正则权重在相邻帧之间的关联,自适应调整当前帧的模型正则化权重,减小边界效应的影响.采用自适应宽高比的尺度估计策略,以及基于颜色直方图相似度的模型更新策略,抑制模型漂移,提高跟踪准确性.实验显示,该算法在UAV123,OTB2013,OTB2015这3个数据集上的跟踪成功率和精确度均高于所有对比的算法,且即使在复杂场景中也能保持良好的跟踪效果.特别是在出现运动模糊和目标在平面内旋转2种情况时,该算法的跟踪成功率较排名第2的算法分别提升了9.72个百分点和9.03个百分点,说明所提出的算法具有较好的适应性.
红外图像即使在低光照条件下,也能根据热辐射的差异将目标与背景区分开来,而可见光图像具有高空间分辨率的纹理细节,此外,红外和可见光图像都含有相应的语义信息.因此,红外与可见光图像融合,需要既保留红外图像的辐射信息,也保留可见光图像的纹理细节,同时,也要反映出二者的语义信息.而语义分割可以将图像转换为带有语义的掩膜,提取源图像的语义信息.提出了一种基于语义分割的红外和可见光图像融合方法,能够克服现有融合方法不能针对性地提取不同区域特有信息的缺点.使用生成式对抗神经网络,并针对源图像的不同区域设计了2种不同的损失函数,以提高融合图像的质量.首先通过语义分割得到含有红外图像目标区域语义信息的掩模,并利用掩模将红外和可见光图像分割为红外图像目标区域、红外图像背景区域、可见光图像目标区域和可见光图像背景区域;然后对目标区域和背景区域分别采用不同的损失函数得到目标区域和背景区域的融合图像;最后将2幅融合图像结合起来得到最终融合图像.实验表明,融合结果目标区域对比度更高,背景区域纹理细节更丰富,提出的方法取得了较好的融合效果.
近年来,随着社会经济的不断发展,许多商业服务以及旅游出行活动对环境地图的依赖越来越大.传统的地图生成方法主要基于车辆驱动型的GPS设备进行数据的采集和路网的构建.然而该类方法存在精度低、时效性差等缺点,并且该类方法对于一些采集设备难以到达或者GPS信号弱的地带无法进行地图的构建.为了解决上述问题,提出了通过挖掘广泛普及的智能手机内部传感器数据进行地图构建的思想,并基于该思想提出了一种数据融合算法.该算法基于智能手机采集的行人步行数据,利用机器学习分类算法与信号处理技术进行行进状态的识别,采用分段机制结合动态时间规整算法进行转向情况的处理,通过融合有效状态下行进的距离数据和方向数据,最终生成局部地图轮廓.将所提算法在真实路网采集的数据上进行实验,实验结果证明了所提方法对局部地图轮廓构建的有效性以及深入挖掘传感器数据的可行性.
随着人脸识别技术已经融入到人们日常生活中,人脸欺诈检测作为人脸识别前的一个关键步骤越来越受到重视.针对打印攻击和视频攻击,提出了一种通过量化局部像素之间的差值来细化传统局部二值模式(local binary pattern, LBP)特征的差分量化局部二值模式(difference quantization local binary pattern, DQ_LBP)算法.DQ_LBP能够在不增加LBP维度的基础上提取像素之间的差值信息,以便更精确地描述图像的局部纹理特征.此外,使用空间金字塔算法统计了不同彩色空间中的DQ_LBP特征并将其融合成统一的特征向量,从而更加充分地描述了人脸的局部彩色纹理信息及其空间结构信息,进一步提高了算法的检测性能.实验结果表明:该算法在CASIA FASD,Replay-Attack,Replay-Mobile三个具有挑战性的人脸反欺诈数据库中都取得了较为优异的结果,而且在实时性设备的应用上具有很大的潜能.
视频生成是计算机视觉和多媒体领域一个重要而又具有挑战性的任务.现有的基于对抗生成网络的视频生成方法通常缺乏一种有效可控的连贯视频生成方式.提出一种新的多模态条件式视频生成模型.该模型使用图片和文本作为输入,通过文本特征编码网络和运动特征解码网络得到视频的运动信息,并结合输入图片生成连贯的运动视频序列.此外,该方法通过对输入图片进行仿射变换来预测视频帧,使得生成模型更加可控、生成结果更加鲁棒.在SBMG(single-digit bouncing MNIST gifs),TBMG(two-digit bouncing MNIST gifs)和KTH(kungliga tekniska hgskolan human actions)数据集上的实验结果表明:相较于现有的视频生成方法,生成结果在目标清晰度和视频连贯性方面都具有更好的效果.另外定性评估和定量评估(SSIM(structural similarity index)与PSNR(peak signal to noise ratio)指标)表明提出的多模态视频帧生成网络在视频生成中起到了关键作用.
针对现有立体匹配深度网络中特征提取模块冗余度高以及用于视差计算的3D卷积模块感受野受限问题,提出改进的端到端深度网络.相比现有网络,该网络特征提取模块遵循立体匹配特性,结构更简洁;引入分离3D卷积实现大卷积核3D卷积运算以扩充感受野.在SceneFlow数据集上,从匹配精度和计算开销等方面评估所提出网络.实验结果显示:所提出网络在准确度上达到了先进水平;相比现有同类型模块,所提出特征提取模块在保证结果精度的同时能减少90%的参数量,并减少约25%的训练时间;相比3D卷积,所提出的分离3D卷积将卷积核大小提升至覆盖整个视差维度,搭配群组归一化(group normalization, GN),其端点误差(end-point-error, EPE)较基础方法降低了12%的相对量.
场景分割的目标是判断场景图像中每个像素的类别.场景分割是计算机视觉领域重要的基本问题之一,对场景图像的分析和理解具有重要意义,同时在自动驾驶、视频监控、增强现实等诸多领域具有广泛的应用价值.近年来,基于深度学习的场景分割技术取得了突破性进展,与传统场景分割算法相比获得分割精度的大幅度提升.首先分析和描述场景分割问题面临的3个主要难点:分割粒度细、尺度变化多样、空间相关性强;其次着重介绍了目前大部分基于深度学习的场景分割算法采用的“卷积-反卷积”结构;在此基础上,对近年来出现的基于深度学习的场景分割算法进行梳理,介绍针对场景分割问题的3个主要难点,分别提出基于高分辨率语义特征图、基于多尺度信息和基于空间上下文等场景分割算法;简要介绍常用的场景分割公开数据集;最后对基于深度学习的场景分割算法的研究前景进行总结和展望.
图像语义分割作为机器视觉领域一个重要研究问题,其目的是对一张彩色图像中的每个像素点进行分类,将图像中每个像素预测其对应的语义标签.现有的基于全监督学习的语义分割方法依赖于精准标注的训练样本;现有的基于弱监督、半监督学习的分割方法虽然可以融入未标记样本,但由于缺少对空间语义信息的有效利用,常出现语义不一致或类别错分现象,且难以直接应用于其他的跨域无标注数据集.针对跨域无标注数据集语义分割问题,提出一种基于领域自适应的图像语义分割方法.其中,提出的方法首先通过采用优化上采样方法和提出基于focal loss的损失函数,有效改进了现有方法中数据量较小的类别难以被正确分割的问题;其次,通过有效利用所提出的类别相关的领域自适应方法,来解决不同数据集跨域语义分割问题,使无标注图像的语义分割平均交并比较现有方法的均值提升6%.提出的方法在5个数据集上进行验证实验,实验结果充分表明了方法的有效性和泛化性.
散列算法具有高效的存储和查询特性,被广泛应用于大规模的图像检索.大多数现有的深度散列方法都基于独立同分布的假设,即训练集(源域)和测试集(目标域)的分布一致.然而在现实应用中,源域和目标域往往存在较大的差异,即跨域检索.因此有些研究工作开始将跨域识别的方法引入到跨域检索中,以增强所学散列函数的泛化性.现有跨域检索方法仍存在散列码的判别力不足和域不变能力不足2个问题.提出语义保持模块和最小熵损失来解决这2个问题.语义保持模块是1个分类子网络,该模块可以充分利用源域的类别标注信息,并将该语义信息传递给散列学习子网络使得学习到的散列码包含更多的语义信息,即增强判别力.此外,对于无标注的目标域,熵表征目标域样本的分类响应的集中程度,理想的散列码经过语义保持模块后得到的分类响应应该集中于某一个类别,即最小熵状态.引入最小熵损失促使目标域样本与源域样本在类别响应这一空间上分布更加对齐,进而使得散列码更具域不变性.通过引入语义保持模块和最小熵损失,在现有方法的基础上构建了端到端的跨域检索网络,并在2个数据集上进行了大量实验,与领域内现有主要模型进行了详尽的对比,实验证明所提模型取得了更优的性能.
图像自动标注技术是减少图像数据与内容之间“语义鸿沟”的其中一种最有效途径,对于帮助人类理解图像内容,从海量图像数据中检索感兴趣的信息具有重要现实意义.通过研究近20年公开发表的图像标注文献,总结了图像标注模型的一般性框架;并通过该框架结合各种具体工作,分析出在图像标注研究过程中需要解决的一般性问题;将各种图像标注模型所采用的主要方法归为9种类型,分别为相关模型、隐Markov模型、主题模型、矩阵分解模型、近邻模型、基于支持向量机的模型、图模型、典型相关分析模型以及深度学习模型,并对每种类型的图像标注模型,按照“基本原理介绍—具体模型差异—模型总结”3个层面进行了研究与分析.此外,总结了图像标注模型常用的一些数据集、评测指标,对一些比较著名的标注模型的性能进行了比较,并据此对各种类型的标注模型做了优缺点分析.最后,提出了图像标注领域一些开放式问题和研究方向.
近年来,随着图像数据量的爆炸式增长,散列方法与深度学习相结合的方法在图像检索领域表现出优异的性能.主流的深度监督散列方法大多采用“成对”策略,利用标签信息生成一个相似矩阵约束散列编码.这类方法的计算开销大,不适用于大规模的图像检索.为此,提出了一种一元深度监督散列学习方法——深度强相关散列学习方法,为卷积神经网络添加了一个散列层以得到散列码,通过计算低维散列码之间的汉明距离完成快速图像检索.特别地,为了学习到的散列码更具有区别性,提出了强相关损失函数约束散列码的生成.强相关损失函数通过改变模型对权重矩阵的敏感度调节特征之间的距离,尽可能地增大特征类间距离、缩小类内距离.该方法能够实现快速、准确的大规模图像检索,并且可以广泛地使用在多种卷积神经网络中.在CIFAR-10, NUS-WIDE, SVHN这3个大规模公开数据集中进行了大量实验,结果表明该方法的图像检索性能优于目前主流方法.
展开与折叠是计算机图形学中的重要研究问题,已经广泛应用于工业制造、建筑设计、医学治疗和航空航天等方面.通过回顾近年来图形学中展开与折叠方面的主要研究问题,总结整理它们的典型算法.首先介绍展开与折叠的基本概念,并从机器人设计、计算机动画、深度学习和其他4个领域介绍它们的应用情况.之后,按照展开程度分类,从完全展开和近似展开2方面总结展开问题的研究进展和典型算法思想;按照折叠形式不同,将折叠问题分为Origami折叠和Kirigami折叠2类,分别论述其研究进展并总结算法思路.之后,整理展开与折叠的评价指标,总结各类展开与折叠算法的特点,并分析比较它们的优势与不足.最后,总结并提出展开与折叠的4个发展趋势.
- 首页
- 上一页
- 1
- 2
- 3
- 4
- 下一页
- 末页
- 共4页
- 跳转
- Go