- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
? ? 面向深度学习目标检测模型训练不平衡研究 ? ? 贺宇哲,何 宁,张 人,梁煜博,刘晓晓 1.北京联合大学 北京市信息服务工程重点实验室,北京 100101 2.北京联合大学 智慧城市学院,北京 100101 本文针对基于深度学习的目标检测模型在训练过程中存在的不平衡问题进行了研究。目标检测作为人工智能领域的一个重要分支,广泛应用于机器人导航、智能视频监控、工业检测等领域[1]。随着深度学习技术的迅速发展,目标检测模型层出不穷,如YOLO[2]、Faster R-CNN[3]、Mask R-CNN[4]等。虽然它们的模型架构各不相同,但训练基本遵从区域采样、提取特征、根据目标函数进行分类和回归的过程。但在此训练过程中存在不平衡问题导致模型不能达到最佳效果[5]。这种不平衡问题其中包括两个方面:特征图层次的不平衡和目标函数层次的不平衡,而引起这两方面不平衡的原因分别是提取的特征没有被充分利用;目标函数并不是最佳。 特征图层次的不平衡:在网络中,high-level特征中语义信息比较丰富,但是目标位置比较粗略,而lowlevel特征中语义信息比较少,但是目标位置准确。Lin等人[6]提出Feature Pyramid networks利用同一张图片相邻层级之间的特征进行融合,得到的feature maps供给下个阶段进行预测以得到更好的结果,但是只限于相邻层级。Pang等人[7]提出Balanced Feature Pyramid在Feature Pyramid networks进行了改进,以实现对于不相邻层级的特征也能进行关联,达到对特征的充分利用。 目标函数层次的不平衡:检测器需要执行分类和回归两个任务,因此,在目标函数中也包括了这两项。如果它们没有有效地进行平衡,或者其中一个出现偏差,则会导致整个检测性能的降低[8]。因此,要重新对分类和回归这两项进行平衡,以实现目标函数的最佳收敛。 为了有效地改进如上所述模型训练中的不平衡问题,利用Pang等人[7]提出Libra R-CNN的Balanced Feature Pyramid改进FPN以得到更好的特征图,用来解决特征图层次的不平衡。利用Balanced L1Loss[7]作为回归损失,有效调节目标函数层次的不平衡。为了解决Faster R-CNN在训练过程中存在的不平衡问题,本文将上述两个模块加入基于FPN的Faster R-CNN模型中,达到AP是38.5%的结果,并进行了消融实验,同时对各模块逐一进行验证。 1 相关工作 1.1 Faster R-CNN模型 基于深度学习的目标检测方法根据模型训练方式可分为两种类型:One stage目标检测算法和Two stage目标检测算法。Two stage首次由Girshick等人[9]所提出的R-CNN引入,之后He等人[10]在R-CNN的基础上提出SSP-NET。由于R-CNN在候选区域上进行特征提取时存在大量重复性计算,为了解决这个问题,Girshick等人[11]提出了Fast R-CNN。SSP-NET和Fast R-CNN都需要单独生成候选区域,该步骤的计算量非常大,并且难以用GPU进行加速。针对这个问题,2015年,Ren等人[3]在Fast R-CNN的基础上提出了Faster R-CNN。之后在Faster R-CNN加入了FPN[6],使得相邻层级之间的特征进行融合。 Faster R-CNN分为四个部分:首先通过CNN[12]提取原始图片的feature maps,供之后的RPN和全连接层使用。其次,RPN网络通过softmax判断锚点属于物体还是背景,再通过bounding box regression重新调整锚点以获得更加准确的proposals。再次,Roi Pooling通过前面提供的feature maps和proposals,提取proposal feature maps,输入全连接层。最后,利用proposal feature maps判定所属类别,并再次通过bounding box regression获得最终的检测框位置。 相比于Fast R-CNN,Faster R-CNN的所有任务都统一在单一的深度学习框架之下,计算速度大幅度提升。 1.2 训练不平衡问题的解决方法 解决目标检测训练过程中的不平衡问题对于实现最佳训练并充分利用模型架构的潜力至关重要[7]。对于特征图层次的不平衡问题,FPN通过提出横向连接的理念,与相邻层级的特征图进行融合,从而可以丰富low-level的语义信息。之后,Liu等人[13]在FPN的基础上提出了PANet,通过自下而上的方式,从而实现highlevel中能够拥有更加丰富的low-level语义信息。Kong等人[14]提出了一种基于SSD
文档评论(0)