6月第一周的周末,分享几篇本周CV领域的论文,其中上海交大实时语义分割模型LRNNet和Facebook借助NAS得到的主干网模型FBNetV3很吸引人。
另外含四篇综述文章,一篇来自自动驾驶的3D感知,一篇医学图像分割,一篇人体姿态估计,一篇眼动生物特征识别。
图像虚化
[1].Depth-aware Blending of Smoothed Images for Bokeh Effect Generation
该论文研究软件方法实现图像虚化,借助于深度估计网络,将原始图像和不同版本的平滑化图像混合在一起产生虚化效果。在AIM 2019 Bokeh效果挑战赛-Perceptual Track中排名第二,速度也很快,可以在0.03s内处理一幅高清图像。
作者 | Saikat Dutta
单位 | 印度理工学院
论文 | https://arxiv.org/abs/2005.14214
图像分割
#手写签名分割##深度学习#
[2].FCN RL: A Fully Convolutional Network followed by Refinement Layers to Offline Handwritten Signature Segmentation
FCN RL:基于全卷积网络的离线手写签名分割
本文研究一种特殊目标的分割,手写签名的分割,基于一个全卷积编码器-解码器网络与预测图像的alpha通道的细化层块相结合。
实验结果显示其比传统方法输出的签名线条保真度更高,也更好的保留的签名的个体差异性。
作者 | Celso A. M. Lopes Junior, Matheus Henrique M. da Silva, Byron Leite Dantas Bezerra, Bruno Jose Torres Fernandes, Donato Impedovo
单位 | 伯南布哥大学;巴里大学
论文 | https://arxiv.org/abs/2005.14229
#轻量级语义分割#
[3].LRNNet: A Light-Weighted Network with Efficient Reduced Non-Local Operation for Real-Time Semantic Segmentation
LRNNet: 用于实时语义分割的轻量级非局部操作简化网络
本文提出一种高效、低参数量实时语义分割方法。
主要方法为一种约减non-local 模块的操作,即利用spatial regional dominant singular vectors 得到约减的更具表示能力的non-local 模块,计算量更少、参数量更小、占用内存更少。
实验证明,该文提出的LRNNet在参数量、速度、计算量、精度上实现了更好的权衡。在Cityscapes测试集上,没有额外的处理和预训练步骤,只用0.68M参数,在GTX 1080Ti显卡上的速度为71FPS,获得了72.2% mIoU。
作者 | Weihao Jiang, Zhaozhi Xie, Yaoyi Li, Chang Liu, Hongtao Lu
单位 | 上海交通大学
论文 | https://arxiv.org/abs/2006.02706v1
代码 | 目前未发现有开源代码。
#医学图像分割#
[4].Enhancing Foreground Boundaries for Medical Image Segmentation
增强医学图像分割的前景边界功能
为进一步提高边界区域的分割质量,提出了一种边界增强损失函数来执行机器学习模型优化的额外约束,轻量易实现。
实验结果显示其与最先进的方法相当或者更好。
作者 | Dong Yang, Holger Roth, Xiaosong Wang, Ziyue Xu, Andriy Myronenko, Daguang Xu
单位 | 英伟达
论文 | https://arxiv.org/abs/2005.14355
NAS
[5].FBNetV3: Joint Architecture-Recipe Search using Neural Acquisition Function
使用神经获取函数的联合架构-配置搜索
神经架构搜索(NAS)已经证明可以获得先进的神经网络模型,优于人手工设计的模型。但作者指出之前的搜索方法更偏向于搜索架构,而忽略了训练超参数(Recipe 配方参数)。
于是该文提出JointNAS,联合搜索架构和配置参数。具体方法是作者引入了一个神经获取函数,对神经网络结构和训练超参数进行联合评分,引导粗粒度和细粒度的搜索,生成的模型被称为FBNetV3。
相比于之前的NAS方法得到的结果,在ImageNet数据集上训练得到的FBNetV3一系列模型,精度高而且参数量更少、所需FLOPs更低。与EfficientNet和ResNeSt的相匹配的精度的FBNetV3模型分别减少了1.4倍和5.0倍的FLOPs。
另外实验也显示JointNAS得到的训练超参数可改进不同网络和任务的精度。
作者 | Xiaoliang Dai, Alvin Wan, Peizhao Zhang, Bichen Wu, Zijian He, Zhen Wei, Kan Chen, Yuandong Tian, Matthew Yu, Peter Vajda, Joseph E. Gonzalez
单位 | Facebook;加州大学伯克利分校;北卡罗来纳大学教堂山分校
论文 | arxiv.org/abs/2006.02049
(还未发现有开源代码)
[6].HourNAS: Extremely Fast Neural Architecture Search Through an Hourglass Lens
HourNAS:通过Hourglass Lens进行的极快神经架构搜索
在ImageNet上的实验结果显示,仅用3小时(0.1天)的时间,HourNAS在一个GPU的情况下,就能搜索到一个神经架构,达到77.0%的Top-1精度,优于最先进的方法。
快就是好!
作者 | Zhaohui Yang, Yunhe Wang, Dacheng Tao, Xinghao Chen, Jianyuan Guo, Chunjing Xu, Chao Xu, Chang Xu
单位 | 华为诺亚方舟实验室;北大;悉尼大学
论文 | https://arxiv.org/abs/2005.14446
人脸识别
#CT扫描#
[7].Human Recognition Using Face in Computed Tomography
CT影像的人脸识别
见过用RGB图人脸识别的,见过用3D结构光人脸识别的,你见过CT图像人脸识别的吗?
这篇论文研究了这个问题,提出的方法从多个来源的280名患者的600张三维CT图像上进行了性能评估。实验结果表明,该方法实现了1:56的识别准确率为92.53%,1:1的验证准确率为96.12%。
CT断层扫描人脸识别!这可能是最入木三分的人脸识别了吧!
作者 | Jiuwen Zhu, Hu Han, S. Kevin Zhou
论文 | https://arxiv.org/abs/2005.14238
目标检测
#航空图像# #车辆检测#
[8].LR-CNN: Local-aware Region CNN for Vehicle Detection in Aerial Imagery
LR-CNN: 用于航空图像中车辆检测的局部感知区域CNN
航空图像中车辆检测面临良达难点:目标密集、方向任意。普通的目标检测算法,如Faster RNN、SSD、YOLO往往难以奏效。主要原因是使用插值来调整RoI特征会导致精度不够,甚至丢失位置信息。
该文提出一种新的两阶段的目标检测算法,通过对高精度的RoIs特征进行聚合,增强对密集车辆的检测,而另一方面通过对高阶语义特征的重采样,从较浅的CNN特征中获得位置信息,加强了局部特征不变性,改进对方向任意目标的检测。作者称此种新模型为位置感知的(Local-aware)RCNN。
在几个具有挑战性的数据集(VEDAI、DOTA)上评估了该方法,证明了该方法比之前最先进的方法有了显著的改进。在DLR 3K数据集上也表现出良好的泛化能力。
作者 | Wentong Liao, Xiang Chen, Jingfeng Yang, Stefan Roth, Michael Goesele, Michael Ying Yang, Bodo Rosenhahn
单位 | 汉诺威大学;德国达姆塔特工业大学;特文特大学;中科院
论文 | https://arxiv.org/abs/2005.14264
#服装检测#
[9].DeepMark : CenterNet-based Clothing Detection
基于CenterNet的服装检测
本文改进了CenterNet,实现了快速服装检测。
主要方法是将语义关键点分组和作者提出的后处理技术结合获得了更高的精度,在DeepFashion2的验证集上,边界框检测任务精度为0.735 mAP,特征点检测任务精度为0.591 mAP。
在DeepFashion2测试集上精度达到0.582 mAP,获得2020年的DeepFashion2挑战赛的第二名。
提出的方法计算复杂度低,即使在低功率的设备上运行,依然可以保持较高的精度。
作者 | Alexey Sidnev, Alexander Krapivin, Alexey Trushkov, Ekaterina Krasikova, Maxim Kazakov
单位 | 华为研究中心,俄罗斯;
论文 | https://arxiv.org/abs/2006.00710
#改进YOLOv3筛查糖尿病足#
[10].Efficient refinements on YOLOv3 for real-time detection and assessment of diabetic foot Wagner grades
Yolov3对糖尿病足Wagner分级实时检测与评价的有效改进
该文使用YOLOv3进行糖尿病足的检测与评级,旨在探索简单易用低成本的医疾病检测手段。搜集了2688个数据样本并改进了YOLOv3的训练策略。
实验结果表明,在NVIDIA Tesla V100上的YOLOv3的细化模型准确率达到了91.95%,单张图片的推理速度达到了31ms。
并将此模型部署到了Android手机上。
医疗领域,降成本就是救人!
作者 | Aifu Han, Yongze Zhang, Ajuan Li, Changjin Li, Fengying Zhao, Qiujie Dong, Qin Liu, Yanting Liu, Ximei Shen, Sunjie Yan, Shengzong Zhou
单位 | 中国科学院;福建医科大学附属第一医院;中北大学;北大;福建省糖尿病研究所
论文 | https://arxiv.org/abs/2006.02322
人脸活体检测
[11].Federated Face Anti-spoofing
联邦学习用于人脸反欺诈
为保护在人脸反欺诈算法训练中的数据隐私,使用联邦学习进行训练,使得可以不进行图像数据共享的前提下,利用不同数据所有者人脸反欺诈的信息。
服务器通过迭代聚合来自所有数据中心的模型更新来学习全局FAS模型,而不访问每个数据中心的私有数据。一旦学习到的全局模型收敛,它就被用于FAS推理。
在隐私问题越来越被关注的当下,联邦学习很值得用于人脸相关的技术研究。
作者 | Rui Shao, Pramuditha Perera, Pong C. Yuen, Vishal M. Patel
单位 | 香港浸会大学;约翰斯·霍普金斯大学
论文 | https://arxiv.org/abs/2005.14638
最新综述
#IV2020##自动驾驶#
[12].Review on 3D Lidar Localization for Autonomous Driving Cars.
自动驾驶汽车三维激光雷达定位研究综述
本文对自动驾驶汽车的三维激光雷达定位的最新发现进行了回顾,并对每种方法所获得的结果进行了分析,力图引导未来的技术发展。
作者 | Mahdi Elhousni, Xinming Huang
单位|伍斯特工业学院
论文 | https://arxiv.org/abs/2006.00648
#人体姿态估计#
[13].Monocular Human Pose Estimation: A Survey of Deep Learning-based Methods
单目人体姿态估计:基于深度学习的方法综述
系统总结了2014年以来发表的基于深度学习的二维和三维人体姿态估计方法。列出了目前所面临的挑战、主要框架、基准数据集、评估指标、性能比较,并讨论了一些有前景的未来研究方向。
对每一个从事相关研究开发的朋友都是不可多得的参考!
作者 | Yucheng Chen, Yingli Tian, Mingyi He
单位 | 纽约市立大学;西北工业大学
论文 | https://arxiv.org/abs/2006.01423
- 最新综述|深度学习的单目人体姿态估计
#医学图像分割#
[14].A Review on End-To-End Methods for Brain Tumor Segmentation and Overall Survival Prediction
脑肿瘤分割和总生存预测的端到端方法研究进展综述
脑肿瘤分割的目的是将肿瘤组织与健康的脑组织划分出来。肿瘤组织包括坏死、脑周水肿、活动性肿瘤等。而健康的脑组织则包括白质、灰质、脑脊液等健康脑组织。
基于MRI的脑肿瘤分割研究越来越受到重视,
原因是:
1. 它不像X射线或计算机断层成像存在照射电离辐射。
2. 它能拍出身体内部结构的详细图像。
3. 将MRI扫描结果输入到基于深度学习的方法中,这对于脑肿瘤自动分割是非常有用的。
把分割的结果反馈给分类器,可以预测患者的整体生存率。
本文对该领域进行了归类总结,值得医学领域的朋友参考。
作者 | Snehal Rajput, Mehul S Raval
单位 | 印度 Pandit Deendayal 石油大学
论文 | https://arxiv.org/abs/2006.01632
#眼动生物特征识别#
[15].Eye Movements Biometrics: A Bibliometric Analysis from 2004 to 2019
眼动生物识别技术,从2004-2019
使用眼动数据的生物特征进行人员身份识别是一项新兴的研究领域,相比人脸识别等,它天然具有活体属性,有效实现了反身份欺诈。
该方向从2004年被提出,已经产生了大量的卓有成效的技术,来自巴西的学者在该综述中研究了2004年到2019年发表的英文文献(使用Scopus检索),试图采用文献计量学的方法对眼动生物特征识别进行全面的总结。
包括技术演进、主要学者、高引论文、主要期刊、相关竞赛和网站等。
作者 | Antonio Ricardo Alexandre Brasil, Jefferson Oliveira Andrade, Karin Satie Komati
单位 | Instituto Federal do Esprito Santo
论文 | https://arxiv.org/abs/2006.01310