近日,计算机辅助设计国家地方联合工程实验室的魏小鹏教授、尹宝才教授、张强教授、杨鑫教授团队的7项研究成果陆续被计算机视觉顶级会议/期刊(IEEE TPAMI、CVPR2022、IJCV、IEEE TIP、AAAI)录用,其中2项研究成果被计算机视觉顶级期刊IEEE Transactions on Pattern Analysis and Machine Intelligence(TPAMI)和IEEE Transactions on Image Processing(TIP)录用,3项研究成果被2022年计算机视觉与人工智能国际顶级会议(CVPR 2022)接收,2项研究成果被2022年计算机视觉国际顶级期刊(IJCV)和2022年人工智能国际顶级会议(AAAI)接收。
IEEE TPAMI在中国计算机学会认定的人工智能领域四个A类期刊中排名第一,是计算机视觉及模式识别领域最顶尖的期刊,目前影响因子17.861。根据当前流行的Google Scholar Citation统计,IEEE TPAMI在所有计算机工程、电子工程及人工智能相关期刊榜单上以149分的h5-index排在第1位,主要收录人工智能、模式识别、计算机视觉及机器学习领域的原创性科研成果。TPAMI筛选极其严格,每年录用量仅200篇左右。
CVPR是计算机学科普遍认可的人工智能领域的顶级国际会议,被中国计算机学会(CCF)列为A类会议。根据当前流行的Google Scholar Citation统计,CVPR排在所有学科目录第4位(Nature第1位,Science第3位,Cell第7位),排在电信学科所有期刊和会议的第1位。
International Journal of Computer Vision (IJCV)即《国际计算机视觉期刊》,是人工智能领域最重要的顶级学术期刊之一,是中国计算机学会(CCF)认定的人工智能领域四个A类期刊之一,每年出版的文章数量很少同时拥有较高的影响因子(5年影响因子为11.042)。
国际先进人工智能协会(American Association for Artificial Intelligence)是人工智能领域的主要学术组织之一,AAAI是国际人工智能、机器学习领域的顶级会议,被中国计算机学会(CCF)认定为人工智能领域A类会议,今年大会的论文录取率又创新低,仅有15%。
IEEE TIP由IEEE信号处理学会主办,属于中国计算机学会(CCF)推荐的计算机图形学与多媒体领域A类期刊,目前影响因子10.856分。根据当前流行的Google Scholar Citation统计,IEEE TIP在所有计算机工程、电子工程及人工智能相关期刊榜单上以123分的h5-index排在第2位,是图像处理及计算机视觉领域公认的国际顶级期刊,侧重图像处理的前沿基础理论与方法。
研究成果1:博士生梅海洋作为第一作者与博士生于乐天等人共同完成的研究成果“Large-Field Contextual Feature Learning for Glass Detection”致力于进一步提升场景中玻璃检测的准确性和鲁棒性。基于人们通常依赖边界进行玻璃识别的观察,本工作在大视场上下文探索[1]的基础上,进一步引入了边界线索来帮助玻璃的分割和定位,提出的边界特征增强模块采用四组平行的分支来提取不同感受野下的边界信息,极大的减少了玻璃尺寸变化带来的影响。该模块被同时应用于高级语义特征和低级细节特征上,增加了玻璃检测的鲁棒性,可应用于送货无人机及机器人智能系统、场景感知等应用领域和问题。本工作被模式识别与机器智能顶刊IEEE TPAMI录用。
边界特征增强模块
搭载玻璃检测系统的送货无人机(第一行)及玻璃区域去反射智能摄影(第二行)
研究成果2:博士生梅海洋作为第一作者与硕士生董文、杨佳熙等人共同完成的研究成果“Glass Segmentation using Intensity and Spectral Polarization Cues”是团队在场景混淆目标理解系列工作研究的基础上,进一步开展的一项针对多模态场景计算技术的研究,即从RGB-P图像中检测场景中的玻璃。现有的玻璃分割方法只考虑了RGB彩色信息,在复杂环境下通常无法满足实际应用的精度需求。本工作首次引入了偏振信息来帮助提升玻璃分割的准确性和鲁棒性,设计的基于RGB信息和偏振信息融合的深度神经网络模型能够准确分割出复杂环境中的玻璃。此项研究成果具有一定的借鉴意义,所提出的玻璃分割方法不仅能够消除由于玻璃的透明特性所导致的对于场景目标的错误理解,还能够帮助其他的计算机视觉任务(例如目标检测和场景三维重建等)提升鲁棒性,因此本工作的方法可以广泛应用于机器人感知与导航等应用场景,为其智能决策提供有力的保障。本论文以较高的评审分数被计算机视觉顶会CVPR 2022录用。
利用偏振信息有效提高玻璃检测准确性
RGB、偏振信息融合网络
研究成果3: 博士生张吉庆作为第一作者与硕士生张海薇等人共同完成的研究成果“Spiking Transformers for Event-based Single Object Tracking”致力于解决基于仿生式事件相机和脉冲神经网络的目标跟踪问题。针对仿生数据流时空特征提取难的问题,本工作基于生物脑神经元的阈值调节是神经元达到稳态的重要条件,提出利用空间域的表征信息和混乱程度对脉冲神经网络的阈值进行动态调节,从而提高时域的表征能力。同时,根据人脑注意力机制设计特征融合模块对时空特征进行有效的融合。本工作提出的算法在具有挑战场景下的目标跟踪精度和速度都优于现有算法,此项研究成果将有助于推动目标跟踪技术在开放环境下民用方面(移动机器人、智能交通系统)的使用。该工作被计算机视觉顶会CVPR 2022录用。
与其他目标跟踪方法结果进行对比
研究成果4:博士生田鑫作为第一作者与许可博士等人完成的研究成果 “Bi-directional Object-Context Prioritization Learning for Saliency Ranking”致力于解决场景目标感知的显著性排序问题。显著性排序问题主要用于模拟人类根据场景中对象的不同显着程度将注意力转移到场景的不同对象上的这一视觉行为。现有的显著性排序方法更侧重于研究场景中对象-对象关系或者对象-场景关系,而这类方法仅遵循了心理学中的基于对象注意力的思想,可能会导致对实际场景的显著性对象错误地排序。本工作提出了一种双向的对象-上下文优先性学习方法用于研究显著性排序问题,创新地将人类视觉识别系统中的空间注意力机制和现有的对象注意力思想相统一,一方面设计选择性对象显著性模块,通过推断显著对象的语义表示来模拟基于对象的注意力;另一方面研究场景中的对象-上下文-对象关系,通过对场景显著对象的对象-上下文关系和上下文-对象关系进行交互建模,从而实现更为准确的显著性排序算法。本工作在显著性对象排序任务上优于现有算法。此项研究成果可以应用于其他计算机视觉任务(例如目标检测和图像理解等),也可以作为一种启发式的算法用于研究人类的视觉系统。该工作被计算机视觉顶会CVPR 2022录用。
显著性排序网络
研究成果5:博士生于乐天作为第一作者与博士生梅海洋、董文等人共同完成的研究成果“Progressive Glass Segmentation” 致力于进一步提升场景中玻璃检测的准确性和鲁棒性。现有的玻璃分割算法在不同尺度深度网络之间存在特征提取差距,使用简单的融合方式会导致玻璃分割任务的准确性下降。本工作通过设计基于可识别性增强模块以降低不同级别特征的特征差异性,通过基于聚焦和探索的融合模块,从而逐步实现从高级特征到低级特征、从粗粒度到细粒度的玻璃分割。在含玻璃的场景中,由于玻璃区域的透明性,导致玻璃区域内外场景的语义信息差别并不明显,以往方法会导致对于类似场景中玻璃区域进行误判。本工作对玻璃表面及周围相应区域进行进一步的判断和选择,进行更为有效的特征融合,从而能够更准确分割出场景玻璃区域内外语义信息差别并不明显的情况。该工作被图像处理顶刊IEEE TIP录用。
通过融合算法提高玻璃分割的准确性
研究成果6:博士生田鑫作为第一作者与许可博士等人共同完成的研究成果“Learning to Detect Instance-level Salient Objects using Complementary Image Labels”提出了第一个针对SID问题的弱监督学习方法。尽管在现有的显著性检测方法中已经有使用类别标签进行物体定位的弱监督学习,然而只使用类别标签来学习实例级显著性信息是不可行的,因为具有高语义相关性的显著物体实例可能不容易被类别标签区分开。我们观察到感知数(subitizing)信息提供了对显著物体数量的即时判断,它与显著物体实例检测自然相关,并可能有助于分离同一类别的不同实例,或者将同一实例的不同部分聚合起来。受到这一观察的启发,本工作提出同时使用类别和感知数标签作为SID问题的弱监督信息源,并相应地提出了一个具有三分支的新型弱监督网络。为了进一步促进模型的学习过程,本工作还提出了一个渐进式的训练方案,通过渐进式的预测更新和模型刷新来减少伪标签噪声和模型对应学习到的噪声。该工作发表在计算机视觉顶刊IJCV,其会议版曾获BMVC 2020最佳学生论文奖。
研究成果7:博士生乔羽和硕士生朱锦程作为第一作者与硕士生张泽耀等人共同完成的研究成果“CPRAL: Collaborative Panoptic-Regional Active Learning for Semantic Segmentation”提出了一种新的协同式全景区域主动学习框架(CPRAL)来解决语义分割任务,在提升模型训练精度的前提下,可以显著减少数据标注量与计算消耗。现有的主动式学习语义分割模型主要可以分为两类,全景标签引导的方法以及区域信息监督的策略。前者直接选择图像进行标注,会有很多的冗余像素集,而后者则会迭代计算区域范围内的信息,需要累计巨大的计算量。两类方法在实际场景下的应用局限性,使得很多模型并不能得到很好的泛化效果。本工作框架的输入是一个语义分割数据集,而输出是可以代表整个数据集的图像子集,然后在这个代表性子集上训练的模型可以实现在全部数据上训练的性能。本工作提出的CPRAL能够在标记工作量和性能之间取得平衡,并在不同规模的语义分布上实现兼顾。本工作在公开的城市街道数据集CityScapes和BDD10K上进行了大量实验,结果表明所提出的CPRAL方法优于现有的前沿方法,用较小的样本标记比例取得了显著的结果。此外,本工作还设计了一个智能标注工具(Smart Segmentation Tool),通过超像素分割与区域交互结合的方式,可以为原生的场景数据提供高效的语义标注,这对于之后的语义分割相关任务也具有重要的意义。本工作在优化语义分割模型性能的同时兼顾了数据采样与标注的效率,在无人驾驶、机器人等实际场景下有着较广的应用价值。本工作提出的主动式数据标注和语义分割框架可以从海量数据中筛选出最有代表性的场景图像及区域,然后由所提出的主动式标注工具进行快速而准确的标注;而由所选取出的代表性数据进行训练出来的模型,由于在数据选择时已由高斯核注意模块兼顾了类别平衡,而又有上下文标签扩展实现了标注信息的传播,使得模型具有较强的类别表达能力,能兼顾到大部分场景语义分布,这对于在复杂多变环境下无人驾驶和机器人进行深度学习的环境理解具有重要价值。该工作发表在人工智能领域顶会AAAI上。
计算机辅助设计国家地方联合工程实验室,是国家发改委于2015 年批复的国家级实验室。面向新一代人工智能,深入开展类脑智能、大数据智能、机器人智能、场景认知等相关基础理论与核心技术及工程应用研究。在智能计算、场景感知与建模、智能机器人等方面,取得了一批有国际影响力的研究成果。相关成果在工业产品设计、新闻播报、智能交通、智能机器人、安全监控、健康管理等领域得到实际应用,获得国家自然科学二等奖1项、国家科技进步二等奖2项、省部级科学技术一等奖13项、二等奖5项,获国际期刊、会议最佳论文奖10余项。
[1] Don't Hit Me! Glass Detection in Real-world Scenes. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) 2020.
[2] Object Tracking by Jointly Exploiting Frame and Event Domain. ICCV 2021.
[3] Multi-domain Collaborative Feature Representation for Robust Visual Object Tracking. (CGI)2021.
[4] Large-Field Contextual Feature Learning for Glass Detection. IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI) 2022.
[5] Glass Segmentation using Intensity and Spectral Polarization Cues. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) 2022.
[6] Spiking Transformers for Event-based Single Object Tracking. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) 2022.
[7] Bi-directional Object-Context Prioritization Learning for Saliency Ranking. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) 2022.
[8] Progressive Glass Segmentation. IEEE Transactions on Image Processing (TIP) 2022.
[9] Learning to Detect Instance-level Salient Objects Using Complementary Image Labels. International Journal of Computer Vision (IJCV) 2022.
[10] Weakly-supervised Salient Instance Detection. British Machine Vision Conference (BMVC) 2020.
[11] CPRAL: Collaborative Panoptic-Regional Active Learning for Semantic Segmentation. Association for the Advance of Artificial Intelligence (AAAI) 2022.