近日,“社会计算与认知智能”教育部重点实验室魏小鹏教授、杨鑫教授的关于视触觉传感器融合的三维目标探索与重建的工作,以及尹宝才教授、杨鑫教授的于RGB-事件相机目标追踪工作被人工智能A类会议(CVPR 2025)接收。
CVPR(Conference on Computer Vision and Pattern Recognition)被中国计算机学会(CCF)列为人工智能领域 A类会议,其论文录用率常年保持在 20% 左右。根据 Google Scholar Citation 的最新统计,CVPR 的 H5 index 高达 440,仅次于 Nature,领先于 Science 和 Cell 等顶级学术期刊,作为计算机视觉与人工智能领域的风向标,CVPR 不仅是学术交流的核心平台,更是推动技术创新和产业发展的关键驱动力。今年CVPR会议将在美国田纳西州举办,预计将吸引全球数千名顶尖研究人员、学者和工业界专家齐聚一堂,共同探讨计算机视觉、深度学习、图形图像处理等领域的最新突破性成果与前沿趋势。
研究成果一:博士研究生王元博作为第一作者,与硕士研究生邱佳劲、孙迪龙、孟政宇等人共同完成,魏小鹏教授、杨鑫教授和张肇轩博士作为共同作者的研究成果“Touch2Shape: Touch-Conditioned 3D Diffusion for Shape Exploration and Reconstruction”被CVPR2025所录用。三维建模和三维生成任务一直是计算机视觉和图形学中热门的话题。特别是在当前的大数据大模型时代,三维相比于二维图像数据和语音文本数据,获取难度更大,数据集收集成本高昂,这使得高质量的三维重建和生成能力至关重要。此外,3D形状的生成技术还可以应用于对不完整的视觉观测内容进行三维重建,这在具有环境遮挡和摄像机测量误差的自动驾驶和机器人交互等领域中,具有潜在的应用价值。该工作针对传统基于视觉的三维重建方法缺乏局部信息获取而导致生成结果细节较差的问题,创新性地通过触觉信息来主动探索目标局部信息并进行视触觉融合的三维重建。研究内容主要包括两部分:如何实现基于触觉信息的三维形状生成,以及如何规划机械臂的抓取轨迹以实现对目标的主动式触觉感知。对于第一部分内容,该工作首次提出了触觉条件的三维扩散模型,通过对比学习将触觉信息与三维形状进行联合编码,并通过扩散模型和基于触觉信息局部三维几何的体素融合方法,实现目标的三维生成;对于第二部分内容,该工作巧妙地将扩散模型与强化学习相结合,规划机械臂抓取目标的轨迹,帮助系统获取有益的触觉信息,提升重建结果。
方法总览图:(1) 探索目标物体并捕获触觉图像以重建3D形状。该工作训练了一个扩散模型来获得低维且紧凑的潜在向量,用于预测下一个触摸位置和重建目标形状。图中带有黑箭头的①和带有绿箭头的②表示两个连续的时间步。我们仅在最后阶段生成最终形状。(2) 随着触摸探索的进行,重建结果逐渐接近真值。(3) 与先前最好的方法ActiveVT(进行的重建结果比较。
研究成果二:
方法总览图:(a) 模型总体框架。本工作采用多模态编码器分别提取RGB图像和事件图像的特征,随后结合历史信息解码器生成目标的位置信息,最终通过追踪头输出目标的当前位置。(b) 目标扫描模块。该模块嵌入于多模态编码器中,通过增强目标区域的扫描机制,显著提升了目标定位的准确性。(c) 跨模态扫描模块。该模块同样位于多模态编码器中,旨在深度融合RGB与事件模态的信息,通过跨模态交互充分挖掘两种模态的互补优势,进一步提升跟踪性能。
硕士生孙传昱作为第一作者,与博士生张吉庆、王洋等人合作完成的研究成果“Exploring Historical Information for RGBE Visual Tracking with Mamba”成功解决了事件相机跟踪中的时序信息建模难题。该研究基于仿生形态事件相机的稀疏特性,创新性地提出了稀疏跨模态融合模块,有效融合了RGB和事件模态的目标语义信息,同时抑制了背景干扰,在特征层面实现了两种模态的优势互补。针对目标遮挡和快速移动等挑战性场景,本工作提出了基于状态空间模型的历史信息解码器,通过利用历史帧信息显著提升了目标定位的准确性。实验表明,该算法在复杂场景下的目标跟踪精度显著优于现有方法。这一成果为目标跟踪技术在移动机器人、自动驾驶系统等民用领域的应用提供了新的技术支撑,具有重要的实际意义。
[1] Yuanbo Wang, Zhaoxuan Zhang, Jiajin Qiu, Dilong Sun, Zhengyu Meng, Xiaopeng Wei, Xin Yang, Touch2Shape: Touch-Conditioned 3D Diffusion for Shape Exploration and Reconstruction. IEEE/CVF Conference on Computer Vision and Pattern Recognition 2025. (CCF A)
[2] Chuanyu Sun, Jiqing Zhang, Yang Wang, Huilin Ge, Qianchen Xia, Baocai Yin, Xin Yang, Exploring Historical Information for RGBE Visual Tracking with Mamba. IEEE/CVF Conference on Computer Vision and Pattern Recognition 2025. (CCF A)