计算机学院4项研究成果被人工智能高水平会议、期刊（CVPR、IJCV、TAFFC）录用-计算机科学与技术学院

计算机学院4项研究成果被人工智能高水平会议、期刊（CVPR、IJCV、TAFFC）录用

2026-03-13

近日，社会计算与认知智能教育部重点实验室魏小鹏教授、杨鑫教授、梅海洋博士、张吉庆博士、张肇轩博士团队的4项工作分别被人工智能高水平会议CVPR 2026（2篇）、期刊IJCV（1篇）以及情感计算领域TAFFC（1篇）接收。工作涵盖基于脉冲神经网络的事件相机高速目标追踪、基于视触觉的三维点云补全、事件驱动的高速目标检测以及脑电情绪情感识别等问题。

CVPR（Conference on Computer Vision and Pattern Recognition）是计算机视觉与模式识别领域的高水平国际会议，由IEEE（Institute of Electrical and Electronics Engineers）和CVF（Computer Vision Foundation）联合举办。CVPR旨在促进计算机视觉和模式识别领域的学术交流与合作，展示最新的研究成果和技术创新，涵盖了计算机图形学与视觉、深度学习、图像处理、模式识别等领域的前沿研究内容。CVPR被视为该领域的重要盛会，吸引着全球范围内的研究人员和专家参与交流和讨论。在谷歌2024学术指标中，CVPR攀升至第二，超越Science仅次于Nature，并在谷歌2025学术指标中继续稳居第二。

IJCV（International Journal of Computer Vision）是Springer出版的人工智能、计算机视觉领域的国际高水平学术期刊，致力于发表高质量、原创性的研究成果，涵盖图像形成与分析、机器学习、统计方法、机器人视觉、医学影像及人机交互等方向，是中国计算机学会（CCF）推荐的人工智能领域的四个A类期刊之一，影响因子9.3。

IEEE Transactions on Affective Computing（TAFFC）是情感计算领域的国际高水平期刊，由IEEE计算机学会出版。该期刊专注于发布关于能识别、解释、模拟和影响人类情感及相关认知状态的系统设计的原创研究，涵盖计算机科学、心理学、神经科学和认知科学等多个交叉学科。作为中国科学院一区Top期刊，TAFFC在情感计算和人机交互领域享有极高的学术声誉，影响因子9.6，持续位居该领域前列。

研究成果1：博士生王洋作为第一作者，与硕士生孙传昱等人合作完成，杨鑫教授和张吉庆副教授等老师作为共同作者的研究成果的研究成果“SpikeTrack: High-performance and Energy-efficient Event-Based Object Tracking with Spiking Neural Network”为事件相机在复杂场景下的高效目标跟踪开辟了新路径。该研究针对传统RGB相机在高速运动或目标外观变化剧烈时表现不佳的问题，提出了一套完全基于脉冲神经网络(SNN)的事件相机目标跟踪解决方案，兼具高精度与低功耗。事件相机以其微秒级时间分辨率和极高的动态范围，在高速、低光照等极端条件下展现出独特优势。然而，如何有效结合脉冲神经网络进行高效目标跟踪，一直是学术界面临的挑战。SpikeTrack通过引入多搜索序列与单模板帧的（MSST）训练机制，充分挖掘事件数据中的时间依赖性，并设计了动态整数泄漏整合发放（DI-LIF）神经元模块，在训练过程中自适应预测整数激活值，在推理阶段则转化为脉冲信号，从而实现训练与推理的高效统一。这种设计不仅保留了事件数据的稀疏性与时空精细结构，还在保证跟踪精度的前提下显著降低了能耗。实验结果表明，SpikeTrack在FE108、FELT 和 VisEvent等多个事件公开数据集上均超越当前最先进的事件相机跟踪方法，展现出优异的准确性与运行效率。这一成果能够推动未来低功耗、高鲁棒类脑视觉系统的发展，为机器人、自动驾驶、边缘智能等场景提供新的技术路径。

研究成果1的方法总览图：（a）SpikeTrack采用了多搜索序列与单模板帧的（MSST）训练范式，以捕捉与目标状态变化相关的时间线索；以及它的三个组成部分：(b) 基于I-LIF的SNN卷积模块，(c) 基于DI-LIF的SNN Transformer模块，(d) 基于I-LIF的SNN跟踪头。

研究成果2：博士研究生王元博作为第一作者，与博士研究生王昌龙、硕士研究生王欣宁等人共同完成，魏小鹏教授、杨鑫教授和张肇轩博士等作为共同作者的研究成果“TouchDream: 3D Object Completion through Imagined Touch”被CVPR2026所录用。三维感知在机器人操作、自主导航以及增强现实等广泛领域中至关重要。作为三维物体的一种紧凑而高效的表示形式，点云在这些领域中得到了广泛应用。然而，在实际场景中，由于环境遮挡、传感器分辨率有限以及视角受限，传感器获取的点云往往存在残缺与噪声。点云补全，即从不完整扫描中推断出完整且密集的几何结构的任务，成为下游三维理解任务（如物体识别、场景分割和机器人交互）的基础步骤。该工作针对先前三维点云补全方法虽然能够由粗到细的补全目标的完整形状，但在局部细节上粗糙甚至失真的问题，创新性地提出通过“想象”触觉信息来增强局部几何感知，实现兼顾全局形状和局部表达的高质量点云补全。研究内容主要包括两部分：如何实现基于粗糙点云和触摸位姿的触觉信息生成，以及如何将生成的触觉信息用于引导点云的细化与优化。对于第一部分内容，该工作首次提出了一个以粗糙点云为条件的触觉潜在空间扩散模型，通过在潜在空间中学习触觉表征，将采样的触摸位姿映射为紧凑的触觉潜在向量，并解码为局部三维几何，从而规避了在原始三维空间直接生成的复杂性；对于第二部分内容，该工作巧妙地将扩散模型生成的触觉信息与粗糙点云进行融合，利用触觉信号提供的高保真局部形状细节来引导细化阶段，最终得到完整且细节丰富的点云，在多个基准数据集上取得了最先进的补全效果。

研究成果2的方法总览图：(1) 在有效的触觉位姿上生成触觉信息并用于引导点云的补全优化。(3) 与同类方法的补全效果对比，我们的方法在细节表现上明显更优。

研究成果3：博士研究生董文作为第一作者，与硕士生吉英莲等共同完成，与杨鑫教授、梅海洋博士等作为共同作者的研究成果“You Only Look Intensity Once: Event-Driven Long-Term High-Speed Object Detection”被IJCV所录用。融合RGB图像与事件信号能有效解决高速目标的检测问题，但现有方法需要频繁更新RGB帧，以维持场景上下文信息，这不仅带来额外的计算开销和不必要的帧间冗余，还会在边缘设备上引发延迟问题。本篇工作提出了一种新的增量感知网络（Delta Perception Network，DPNet），将初始RGB帧作为长期有效的场景先验，在长达5秒的时间窗口内（是现有方法的25倍）仅依靠蕴含运动信息的事件信号动态更新该先验，无需额外引入新的RGB帧，亦无需进行多模态对齐与融合操作（如图1所示）。本篇工作是首个依靠事件驱动、无需连续RGB帧的长时高速目标检测框架，可大幅降低数据读取与处理开销；设计了新的增量感知策略，从连续的事件输入中找到时序上前后关联的目标运动线索，可以充分发挥事件信号固有的运动敏感性与稀疏性优势；引入新的记忆感知更新机制，将运动线索以增量的形式更新到长期维持的全局记忆中，有效规避RGB帧间冗余，同时维持特征准确性。该工作在性能上领先当前先进的基于帧、基于事件及多模态融合的检测方法，在低光照、运动模糊等挑战场景下优势更加明显。本研究证实，鲁棒的高速目标感知并不一定依赖高频RGB帧输入，为辅助驾驶、机器人等计算受限场景下的事件驱动视觉感知提供新思路。

研究成果3的方法总览图：我们的方法仅依靠首帧RGB和连续的事件输入，(1) 依据首帧RGB建立全局的特征记忆基础；（2）计算相邻时刻事件数据间的内容关联性，得到局部的运动信息；（3）完全依赖事件数据提供的场景内容变动信息，以增量的形式累积更新全局特征，并基于此完成高速目标的检测。

研究成果4：博士研究生张述伟作为第一作者，与硕士研究生王欣宁、杨培根等人共同完成，魏小鹏教授、杨鑫教授、张吉庆副教授作为共同作者的研究成果“ST-SNN-DSFE: A Spatio-Temporal Hybrid Network for EEG-based Emotion Recognition”被TAFFC所录用。该论文针对脑电信号（EEG）情感识别中时空特征利用不充分的关键科学问题，提出了一种创新的混合网络框架ST-SNN-DSFE。该方法从两个维度进行突破：在时间维度上，创新性地引入脉冲神经网络（SNN）捕捉EEG信号的精细时态动态变化，利用SNN的生物合理性及其事件驱动特性，不仅有效提取了时间特征，还借助其膜电位积累和阈值发放机制实现了对噪声的鲁棒性抑制；在空间维度上，设计了多样化的空间特征提取器（DSFE），通过多尺度卷积获取电极物理分布信息，同时融入基于脑区和半球划分的先验知识，构建功能性子图来提取局部功能性连接特征。最后，采用图卷积网络（GCN）实现时空特征的渐进式融合。在SEED和SEED-IV两个国际标准数据集上的大量实验表明，该方法在依赖被试和独立被试两种场景下均达到当前最优性能，尤其在更具挑战性的跨被试泛化任务中表现突出。该研究为开发高鲁棒性、可解释的脑机交互情感计算系统提供了新的技术路径。

研究成果4的方法总览图：该框架采用双分支架构进行脑电情绪识别的时空特征建模。时序分支采用脉冲神经网络（SNN）捕捉脑电信号的精细时态动态变化；空间分支通过多尺度并行卷积提取电极的全局物理分布特征及位置编码，同时基于脑区和左右半球的先验知识构建两种子图划分策略，提取局部功能性特征并生成功能性虚拟位置编码，并通过自注意力机制进行局部特征聚合。最后，采用图卷积网络（GCN）将时序特征与空间特征进行融合，通过整合特征嵌入与位置关系完成情感分类。

论文信息列表：

[1] Yang Wang, Jiqing Zhang, Chuanyu Sun, Qianhui Liu, Huilin Ge, Ziqi Wei(通讯), Xin Yang(通讯), SpikeTrack: High-performance and Energy-efficient Event-Based Object Tracking with Spiking Neural Network. IEEE/CVF Conference on Computer Vision and Pattern Recognition 2026. (CCF A)

[2] Yuanbo Wang, Xinning Wang, Zhaoxuan Zhang, Changlong Wang, Qianchen Xia, Xiaopeng Wei(通讯), Xin Yang(通讯), TouchDream: 3D Object Completion through Imagined Touch. IEEE/CVF Conference on Computer Vision and Pattern Recognition 2026. (CCF A)

[3] Wen Dong, Haiyang Mei, Yinglian Ji, Yutong Jiang, Ziqi Wei, Shengfeng He, XinYang(通讯). You Only Look Intensity Once: Event-Driven Long-Term High-Speed Object Detection. International Journal of Computer Vision 2026. (CCF A)

[4] Shuwei Zhang, Jiqing Zhang, Xinning Wang, Peigen Yang, Bo Dong, Xiaopeng Wei(通讯), Xin Yang(通讯). ST-SNN-DSFE: A Spatio-Temporal Hybrid Network for EEG-based Emotion Recognition. IEEE Transactions on Affective Computing.（中国科学院一区）