2024神经信息处理系统大会(NeurIPS)实验室入选成果速览
字号:【大】 【中】 【小】
NeurIPS全称神经信息处理系统大会(Conference on Neural Information Processing Systems),是机器学习和计算神经科学领域的顶级国际会议。NeurIPS 2024将于今年12月9日至15日在加拿大温哥华召开。
1. MetaLA:对Softmax注意力图的统一最优线性逼近 * Oral
MetaLA: Unified Optimal Linear Approximation to Softmax Attention Map
论文作者:侴雨宏,姚满,王可心,潘昱锜,朱芮捷,吴冀彬,钟怡然,乔宇,徐波,李国齐
研究介绍:
Transformer架构以及自注意力机制显著提升了大模型性能,但却引入了随序列长度的二次方计算复杂度。各种线性复杂度模型,如线性Transformer(LinFormer),状态空间模型(SSM)和线性RNN(LinRNN)等,被提出作为自注意力的高效替代。在本工作中,我们首先在形式上统一了目前所有的线性模型,并总结了其自特点。接着,提出了最优线性注意力设计的三个必要条件:动态记忆能力;静态逼近能力;最少参数近似。本文发现目前的所有线性复杂度大模型都不能满足所有的三个必要条件,导致性能次优。进而本文提出了MetaLA模型,能够满足上述最佳逼近必要条件,并在检索任务、语言建模、图像分类和长序列建模等实验上,本文验证了MetaLA的有效性。
线性模型的统一形式(并行和循环两种形式)
2. 从模式补全中学习:自监督可控生成
Learning from Pattern Completion: Self-supervised Controllable Generation
论文作者:陈智强,范国藩,高金颖,马雷,雷博,黄铁军,余山
研究介绍:
人类大脑具有很强的自发联想能力,可以通过不同视觉属性联想到相同或相似的视觉场景,例如将草图或涂鸦与现实世界的视觉对象联系起来。受启发于可能有助于大脑联想能力的神经机制,特别是皮层模块化和海马体模式补全机制,我们提出了一个自监督可控生成(Self-supervised Controllable Generation, SCG)框架。首先,我们引入了一个等变约束,以促进自编码器模块间的独立性和模块内的相关性,从而实现功能分化。随后,基于这些专门的模块,我们采用了一种自监督的模式补全方法来进行可控生成训练。实验结果表明,所提出的模块化自动编码器有效地分化出了对颜色、亮度、边缘敏感的的功能模块,并自发涌现出包括朝向选择性、颜色拮抗、中心-周围感受野等类脑的特性。通过自监督模式补全,所提出的SCG自发涌现出联想生成能力,并能够很好地泛化到未训练的绘画、素描、远古壁画等联想生成任务上。与之前的代表性方法ControlNet相比,所提出的SCG不仅在更具挑战性的高噪声场景中表现出优异的鲁棒性,而且由于其自监督的方式,还具有更有前景的scaling-up潜力。
图1. SCG框架。SCG有两个组成部分:一个是通过我们设计的模块化等变约束,促进网络自发地特化出不同的功能模块;另一种是通过模式补全来执行自监督可控生成。
图2. 基于等变约束的模块化自编码器架构
3. 基于脑记录的视觉重建与语言交互增强研究
Neuro-Vision to Language: Enhancing Brain Recording-based Visual Reconstruction and Language Interaction
论文作者:申国斌, 赵东城, 何翔, 冯令昊, 董一廷, 王纪航, 张倩, 曾毅
研究介绍:
解码非侵入性脑信号对于推动人类认知理解至关重要,但由于个体差异和神经信号表征的复杂性,因此面临诸多挑战。传统方法通常需要定制化模型和大量实验,且在视觉重建任务中缺乏可解释性。我们提出的框架利用Vision Transformer 3D,将三维大脑结构与视觉语义相结合,通过高效的统一特征提取器对fMRI特征与多层次视觉嵌入进行对齐,无需特定个体模型即可从单次试验数据中提取信息。该提取器整合了多层次视觉特征,简化了与大语言模型(LLMs)的整合。此外,我们通过多样的fMRI-图像相关文本数据增强了fMRI数据集,以支持多模态大模型的开发。与LLMs的结合提升了解码能力,完成了脑信号描述、复杂推理、概念定位及视觉重建等任务,精确地从脑信号中识别基于语言的概念,增强了可解释性。这一进展为非侵入式脑解码在神经科学和人机交互中的应用奠定了基础。
结合fMRI特征提取与大语言模型(LLMs)进行交互式沟通和重建的多模态集成框架概览。该架构包括: (a) 使用VAE和CLIP嵌入进行特征对齐的双流路径; (b) 一个3D fMRI预处理器 p 以及一个fMRI特征提取器; (c) 与fMRI集成的多模态LLMs。提取的特征随后输入LLMs,用于处理自然语言指令并生成响应或视觉重建。
版权所有 © 脑图谱与类脑智能实验室
备案序号:京ICP备14019135号-3 京公网安备110108003079号
地址:北京市海淀区中关村东路95号 邮编:100190 mail:brain-ai@ia.ac.cn