随机异质脉冲神经网络提升安全能力:通过类脑信息处理机制增强对抗鲁棒性
字号:【大】 【中】 【小】
2025年6月3日,中国科学院自动化研究所脑图谱与类脑智能实验室类脑认知智能研究组、人工智能安全与超级对齐北京市重点实验室、北京前瞻人工智能安全与治理研究院、远期智能研究中心联合团队在Cell出版社旗下期刊iScience上发表了一篇题为“Random Heterogeneous Spiking Neural Network for Adversarial Defense”的新研究。在脉冲神经网络(Spiking Neural Network,SNN)中引入随机机制以及神经元异质性,使得网络对于不同试次输入产生多样的脉冲发放模式,通过对抗多种攻击的严谨测试证明了所提出的方法能够有效增强网络的对抗防御能力,同时不会对网络的准确率带来过多损失。
研究亮点
论文简介
对抗鲁棒性是发展可信任人工智能系统的重要组成部分。SNN的对抗脆弱性严重削弱了其在自动驾驶等安全关键应用中的可靠性,凸显了SNN的图像处理与认知机制与人类视觉系统之间的重要差异。引入随机机制是增强神经网络对抗鲁棒性的一种有效途径。同时,生物大脑视觉皮层中的神经活动表现出显著的随机性,这表明随机信息处理与鲁棒性之间可能存在关联。面对相同刺激时,神经系统中的神经元活动会因内在随机性而产生差异,从而使系统能够过滤环境噪声并聚焦关键信息。此外,生物神经网络在电生理特性上表现出显著的异质性。神经系统由多种神经元类型组成,这种异质性形成了系统层面的冗余容错机制。相关研究表明,神经元参数的这种多样性能够有效增强网络的鲁棒性。
现有研究主要在ANN的权重、偏置或归一化层中引入随机参数,而非在激活函数内部实现参数随机化,这种做法未能充分体现网络中神经元的异质性特征。为克服这一局限,本研究提出RandHet-SNN,该模型通过在SNN中随机化神经元时间常数,实现了神经元响应的随机性与异质性。随机化的时间常数能够为网络引入神经元异质性,这种特性有望增强网络信息处理的鲁棒性。
RandHet-SNN工作原理:在RandHet-SNN中,网络各层的每个神经元都被赋予独立的随机变量作为其时间常数。在前向传播过程中,这些时间常数从预定义的分布中采样,使整个网络中的神经元同时表现出异质性和随机性特征。本研究对每个神经元的时间常数定义为独立随机变量。本研究采用两种时间常数采样方法:第一种方法在每个时间步独立采样时间常数;第二种方法则在每次前向传播开始时采样,并在后续所有时间步中保持恒定。
RandHet-SNN默认采用第一种采样方法,而采用第二种采样方法的模型则用RandHet-SNN*表示。每个神经元在每次前向传播时都进行独立采样。这种独立采样机制使得各神经元在不同前向传播过程中能够表现出差异化的动态特性,从而有效增强了网络的随机性与异质性。RandHet-SNN中的随机机制通过破坏攻击者对网络确定性参数的识别能力,将白盒攻击场景有效转化为黑盒攻击。
图 1RandHet-SNN工作原理示意图
梯度余弦相似性分析:RandHet-SNN对相同输入产生的梯度会因模型随机性而存在差异。不同的时间常数采样结果会导致同一输入生成不同的梯度,本研究通过余弦相似度分析了这些梯度差异。在CIFAR-10和CIFAR-100数据集上训练RandHet-SNN后,本研究可视化了梯度余弦相似度的分布情况。如图所示,梯度余弦相似度主要聚集在0.3附近,这表明在不同时间常数采样条件下,模型间对抗攻击的可迁移性相对较低。
此外,设 表示针对模型
生成的对抗扰动。本研究通过计算两者的余弦相似度
来评估
与
之间的差异。如图所示,对抗扰动的余弦相似度主要分布在0.4至0.5区间,这表明RandHet-SNN的随机机制导致模型
和
生成的对抗样本存在显著差异性。这种差异性有效增强了RandHet-SNN的对抗鲁棒性——由于神经元参数固有的随机性,针对某个网络采样结果设计的攻击难以成功迁移到其他采样。
图 2 梯度和对抗扰动的余弦相似度分析
RandHet-SNN性能验证:本研究通过多种攻击方式来验证RandHet-SNN的对抗鲁棒性。实验结果表明,RandHet-SNN与RandHet-SNN*均可与多种对抗训练方法有效结合,从而显著提升模型针对各类对抗攻击的鲁棒性。不仅如此,RandHet-SNN在提高对抗鲁棒性的同时,对于模型的纯净准确率(clean accuracy)并没有引入太多损失。
图 3 RandHet-SNN性能示意图
为严格评估RandHet-SNN的对抗鲁棒性,本研究在生成白盒对抗样本时特别考虑了梯度混淆效应的影响。在每次攻击迭代中,本研究采用"变换期望法"(Expectation Over Transformation,EOT)来获取更精确的梯度估计。结果显示,当EOT步长超过10时,RandHet-SNN的鲁棒准确率趋于稳定,且始终高于SNN的baseline。此外,本研究还发现ANN中采用的随机化方法在遭受EOT攻击时鲁棒准确率显著下降,而RandHet-SNN的性能下降幅度相对较小。在EOT攻击下,RandHet-SNN不仅保持了更高的纯净准确率,其鲁棒准确率也优于其他ANN方法。这些发现证明,RandHet-SNN是一种更可靠的随机化实现方案。
图 4 RandHet-SNN在EOT攻击下的性能。
图 5 RandHet-SNN与ANN中的随机方法的性能对比.。
论文的第一作者博士生王纪航说:
“此项研究通过随机化时间常数的方式,在SNN中同时引入了随机性和异质性。由于不同试次网络对于时间常数随机采样,使得网络的脉冲发放模式呈现出跨试次的多样性(Trial-to-trial variability)。通过调节采样的方差,RandHet-SNN可以控制时间常数分布的异质性。我们通过EOT方法对随机模型的对抗鲁棒性进行了严谨的评估,认为RandHet-SNN能够有效提高模型的对抗防御能力。”
图 6 脉冲发放模式的Trial-to-trial variability以及不同采样方差下时间常数分布的示意图。
论文的通讯作者曾毅研究员说:
“对抗鲁棒性是人工智能模型非常关键的安全能力,本研究融合了类脑人工智能和人工智能安全的最新进展,提出一种通过神经元时间常数的随机化增强脉冲神经网络对抗鲁棒性的方法。该神经网络已集成入我们的类脑认知智能引擎“智脉(BrainCog)”平台,是智脉人工智能平台在安全与鲁棒性方面的又一代表性工作。RandHet-SNN在多种对抗攻击场景下同步提升了模型的纯净准确率与鲁棒准确率。该模型对方差变化的低敏感性进一步验证了其在超参数波动下的稳定性,充分体现了其抗干扰能力与环境适应性。通过深度融合生物神经网络的随机性和异质性的信息处理特性,本研究发展了具有更高安全性的全脉冲神经网络人工智能系统的对抗鲁棒能力。未来需要从类脑智能启发的角度研究随机模型提高对抗防御能力的理论依据,既为大脑信息处理的随机机制与其对抗鲁棒性的关系提供更深入的理解,更可以据此研发出更安全的前沿人工智能模型。”
论文标题
Random Heterogeneous Spiking Neural Network for Adversarial Defense
论文地址
https://www.cell.com/iscience/fulltext/S2589-0042(25)00921-6
论文源码
https://github.com/BrainCog-X/Brain-Cog/tree/main/examples/Snn_safety/RandHet-SNN
作者简介
王纪航
中国科学院自动化研究所类脑认知智能研究组2021级博士研究生,导师为曾毅研究员。主要研究方向为类脑脉冲神经网络的对抗鲁棒性,相关研究成果发表在iScience、NeurIPS上。
赵东城
赵东城,北京前瞻人工智能安全与治理研究院高级研究员,人工智能安全中心主任。主要研究方向为类脑智能,人工智能安全与对齐,人工智能伦理与治理。研究成果发表于PNAS,Cell出版社旗下Patterns(封面文章)、iScience,Nature旗下Scientific Data,IEEE Transactions系列、以及ICLR、NeurIPS、CVPR、IJCAI、AAAI等人工智能领域顶级会议,并两次获得Cell出版社评选的“中国年度论文”奖项,主持并参与多项国家级科研项目与产学研合作。
杜骋骋
中国科学院自动化研究所类脑认知智能研究组2023级博士研究生,导师为曾毅研究员,研究方向为工作记忆在多物种的建模以及强化学习应用。目前已在Frontiers,iScience等发表论文多篇。
何翔
中国科学院自动化研究所类脑认知智能研究组2023级博士研究生,研究方向为脑启发方法和类脑脉冲神经网络的多模态学习。目前已在NeurIPS、AAAI、ACM MM等发表论文多篇。
张倩
中科院自动化所类脑认知智能研究组副研究员,主要从事类脑认知计算建模,尤其是工作记忆计算建模和不同意识水平大脑节律模拟仿真,已在Computers in Biology and Medicine、IEEE TVLSI、Patterns、Information Sciences等期刊发表多篇论文。
曾毅
中国科学院自动化研究所研究员、人工智能安全与超级对齐北京市重点实验室主任;北京前瞻人工智能安全与治理研究院院长;中国科学院大学岗位教授、博士生导师;中国人工智能学会心智计算专委会主任;国家新一代人工智能治理专委会委员;联合国人工智能高层顾问机构专家;联合国教科文组织人工智能伦理特设专家组专家。研究方向为:类脑人工智能、人工智能伦理安全与治理、人工智能赋能可持续发展。被美国《时代周刊(TIME)》评为人工智能最具影响力100人。
相关成果发表于美国国家科学院院刊(PNAS)、Cell Press旗下期刊Patterns、iScience,Nature出版社旗下Scientific Data、Scientific Reports,以及Science出版社旗下Science Advances、人工智能领域重要期刊IEEE TPAMI、TEVC、TVLSI、TCAD、TCDS、TAI、Neural Networks以及人工智能领域重要国际会议NeurIPS、CVPR、IJCAI和AAAI等。
版权所有 © 脑图谱与类脑智能实验室
备案序号:京ICP备14019135号-3 京公网安备110108003079号
地址:北京市海淀区中关村东路95号 邮编:100190 mail:brain-ai@ia.ac.cn