您所在的位置: 需求库 技术需求 人工智能安全对抗性攻击和防御技术

人工智能安全对抗性攻击和防御技术

发布时间: 2023-08-08
来源: 科技服务团
截止日期:2024-01-31

价格 双方协商

地区: 陕西省 西安市 市辖区

需求方: 西安***公司

行业领域

电子信息技术,信息安全技术

需求背景

近年来人工智能研究与应用发展迅速,机器学习模型大量应用在现实的场景中,人工智能模型的安全鲁棒性分析与评估问题已经开始引起人们的关注。

针对现有人工智能模型在训练阶段(后门攻击、投毒攻击等)和测试部署阶段(对抗样本、模型窃取等)易受攻击威胁的脆弱性问题,这些技术依赖大量的高质量训练数据和计算资源来充分学习模型的参数,导致模型出现过拟合的情况,使得新数据上的测试性能远低于之前测试数据上的性能。其次,在特定数据集上测试性能良好的深度神经网络,很容易被添加少量噪声的“对抗”样本欺骗,出现高可信度的错误判断。为了防范人工智能的新型攻击威胁和安全隐患,需要开展人工智能模型的鲁棒性技术研究。

针对常用人工智能模型,研究新型攻击生成机理,设计迁移性强的自适应攻击方法,以攻促防;其次,针对现有常见的攻击形式如后门攻击、对抗样本攻击、模型窃取等攻击,设计通用鲁棒的防御策略;最后,设计可靠的模型鲁棒性评估指标,量化评估各模型对于不同攻击的防御能力,精准衡量模型鲁棒性。在保障模型性能的基础上,研发人工智能对抗攻防平台,在多应用场景、复杂算法环境下研究人工智能鲁棒算法技术,全面提升人工智能模型的安全性。

需解决的主要技术难题

由于攻击的类型不同,规则也不同,具有不确定性。现有的防御方法在进行防御时,只能对特定的攻击方法或特定场景下的攻击进行防御,无法对所有的攻击产生鲁棒性。故此,目前采取的主要措施是针对不同的攻击方法采取不同的防御策略对模型安全进行保护。

期望实现的主要技术目标

针对现有常见人工智能模型,试下不少于3种自适应攻击方法,实现攻击成功率高于70%;针对训练阶段和测试部署阶段的典型攻击方法给出通用防御策略,并在图像、文本、无人机等不少于3种应用场景下验证可行性,实现在有攻击情况下防御算法的成功率下降幅度低于10%;构建人工智能模型鲁棒性评估指标体系,提出不少于1个通用的鲁棒评估指标。

需求解析

解析单位:“科创中国”人工智能专业科技服务团(西咸新区人工智能行业协会) 解析时间:2023-11-25

张历南

陕西科友青信息技术有限公司

执行董事

综合评价

人工智能(XAI)方法被描绘为一种用于调试和信任统计和深度学习模型以及解释其预测的方法。然而,最近在对抗性机器学习方面的进步凸显出最先进解释的局限性和脆弱性,使其安全性和可信度受到质疑。操纵、愚弄或者"公平洗白"模型推理的证据的可能性在应用于高风险决策和知识发现时会带来严重的后果。 对抗性机器学习是一把双刃剑。每当引入新的攻击算法时,都会提出各种方法来解决解释的局限性并修复其不安全性。Chen et al. [2019b]是通过规范化神经网络防御Ghorbani et al. [2019]引入的对抗性示例的首次尝试之一。提出的鲁棒性归因规则化迫使IG解释在扰动攻击下保持不变。Rieger和Hansen [2020]提出了一种针对这种对抗性示例 [Ghorbani et al., 2019; Dombrowski et al., 2019]的替代防御策略,即聚合用各种算法创建的多个解释。 Woods et al. [2019]是早期引入对抗性解释的工作,这些解释对针对模型预测的对抗性示例的鲁棒性得到了改善。
查看更多>

解析单位:陕西省西咸新区 解析时间:2023-09-23

李卫斌

西安电子科技大学

教授

综合评价

人工智能(XAI)方法被描绘为一种用于调试和信任统计和深度学习模型以及解释其预测的方法。然而,最近在对抗性机器学习方面的进步凸显出最先进解释的局限性和脆弱性,使其安全性和可信度受到质疑。操纵、愚弄或者"公平洗白"模型推理的证据的可能性在应用于高风险决策和知识发现时会带来严重的后果。 对抗性机器学习是一把双刃剑。每当引入新的攻击算法时,都会提出各种方法来解决解释的局限性并修复其不安全性。Chen et al. [2019b]是通过规范化神经网络防御Ghorbani et al. [2019]引入的对抗性示例的首次尝试之一。提出的鲁棒性归因规则化迫使IG解释在扰动攻击下保持不变。Rieger和Hansen [2020]提出了一种针对这种对抗性示例 [Ghorbani et al., 2019; Dombrowski et al., 2019]的替代防御策略,即聚合用各种算法创建的多个解释。 Woods et al. [2019]是早期引入对抗性解释的工作,这些解释对针对模型预测的对抗性示例的鲁棒性得到了改善。
查看更多>
更多

处理进度

  1. 提交需求
    2023-08-08 16:18:36
  2. 确认需求
    2023-08-09 10:39:37
  3. 需求服务
    2023-08-09 10:39:37
  4. 需求签约
  5. 需求完成