美国2019《国家人工智能研发战略规划》--战略4:确保人工智能系统的安全性

节选于:

《THE NATIONAL ARTIFICIAL INTELLIGENCE RESEARCH AND DEVELOPMENT STRATEGIC PLAN: 2019 UPDATE》Strategy 4: Ensure the Safety and Security of AI System

THE Report by the SELECT COMMITTEE ON ARTIFICIAL INTELLIGENCEof the NATIONAL SCIENCE & TECHNOLOGY COUNCIL

 

当前人工智能技术的一个关键缺陷是缺乏确保人工智能系统安全和可预测性能的方法。人工智能系统的安全性是一个挑战。因为这些系统的异常复杂性和演化性质。此篇文章强调需要可解释和透明的系统。这些系统必须得到用户的信任,以用户可以接受的方式执行,并且能够保证按照用户的意图行事。人工智能系统的潜在能力和复杂性,以及与人类用户和环境可能的相互作用的丰富性,使得投资于提高人工智能技术的安全性和控制的研究至关重要。

 

自2016年《国家人工智能研发战略规划》发布以来,人工智能安全保障的科学和社会认识迅速增长。这些新知识大多有助于识别新问题。现在更明显的是,人工智能系统如何能够做出错误的事情,学习错误的事情,或揭示错误的事情,例如,通过对抗性示例,数据中毒和模型反转。不幸的是,这些人工智能安全问题的技术解决方案仍然难以捉摸。

 

为了解决这些问题,从最初的设计和数据/模型构建到验证和确认、部署、操作和监控,人工智能系统生命周期的所有阶段都必须考虑人工智能系统的安全和保障。事实上,“安全(或设计安全)”的概念可能会传递出一个错误的概念,即这些只是系统设计者的关注点;相反,它们必须在整个系统生命周期中被考虑,而不仅仅是在设计阶段。因此设计安全必须是人工智能研发组合的重要组成部分。

 

当人工智能组件连接到其他必须安全的系统或信息时,较大的系统将继承人工智能漏洞和性能要求(例如,当操作大量数据时,非常低的误报率)。这些挑战并不是静态的。随着人工智能系统能力的提高不断增长,它们的复杂性可能会越来越高,使得正确的性能或信息的隐私变得更加难以验证。

 

无论现在还是未来,让人工智能值得被信赖是一个关键问题。这需要联邦政府的研发投资,以及政府、工业界、学术界和民间社会之间的合作努力。设计值得信赖的人工智能系统可以借鉴其他领域的安全工程中的现有做法。它们已经学会了如何解释非人工智能自治或半自治系统潜在的不当行为。然而,人工智能特有的问题意味着,程序分析、测试、形式验证和综合的新技术对于建立一个基于人工智能的系统满足其规范(也就是说,该系统只做它应该做的事情,而不再做其他事情)是至关重要的。这些问题在基于人工智能的系统中会加剧。这些系统很容易被愚弄、逃避和误导,从而产生深远的安全影响。一个新兴的研究领域是对抗性ML,它探索ML算法中的漏洞分析以及产生更健壮学习的算法技术。对ML的众所周知的攻击包括对抗性分类器规避攻击(攻击者改变行为以逃避被检测到)和中毒攻击(训练数据本身已损坏)。越来越多的研究需要系统地探索攻击ML和其他基于人工智能的系统的对手的空间,并设计针对不同类别的对手提供可证明的健壮性保证的算法。

 

必须开发方法来安全地创建、评估、部署和控制人工智能,并且这些方法必须规模化扩展以匹配人工智能的能力和复杂性。评估这些方法将需要新的指标、控制框架和基准来测试和评估日益强大的系统的安全性。方法和指标都必须包含人为因素,安全的人工智能目标由人类设计者的目标定义。安全的人工智能操作由人类用户的习惯定义。安全的人工智能指标由人类评估者的理解定义。为人工智能系统的安全制定人类驱动和人类可理解的方法和指标,将使决策者、私营部门和公众能够准确地判断不断变化的人工智能安全状况,并在其范围内适当开展工作。

 

在人工智能系统投入广泛使用之前,需要保证系统将以可控的方式安全可靠地运行。需要进行研究,以解决对创建真实、可靠和可信的人工智能系统的挑战。与其他复杂系统一样,人工智能系统面临着重要的安全和保障挑战,原因是:

 

1.复杂和不确定的环境:在许多情况下,人工智能系统的设计是在复杂的环境中运行的,有大量的潜在状态,无法进行详尽的检查或测试。一个系统可能会遇到在设计过程中从未考虑过的条件。

 

2.紧急行为:对于部署后学习的人工智能系统,系统的行为在很大程度上取决于在无监督条件下的学习时间。在这种情况下,可能很难预测系统的行为。

 

3.目标错误指定:由于很难将人类目标转换为计算机指令,为人工智能系统编程的目标可能与程序员预期的目标不匹配。

 

4.人机交互:在许多情况下,人工智能系统的性能在很大程度上受到人类交互作用的影响。在这些情况下,人体反应的变化可能会影响系统的安全性。

 

为了解决这些问题和其他潜在问题,我们需要额外的投资来推进人工智能的安全和保障,包括可解释性和透明度,信任,验证和确认,攻击的安全性以及长期人工智能安全性和价值一致性。 

 

提高可解释性和透明度

提高人工智能的“可解释性”或“透明度”是一项关键性研究挑战。许多算法(包括基于深度学习的算法)对用户来说是不透明的,几乎没有用于解释其结果的现有机制。对于诸如医疗保健之类的领域而言,这明显是一个问题。在这些领域,医生需要解释证明特定诊断或治疗过程的合理性。诸如决策树感应之类的人工智能技术提供内置解释,但通常不太准确。因此,研究人员必须开发透明的系统,并且本质上能够向用户解释其结果的原因。

 

 

建立信任

 

为了获得信任,人工智能系统设计师需要创建准确、可靠的系统,并提供信息丰富、用户友好的界面,而操作人员必须花时间接受充分的培训,以了解系统操作和性能限制。用户广泛信任的复杂系统,如车辆的手动控制,往往是透明的(系统以用户可见的方式运行)、可信的(系统的输出被用户接受)、可审计的(系统可以评估)、可靠的(系统按照用户的意图运行),和可恢复(用户可以在需要时恢复控制)。当前和未来人工智能系统面临的一个重大挑战仍然是软件生产技术的质量不一致。随着人工智能进步在人类和人工智能系统之间带来更大的联系,信任领域的挑战是跟上能力的变化和增长,预测采用和长期使用方面的技术进步,并为研究设计、建造和使用的最佳实践制定管理原则和政策,包括对操作人员进行适当的安全操作培训。

 

加强验证和确认

 

人工智能系统的验证和确认需要新的方法。“验证”确定系统符合正式规范,而“验证”确定系统满足用户的操作需求。安全的人工智能系统可能需要新的评估方法(确定系统是否出现故障,可能是在超出预期参数的情况下操作)、诊断(确定故障原因)和维修(调整系统以解决故障)。对于在较长时间内自动运行的系统,系统设计者可能没有考虑系统将遇到的所有条件情况。这样的系统可能需要具备自我评估、自我诊断和自我修复的能力,以便具有健壮性和可靠性。

 

防范攻击

 

嵌入在关键系统中的人工智能必须是健壮的,以便处理事故,但也应该是安全的,以防各种有意的网络攻击。安全工程包括了解系统的脆弱性以及可能有兴趣攻击系统的参与者的行为。在NITRD 2016联邦网络安全研发战略计划中网络安全研发需求得到了更详细地解决,但一些网络安全风险是专门针对人工智能系统的。例如,一个关键的研究领域是“对抗性机器学习”,它探索人工智能系统通过“污染”训练数据、修改算法或对一个对象进行细微的更改以防止其被正确识别而影响人工智能系统的安全程度(例如,欺骗面部识别系统的假肢)。在需要高度自治的网络安全系统中实现人工智能也是一个有待进一步研究的领域。最近在这个领域的一个工作例子是DARPA的网络大挑战,涉及人工智能代理人自主分析和打击网络攻击。

 

实现长期的人工智能安全性和价值一致性

 

人工智能系统可能最终能够“递归自我改进”,在这种情况下,大量的软件修改是由软件本身而不是由人类程序员完成的。为了确保自我修改系统的安全性,还需要开展更多的研究:自我监控体系结构,检查系统的行为是否与人类设计师原始目标的行为一致;在评估系统时防止系统释放的限制策略;价值学习,其中价值观,用户的目标或意图可以通过系统推断出来;并且价值框架可以证明是抵制自我修改的。

 

翻译仅供参考

 

 

 

关于联盟