微软发布了一个名为PyRIT(Python风险识别工具的缩写)的开放访问自动化框架,用于主动识别生成式人工智能(AI)系统中的风险。
这个红队工具旨在“使全球的每个组织都能够负责任地利用最新的人工智能进步进行创新”,微软的AI红队负责人Ram Shankar Siva Kumar说。
该公司表示,PyRIT可以用于评估大型语言模型(LLM)端点对不同攻击类别的鲁棒性,例如捏造(例如幻觉)、滥用(例如偏见)和禁止内容(例如骚扰)。
它还可以用于识别安全风险,从恶意软件生成到越狱,以及隐私风险,如身份盗窃。
PyRIT带有五个接口:目标、数据集、评分引擎、支持多种攻击策略的能力,以及包含一个JSON或数据库形式的记忆组件,用于存储中间输入和输出交互。
评分引擎还提供了两种不同的评分目标AI系统输出的选项,允许红队成员使用传统的机器学习分类器或利用LLM端点进行自我评估。
“目标是让研究人员有一个基准,了解他们的模型和整个推理管道在不同伤害类别中的表现如何,并能够将这个基准与他们模型的未来迭代进行比较,”微软说。
“这使他们能够获得关于他们模型今天表现如何的经验数据,并基于未来改进检测性能的任何退化。”
尽管如此,这家科技巨头谨慎地强调,PyRIT不是替代生成式AI系统的手动红队评估,而是补充红队现有的领域专业知识。
换句话说,这个工具旨在通过生成可能用于评估AI系统的提示来突出风险“热点”,并标记需要进一步调查的区域。
微软进一步承认,红队评估生成式AI系统需要同时探测安全和负责任的AI风险,而且这个过程更具概率性,同时也指出了生成式AI系统架构之间的广泛差异。
“手动探测虽然耗时,但通常需要用于识别潜在的盲点,”Siva Kumar说。“自动化需要用于扩展,但不能替代手动探测。”
这一发展是在Protect AI披露了流行AI供应链平台(如ClearML、Hugging Face、MLflow和Triton Inference Server)中的多个关键漏洞之后,这些漏洞可能导致任意代码执行和敏感信息泄露。
工具地址:https://github.com/Azure/PyRIT