
根据三位安全研究人员的黑客说法 ,两种新的警告击威威胁模式可以将GenAI模型的行为从为GenAI应用服务转变为攻击它们 。
虽然不像《终结者》电影系列中的全新虚构场景Skynet那么危险,但研究人员展示的零点PromptWare和Advanced PromptWare攻击确实展示了“被越狱的AI系统可能造成的重大危害”。从迫使应用程序进行拒绝服务攻击到利用应用程序AI更改电子商务数据库中的胁瞄价格,这些威胁不仅非常真实 ,应用而且很可能会被恶意行为者利用 ,程序除非人们更加重视越狱GenAI模型的黑客潜在危害 。源码下载
介绍PromptWare GenAI威胁虽然被越狱的警告击威GenAI模型本身可能不会对会话AI的用户构成重大威胁 ,但它可以对由GenAI驱动的全新应用程序造成重大损害 。根据以色列理工学院、零点康奈尔科技和Intuit的胁瞄研究合作发表的一项名为“被越狱的GenAI模型可能造成重大损害:由GenAI驱动的应用程序容易受到PromptWares攻击”的研究,新威胁可以迫使这些应用程序执行恶意活动,应用而不仅仅是程序提供错误信息和返回攻击性内容 。
研究人员Stav Cohen(以色列理工学院博士生)、香港云服务器黑客Ron Bitton(Intuit首席AI安全研究员)和Ben Nassi(BlackHat董事会成员)表示 ,他们发布这项研究是为了帮助“改变对越狱的看法” ,并展示“被越狱的GenAI模型可能对GenAI驱动的应用程序造成的实际危害”。
可以理解 ,为什么许多安全专业人士不认真对待这些对GenAI的威胁。使用提示让聊天机器人侮辱用户并不是世纪罪行。被越狱的聊天机器人可能提供的任何信息都会在网上或暗网上找到 。服务器租用那么 ,为什么应该认为这种越狱威胁是危险的呢?研究人员解释说 ,“因为GenAI引擎的输出用于决定GenAI驱动的应用程序的流程”,这意味着被越狱的GenAI模型“可以改变应用程序的执行流程并触发恶意活动”。
什么是PromptWare?研究人员将PromptWare称为零点击恶意软件攻击 ,因为它不需要威胁行为者在执行攻击之前已经入侵GenAI应用程序。
可以将PromptWares视为由用户输入的包含越狱命令的源码库命令,这些命令迫使GenAI引擎本身遵循攻击者发布的命令,并生成额外的命令以触发恶意活动。
通过迫使GenAI返回所需的输出 ,在应用程序上下文中协调恶意活动,从而实现恶意活动。在GenAI驱动的应用程序的背景下 ,被越狱的引擎被转向应用程序本身,允许攻击者决定执行流程 。结果将取决于应用程序本身的云计算权限、上下文 、实施和架构 。
虽然GenAI引擎确实有防护措施和安全保障 ,如输入和输出过滤 ,旨在防止此类模型的滥用,但研究人员发现了多种技术 ,可以让越狱仍然成功 。
为了展示攻击者如何利用对GenAI应用程序逻辑的了解,通过特定的用户输入强制实现恶意结果 ,研究人员揭示了PromptWare如何用于对基于计划和执行的应用程序执行拒绝服务(DoS)攻击。他们写道 :“我们展示了攻击者可以向GenAI驱动的建站模板应用程序提供简单的用户输入 ,迫使应用程序执行进入无限循环,从而触发对GenAI引擎的无限API调用(浪费诸如不必要API调用和计算资源等资源),并阻止应用程序达到最终状态。”
执行这种DoS攻击的步骤如下:
1. 攻击者通过GenAI助手向用户发送电子邮件 。
2. GenAI应用程序通过查询GenAI引擎以获取计划 ,并将其作为草稿回复。
3. 应用程序通过查询用户的日历API执行找到合适时间安排请求会议的任务。
4. 应用程序使用GenAI引擎执行任务。
5. 应用程序执行EmailChecker任务并确定其不安全。
6. 应用程序执行重新措辞任务。
7. 应用程序再次执行EmailChecker任务并确定其不安全 。
8. 这样就创建了一个无限循环,从而执行了DoS攻击 。
什么是高级PromptWare威胁(Advanced PromptWare Threat)?研究人员称 ,更复杂的基本PromptWare攻击版本为高级PromptWare威胁(APwT)。即使目标GenAI应用程序的逻辑对威胁行为者未知,APwT攻击也可以使用。研究人员展示了攻击者如何使用一个对抗性的自我复制提示,基于实时过程自动确定和执行恶意活动,以理解应用程序本身的上下文、涉及的资产和可能造成的损害 。
本质上,APwT攻击使用GenAI引擎自身的能力,通过六步过程在“推理时间”内发起杀链:
1. 特权升级 :自我复制提示越狱GenAI引擎 ,以确保GenAI引擎的推理绕过GenAI引擎的防护措施 。
2. 侦察A:自我复制提示查询GenAI引擎关于应用程序的上下文。
3. 侦察B :自我复制提示查询GenAI引擎关于应用程序资产的信息 。
4. 推理损害:自我复制提示指示GenAI引擎使用侦察中获得的信息推理可能造成的损害 。
5. 决定损害 :自我复制提示指示GenAI引擎使用信息从不同的替代方案中决定恶意活动。
6. 执行:自我复制提示指示GenAI执行恶意活动 。
研究人员展示的示例显示 ,攻击者无需了解GenAI引擎逻辑即可发起一个杀链 ,从而触发SQL表的修改,可能改变用户通过GenAI驱动的购物应用程序购买商品的价格 。
AI开发者和安全专家对PromptWare研究的回应我联系了Google和OpenAI,要求他们对PromptWare研究发表声明。Google在发布前没有回应,然而,OpenAI的一位发言人表示:“我们一直在改进内置于我们模型中的防护措施,以抵御像越狱这样的对抗性攻击 。我们感谢研究人员分享他们的发现,并将继续根据反馈定期更新我们的模型 。我们仍然致力于确保人们能够从安全的AI中受益。”
Checkmarx的安全研究主管Erez Yalon说 :“大型语言模型和GenAI助手是现代软件供应链中的最新组成部分,像开源包、容器和其他组件一样,我们需要以谨慎的态度对待它们。我们看到越来越多的恶意行为者试图通过不同的组件(包括有偏见的 、感染的和中毒的LLM)来攻击软件供应链 。如果越狱的GenAI实现可以成为攻击向量,毫无疑问 ,它将成为许多攻击者武器库的一部分。”