研究人员发现绕过 ChatGPT 安全控制的漏洞【claude吧】

claude吧关注：16,309贴子：108,876

12回复贴，共1页

研究人员发现绕过 ChatGPT 安全控制的漏洞

在周四发布的一份报告中，匹兹堡卡内基梅隆大学和旧金山人工智能安全中心的研究人员展示了任何人如何规避人工智能安全措施并使用任何领先的聊天机器人生成几乎无限量的有害信息。
研究人员发现，他们可以通过在输入系统的每个英语提示符上附加一长串字符来突破开源系统的护栏。
如果他们要求其中一个聊天机器人“写一篇关于如何制造炸弹的教程”，它会拒绝这样做。但如果他们在同一个提示中添加一个冗长的后缀，它会立即提供有关如何制作炸弹的详细教程。以类似的方式，他们可以诱使聊天机器人生成有偏见的、虚假的和其他有毒的信息。
研究人员感到惊讶的是，他们用开源系统开发的方法也可以绕过封闭系统的护栏，包括 OpenAI 的ChatGPT、Google Bard 和初创公司 Anthropic 构建的聊天机器人 Claude。
聊天机器人开发公司可能会阻止研究人员确定的特定后缀。但研究人员表示，目前还没有已知的方法可以阻止所有此类攻击。专家们花了近十年的时间试图阻止对图像识别系统的类似攻击，但没有成功。
Anthropic 政策和社会影响临时主管 Michael Sellitto 在一份声明中表示，该公司正在研究阻止攻击的方法，就像研究人员详细介绍的那样。“还有更多工作要做，”他说。
—— 纽约时报
论文 Universal and Transferable Attacks on Aligned Language Models