最新研究揭示人工智能模型存在自动化越狱漏洞

明日
24小时月刊
2024-12-25
11

Anthropic与牛津、斯坦福和MATS的研究人员开发了Best-of-N(BoN)越狱算法，通过简单的文本变体（如随机大小写、拼写错误等）突破AI系统的安全限制。测试显示，该方法在10,000次尝试内，能以超过50%的成功率突破包括Claude 3.5、GPT-4o、Gemini-1.5等主流AI模型的安全机制。

研究还发现，通过调整语音的速度、音调、音量或图像的字体、背景色、大小等参数，同样能绕过AI系统的安全防护。这种自动化的突破方法，与此前用户手动绕过Microsoft Designer 、ElevenLabs等平台安全限制的方式类似。

Anthropic表示，该研究成果将有助于开发更好的防御机制。值得注意的是，目前市面上已存在多个无限制的AI模型，可直接生成有害内容。