最新研究揭示人工智能模型存在自动化越狱漏洞
- 24小时月刊
- 2024-12-25
- 11
Anthropic与牛津、斯坦福和MATS的研究人员开发了Best-of-N(BoN)越狱算法 ,通过简单的文本变体(如随机大小写 、拼写错误等)突破AI系统的安全限制 。测试显示,该方法在10,000次尝试内,能以超过50%的成功率突破包括Claude 3.5、GPT-4o、Gemini-1.5等主流AI模型的安全机制。
研究还发现 ,通过调整语音的速度 、音调、音量或图像的字体、背景色、大小等参数,同样能绕过AI系统的安全防护。这种自动化的突破方法,与此前用户手动绕过Microsoft Designer 、ElevenLabs等平台安全限制的方式类似 。
Anthropic表示,该研究成果将有助于开发更好的防御机制。值得注意的是 ,目前市面上已存在多个无限制的AI模型,可直接生成有害内容。
,本文由明日于2024-12-25发表在生活百科-红苹果乐园,如有疑问,请联系我们。
文章摘自:http://hpgly.com/post/102633.html