当前位置:首页 > 24小时月刊 > 正文

最新研究揭示人工智能模型存在自动化越狱漏洞

Anthropic与牛津、斯坦福和MATS的研究人员开发了Best-of-N(BoN)越狱算法 ,通过简单的文本变体(如随机大小写 、拼写错误等)突破AI系统的安全限制 。测试显示,该方法在10,000次尝试内,能以超过50%的成功率突破包括Claude 3.5、GPT-4o、Gemini-1.5等主流AI模型的安全机制。

研究还发现 ,通过调整语音的速度 、音调 、音量或图像的字体、背景色、大小等参数 ,同样能绕过AI系统的安全防护。这种自动化的突破方法,与此前用户手动绕过Microsoft Designer 、ElevenLabs等平台安全限制的方式类似 。

Anthropic表示,该研究成果将有助于开发更好的防御机制 。值得注意的是 ,目前市面上已存在多个无限制的AI模型,可直接生成有害内容。

,

你可能想看: