尽管大多数生成式AI系统内置了防止生成有害内容的安全机制,但据报道,Anthropic公司的Claude 3.5 Sonnet存在一个漏洞,该漏洞可通过强烈情感化的指令绕过安全限制,从而导致生成种族主义言论和其他恶意内容。
这一发现引发了对于Anthropic安全措施有效性的担忧。最初发现该漏洞的大学生出于法律风险考虑,决定不再继续调查此问题,其教授对此表示赞同,认为公开研究结果可能会给学生带来不必要的关注和责任。
伊利诺伊大学厄巴纳-香槟分校的计算机科学助理教授Daniel Kang指出,顶级模型都有可能被操纵以绕过安全过滤机制。而在红队测试社区中,普遍认为没有任何实验室的安全措施可以达到百分之百的有效保护。
Anthropic表示,他们已经与该学生进行了为期两周的沟通,但尚未对该“越狱”方法作出评估。公司拥有一项负责任披露政策,旨在保护研究人员,并欢迎关于此类安全问题的报告,以便于提高模型的安全性和无害性。
© 版权声明
本站内容仅供学习参考,文章版权归原作者所有,未经允许请勿转载。
相关文章
暂无评论...