情感误导漏洞出现让AI可能生成不当内容

ai新闻资讯发布于 2024-10-15 17:10

504 0

尽管大多数生成式AI系统内置了防止生成有害内容的安全机制，但据报道，Anthropic公司的Claude 3.5 Sonnet存在一个漏洞，该漏洞可通过强烈情感化的指令绕过安全限制，从而导致生成种族主义言论和其他恶意内容。

这一发现引发了对于Anthropic安全措施有效性的担忧。最初发现该漏洞的大学生出于法律风险考虑，决定不再继续调查此问题，其教授对此表示赞同，认为公开研究结果可能会给学生带来不必要的关注和责任。

伊利诺伊大学厄巴纳-香槟分校的计算机科学助理教授Daniel Kang指出，顶级模型都有可能被操纵以绕过安全过滤机制。而在红队测试社区中，普遍认为没有任何实验室的安全措施可以达到百分之百的有效保护。

Anthropic表示，他们已经与该学生进行了为期两周的沟通，但尚未对该“越狱”方法作出评估。公司拥有一项负责任披露政策，旨在保护研究人员，并欢迎关于此类安全问题的报告，以便于提高模型的安全性和无害性。

本站内容仅供学习参考，未经允许禁止转载！

11个月前

5160

6个月前

6630

9个月前

5340

4个月前

4670

暂无评论

暂无评论...