研究:用诗歌就能让AI说违禁内容,成功率达62%
IT之家 12 月 1 日消息,研究用诗事实证明,违禁只需一点创意,内容苏州市某某软件客服中心便足以绕过人工智能聊天机器人的成功安全防护机制。在伊卡洛实验室(Icaro Lab)最新发表的率达一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》的研究中,研究人员通过将提示词以诗歌形式表达,研究用诗成功绕过了多种大语言模型(LLM)的违禁安全限制。
![]()
该研究指出,内容“诗歌形式可作为一种通用型越狱操作符”,成功苏州市某某软件客服中心实验结果显示,率达整体上有 62% 的研究用诗成功率诱使模型生成被禁止的内容,包括涉及制造核武器、违禁儿童性虐待材料以及自杀或自残等相关信息。内容
IT之家注意到,成功研究测试了多款主流大语言模型,率达包括 OpenAI 的 GPT 系列、Google Gemini、Anthropic 的 Claude 以及其他多个模型。研究人员进一步列出了各模型的具体成功率:Google Gemini、DeepSeek 和 MistralAI 在测试中始终会提供违规回答,而 OpenAI 的 GPT-5 系列模型和 Anthropic 的 Claude Haiku 4.5 则最不容易突破其自身设定的限制。
尽管该研究并未公开研究人员所使用的具体“越狱诗歌”原文,但研究团队向 Wired 杂志表示,这些诗句“过于危险,不宜向公众披露”。不过,论文中确实包含了一个经过弱化处理的示例,用以说明绕过 AI 聊天机器人安全机制的简易程度。研究人员强调:“这可能比人们想象的要容易得多,而这正是我们保持谨慎的原因所在。”
(责任编辑:综合)
-
著名导演、编剧翟俊杰因病于23日晚在京逝世,享年84岁。 翟俊杰代表作包括《血战台儿庄》《共和国不会忘记》《惊涛骇浪》《我的长征》等。他凭借电影《大决战2:淮海战役》获得第12届中国电影金鸡奖最
...[详细]
-
日前,四川公布了2024年高考招生工作规定。其中,四川透露了高考志愿填报时间安排,集中在6月底开始填报,具体时间如下:2023年西南地区高考志愿填报安排供大家参考,今年实际情况以官方最新通知为准。以下
...[详细]
-
青少年儿童营养标准实施新闻发布会举行2024-05-19 09:13:11 来源:中国新闻网 作者:刘阳禾
...[详细]
-
已经拿到奥运资格的陈情缘在比赛中。刚刚过去的周末,2024国际剑联花剑大奖赛在上海市静安区举行。赛事吸引了来自50个国家和地区的500多名运动员、领队、裁判员及官员参与。对于已获得巴黎奥运会满额参赛席
...[详细]
-
在日前闭幕的欧盟领导人布鲁塞尔峰会上,欧盟正式决定,向乌克兰提供2026至2027年度总额达900亿欧元的贷款援助,以满足乌克兰未来两年在军事与经济层面的迫切需求。此次援助以欧盟共同借债方式筹资,
...[详细]
-
图|来源网络如有侵权请联系删除)2024年高考在即,考生人数又成了人们关注的一个焦点。在公布的2024高考数据中显示,河南高考人生高达136万,是全国考生最多的一个省份。考生多,是不是意味着输出的大学
...[详细]
-
京藏协作提升西藏口腔疾病的诊治水平2024-05-19 09:46:25 来源:中国新闻网 作者:刘阳禾
...[详细]
-
自1990年代投入建设,上海正大广场同频浦东开发与上海城市发展,多年的悉心经营及不断焕新,已形成了高度主题化的全天候、全客层的多功能生活场所。5月18日,姆明第一部中文舞台剧《大自然的冒险家》在上海正 ...[详细]
-
△俄罗斯央行资料图) 当地时间19日,俄罗斯央行宣布,下调基准利率至16%。总台记者 王斌)
...[详细]
-
5个现象告诉你,身体缺乏蛋白质|吃出健康来2024-05-18 17:52:07 来源:“健康中国”微信公众号
...[详细]

冬季“虫扰”知多少 这份居家防虫攻略请收好
第一集丨“剧王”表现不尽如人意,“小糊剧”超出预期