研究:用诗歌就能让AI说违禁内容,成功率达62%
IT之家 12 月 1 日消息,研究用诗事实证明,违禁只需一点创意,内容渭南市某某实业有限公司便足以绕过人工智能聊天机器人的成功安全防护机制。在伊卡洛实验室(Icaro Lab)最新发表的率达一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》的研究中,研究人员通过将提示词以诗歌形式表达,研究用诗成功绕过了多种大语言模型(LLM)的违禁安全限制。
![]()
该研究指出,内容“诗歌形式可作为一种通用型越狱操作符”,成功渭南市某某实业有限公司实验结果显示,率达整体上有 62% 的研究用诗成功率诱使模型生成被禁止的内容,包括涉及制造核武器、违禁儿童性虐待材料以及自杀或自残等相关信息。内容
IT之家注意到,成功研究测试了多款主流大语言模型,率达包括 OpenAI 的 GPT 系列、Google Gemini、Anthropic 的 Claude 以及其他多个模型。研究人员进一步列出了各模型的具体成功率:Google Gemini、DeepSeek 和 MistralAI 在测试中始终会提供违规回答,而 OpenAI 的 GPT-5 系列模型和 Anthropic 的 Claude Haiku 4.5 则最不容易突破其自身设定的限制。
尽管该研究并未公开研究人员所使用的具体“越狱诗歌”原文,但研究团队向 Wired 杂志表示,这些诗句“过于危险,不宜向公众披露”。不过,论文中确实包含了一个经过弱化处理的示例,用以说明绕过 AI 聊天机器人安全机制的简易程度。研究人员强调:“这可能比人们想象的要容易得多,而这正是我们保持谨慎的原因所在。”
(责任编辑:探索)
-
2025年世界羽联年终总决赛今日进入第5个比赛日,5个单项将决出年终冠军,中国队在混双、女单、男单、男双4项中闯入决赛,力拼4金。 🏸 今日焦点战 混双 冯彦哲/黄东萍 VS 蒋振邦/魏雅
...[详细]
-
在经历了《哈尔滨1944》口碑翻车,《火锅》票房低迷狼狈撤档之后,作为主演的杨幂变得格外低调。近日,正在拍摄新剧的她被发现前往香港,还被路人曝光偶遇的相关细节,成为了当日的热议话题。某博主在平台分享与
...[详细]
-
【编者按】2024年,中国体育即将直面巴黎奥运会。4月17日,巴黎奥运会进入倒计时100天的节点。在周围强敌环伺的背景下,中国各项运动该如何突围?我们有哪些自己的优势,我们近来的大赛战绩如何,对手实力
...[详细]
-
罗德里上次在曼城输球是去年2月份,自那以来曼联已输掉24场比赛
直播吧5月7日讯 在英超第36轮比赛中,曼联客场0-4不敌水晶宫。据Squawka统计,罗德里上次在代表曼城出战的比赛中输球要追溯到2023年2月不敌热刺,而自那时候以来同城对手曼联已经输掉了24场各
...[详细]
-
来源:台海网 民进党“大罢免”失利后,根据台媒报道,蔡英文已在其办公室低调运作“准智库级”公共政策读书会数月,也重新启动“想想论坛”,希望以政策论述回应社会争点。 针对赖清德的民调若下滑,会换
...[详细]
-
文案|罗生编辑|喵三三随着《浪姐5》的不断更新,姐姐们的人气忽上忽下,变数相当大,甚至很可能因为一个反应或者一句话都会影响观众的评价。就比如录节目前戚薇的路人缘算是所有姐姐中最好的存在。但录制节目过后
...[详细]
-
文案|罗生编辑|喵三三《浪姐5》第一次公演落下帷幕,韩懿莹和李溪芮遗憾淘汰出局。两人临走前姐姐们也是以泪相送,场面让观众心里不是滋味。但选秀节目向来如此,有人欢喜有人忧,“小透明”选手只有被淘汰的份。
...[详细]
-
【编者按】2024年,中国体育即将直面巴黎奥运会。4月17日,巴黎奥运会进入倒计时100天的节点。在周围强敌环伺的背景下,中国各项运动该如何突围?我们有哪些自己的优势,我们近来的大赛战绩如何,对手实力
...[详细]
-
新华社北京12月24日电记者尚昊、李寒芳)12月24日,国务院台办举行例行新闻发布会。有记者问,近日,台行政部门通过所谓“国安法”等修法草案,称对宣扬对台湾发动战争或采取非和平手段消灭所谓“中华民
...[详细]
-
北京时间5月7日下午,第八届“庐阳-志邦杯”中日韩三国围棋名人混双赛进行了两场半决赛的比拼。两盘的胜率均为过山车一般几经反转,柯洁/於之莹执白遭朴廷桓/崔精逆转,李轩豪/李赫则逆转战胜一力辽/藤泽里菜
...[详细]

国家安全机关提示:年终收官,安全红线须警惕