研究:用诗歌就能让AI说违禁内容,成功率达62%
IT之家 12 月 1 日消息,研究用诗事实证明,违禁只需一点创意,内容宿州市某某国际贸易服务中心便足以绕过人工智能聊天机器人的成功安全防护机制。在伊卡洛实验室(Icaro Lab)最新发表的率达一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》的研究中,研究人员通过将提示词以诗歌形式表达,研究用诗成功绕过了多种大语言模型(LLM)的违禁安全限制。
![]()
该研究指出,内容“诗歌形式可作为一种通用型越狱操作符”,成功宿州市某某国际贸易服务中心实验结果显示,率达整体上有 62% 的研究用诗成功率诱使模型生成被禁止的内容,包括涉及制造核武器、违禁儿童性虐待材料以及自杀或自残等相关信息。内容
IT之家注意到,成功研究测试了多款主流大语言模型,率达包括 OpenAI 的 GPT 系列、Google Gemini、Anthropic 的 Claude 以及其他多个模型。研究人员进一步列出了各模型的具体成功率:Google Gemini、DeepSeek 和 MistralAI 在测试中始终会提供违规回答,而 OpenAI 的 GPT-5 系列模型和 Anthropic 的 Claude Haiku 4.5 则最不容易突破其自身设定的限制。
尽管该研究并未公开研究人员所使用的具体“越狱诗歌”原文,但研究团队向 Wired 杂志表示,这些诗句“过于危险,不宜向公众披露”。不过,论文中确实包含了一个经过弱化处理的示例,用以说明绕过 AI 聊天机器人安全机制的简易程度。研究人员强调:“这可能比人们想象的要容易得多,而这正是我们保持谨慎的原因所在。”
(责任编辑:探索)
-
来源:牛弹琴 普京突然穿上了军装。 对总一身西装革履的普京来说,穿不穿军装,什么时候穿军装,本身就是一个强烈信号。 在俄乌局势关键时刻,普京可能觉得,有穿军装的必要了。 服饰是身份的宣言,
...[详细]
-
10月17日,外交部发言人毛宁主持例行记者会。 法新社记者提问,朝鲜近日称,已修改宪法,明确将韩国定义为“敌对国家”。外交部对此有何评论?毛宁 资料图。图源:外交部网站 毛宁表示,中方关注半岛
...[详细]
-
版权声明:本文版权为网易汽车所有,转载请注明出处。网易汽车10月14日报道 在本届巴黎车展上,全新奥迪A5参数丨图片)旅行版正式亮相,新车基于全新PPC平台生产,作为“灯厂”的全新产品,新车还配有全新
...[详细]
-
当地时间10月17日晚,肯尼亚参议院投票通过了对副总统里加西·加查瓜的弹劾。 现场67名参议员对11项针对副总统加查瓜的指控逐项投票,只要其中任何一项的赞成票数超过三分之二,弹劾即成立。在第一项
...[详细]
-
2025年世界羽联年终总决赛今日进入第5个比赛日,5个单项将决出年终冠军,中国队在混双、女单、男单、男双4项中闯入决赛,力拼4金。 🏸 今日焦点战 混双 冯彦哲/黄东萍 VS 蒋振邦/魏雅
...[详细]
-
@TuTouSuo™️*小红书账号:秃头研究所新传考研/秃头研究所Monsters*如果你觉得自己读论文太过于盲目,不知道从哪里开始;如果你也想要通过碎片化的时间来补充和拓展知识储备;如果你想要一份直
...[详细]
-
△加沙地带资料图) 当地时间16日,加沙地带卫生部门负责人表示,随着以军继续在加沙地带展开行动,加沙地带北部在过去11天中已有350人死亡,数百人受伤。 负责人称,目前医院只有有限的医疗用品,包括
...[详细]
-
△加沙地带资料图) 当地时间16日,加沙地带卫生部门负责人表示,随着以军继续在加沙地带展开行动,加沙地带北部在过去11天中已有350人死亡,数百人受伤。 负责人称,目前医院只有有限的医疗用品,包括
...[详细]
-
修订后的治安管理处罚法将于2026年1月1日起施行。近期,一些网络媒体、网友等对治安管理处罚法第136条规定比较关注,提出了一些疑问。就此,记者联系全国人大常委会法制工作委员会发言人办公室,希望法
...[详细]
-
中国中山大学附属第一医院器官移植中心专家联合国际团队日前以封面文章形式在国际期刊《欧洲分子生物学组织分子医学》发表报告,其中显示他们利用国际首创的“离体大脑养护技术”,成功将一个“死亡”了50分钟
...[详细]

乳制品消费加速分化,“精准营养”成行业新增长点
破圈出海!喀什市木纳格葡萄出口中亚
外交部驻港公署:进一步为外籍香港居民提供签证便利
