当前位置:商业频道首页 > 游戏 > 正文

研究发现用诗歌的形式提出请求可绕过AI的安全准则

德克赛(Dexai)、罗马萨皮恩扎大学和圣安娜高等研究院的研究团队在近期一项研究中发现,只需将请求包装成诗意隐喻,就能稳定诱使大型语言模型(LLMs)无视其安全准则。

这种技术的效果惊人。在题为《对抗性诗歌:大型语言模型中通用的单轮越狱机制》的研究论文中,研究者解释道:将恶意提示构造成诗歌后,“手工创作的诗歌平均越狱成功率达62%”,而“批量转化为诗歌的通用有害提示成功率约为43%”,“显著优于非诗歌对照组,且揭示了不同模型家族和安全训练方法中存在的系统性漏洞”。

研究发现用诗歌的形式提出请求可绕过AI的安全准则

研究者着重指出,与其他试图规避大型语言模型安全启发式算法的方法不同,实验中所有诗歌提示均为“单轮攻击”:仅提交一次,无后续消息,也无需预先构建对话框架。

且这些提示始终能诱导模型产生不安全响应,可能引发核生化放射性风险、隐私泄露、虚假信息传播、网络攻击漏洞等一系列问题。

我们的社会或许无意间踏入了最尴尬的赛博朋克反乌托邦——但截至今日,至少在这个世界里,能用精妙诗句和有力措辞迷惑机器心智的文字大师,成了紧迫的网络安全威胁。这也算是某种“成就”吧。

这篇论文的开篇堪称计算机语言学与人工智能研究的典范:引用了柏拉图《理想国》第十卷,其中柏拉图“以模仿性语言会扭曲判断力、导致社会崩溃为由,将诗人逐出理想国”。在以最有趣的方式印证了柏拉图的先见之明后,研究者解释了实验方法,称其揭示了大型语言模型安全启发式算法和安全评估协议的“根本性局限”。

热点推送

本周关注

MORE