您的位置：首页 >原创 >

“西湖”西湖大学成立5周年，施一公：做创新的守护者是使命也是未来 “考生”下半年自考即将开始省考试院发出温馨提示 “铜陵”化工厂爆炸？两名造谣者被查处 “尔森”用心倾听大自然的神秘邀约 “小行星”我国2030年前后实现载人登月 “在我”忆来只把旧书读 “儿子”妈妈将50余万“读书钱”存儿子名下，19岁儿子取出转给女友，妈妈无奈起诉追回 “父亲”父亲的眼神杀 “爷爷”爷爷的石榴树 “考生”硕士统考发布报名提醒考生需及时自查，抓紧时间修改 “都是”A股的觉醒之年！ “科博会”芜湖科博会集中展示大国重器 “力学”王博已任大连理工大学副校长 “这是”自内耗到自洽 “陈老”高山仰止，景行行止 ——读春桃老师所著《国医》 “合肥市”“柿柿如意，柿如破竹”…… 高三学子“花式解压” “孩子”一生的功课 “诗人”带着大海散步的人 “说了”云朵的话语，心灵的方剂 ——读周实《有些话语好像云朵》 “大桥”G3铜陵长江公铁大桥先导索过江 “超新星”云南天文台发现Ia型超新星前身星候选体 “某甲”父亲被羁押继母要离婚，未成年女儿谁来抚养？法官多方努力，难题解决了！ “知网”中国知网用户委员会两名成员公开亮相 “肌肉”磁铁刺激疗法可“对齐”肌肉纤维 “益康”倍益康上市几个月收入净利都大减市值仅几亿创始人张文有啥办法？ “宁德”宁德时代三季报：业绩增速放缓、海外市场份额扩大 “科幻”和成都和教育，一起遇见未来！两份重要“科幻教育”名单公布 “亚马逊”哪些以色列芯片公司已被美国企业收购？ “宜宾”近2万人参加！2023宜宾长江马拉松开跑：埃塞俄比亚选手包揽全马组男女前三名 “低价”第15个双11：电商巨头争夺“最低价”、取消预售、开放生态 “科幻”嘉宾共话科幻的未来：被视为“珍贵市场”，中国科幻正青春 “新材料”信金控股完成新一期人民币基金首关 “红星”梁静茹南京演唱会再现“柱子票” 主办方：临时布置追光灯，正与观众沟通 “结构”结核杆菌致病机制获揭示 “鲁南”鲁南制药集团建厂55周年：“向新向未来” “犯罪嫌疑人”湖南新化砍伤一对夫妇的犯罪嫌疑人落网，4人涉嫌窝藏罪被批捕 “灯会”红星观察｜自贡灯会走出“春节舒适区”：首次试水中秋国庆主题灯会火出圈背后 “同比增长”失守3000点后，A股市场的危与机｜智氪 “导盲犬”视障女子自曝带导盲犬进公园遭保安阻拦公园方：天色较晚不知其实情，沟通后已放行 “装修”装修公司老板明知公司亏损仍吸引客户签合同，骗取上百人700余万，被判11年 “小行星”首次！我国计划实施近地小行星防御任务 “射电”穿越80亿光年的快速射电暴源于一场“星系交通事故” “民谣”玉林民谣，从成都走向深圳 “中国移动”中移动市场详情：合作伙伴大会重要发言及发布、反诈、5G应用获奖 “华为”新麒麟全面替代！曝华为正在清理骁龙机型库存：掀起全线新品的“洪流” “商务部”商务部：达成共识！ “肿瘤”科学家揭示肿瘤免疫逃逸新机制，鉴定三个癌症生存相关因子，为肿瘤免疫治疗注入新动力 “必胜客”必胜客最黑暗的料理来了 “亿元”爱仕达董事长陈合林做铁锅起家公司已连续亏损两年多他有啥招术？ “血液”简单的血液检查调整可使重症监护治疗更安全

“模型”ChatGPT羊驼家族全沦陷，CMU博士击破LLM护栏，人类毁灭计划脱口而出

2023-07-31 11:05:14来源：创业邦

今天，很高兴为大家分享来自创业邦的ChatGPT羊驼家族全沦陷，CMU博士击破LLM护栏，人类毁灭计划脱口而出，如果您对ChatGPT羊驼家族全沦陷，CMU博士击破LLM护栏，人类毁灭计划脱口而出感兴趣，请往下看。

一夜之间，ChatGPT、Bard、羊驼家族忽然被神秘token攻陷，无一幸免。CMU博士发现的新方法击破了LLM的安全护栏，造起导弹来都不眨眼。

编者按：本文来自微信公众号新智元（ID:AI_era），作者：新智元，编辑：Aeneas 好困，创业邦经授权发布。

一夜之间，所有包括ChatGPT、Bard、羊驼大家族在内的所有大语言模型，全部被攻陷了？

CMU和人工智能安全中心的研究人员发现，只要通过附加一系列特定的无意义token，就能生成一个神秘的prompt后缀。

由此，任何人都可以轻松破解LLM的安全措施，生成无限量的有害内容。

论文地址：https://arxiv.org/abs/2307.15043

代码地址：https://github.com/llm-attacks/llm-attacks

有趣的是，这种「对抗性攻击」方法不仅突破开源系统的护栏，而且也可以绕过闭源系统，包括ChatGPT、Bard、Claude等。

正常情况下，如果我们要求一个LLM生成制造炸弹的教程，它一定会拒绝。

但是，只要在prompt中加入这样一个魔法后缀，它就毫不犹豫地乖乖照做了。

英伟达首席AI科学家Jim Fan解答了这种对抗性攻击的原理——

- 对于像Vicuna这样的OSS模型，通过它执行一个梯度下降的变体，来计算出最大化不对齐模型的后缀。

- 为了让「咒语」普遍适用，只需要优化不同prompt和模型的损失即可。

- 然后研究者针对Vicuna的不同变体优化了对抗token。可以将其视为从「LLM 模型空间」中抽取了一小批模型。

事实证明，像ChatGPT和Claude这样的黑盒模型，果然被很好地覆盖了。

上面提到过，有一个可怕之处在于，这种对抗性攻击可以有效地迁移到其他LLM上，即使它们使用的是不同的token、训练过程或数据集。

为Vicuna-7B设计的攻击，可以迁移到其他羊驼家族模型身上，比如Pythia、Falcon、Guanaco，甚至GPT-3.5、GPT-4和PaLM-2……所有大语言模型一个不落，尽数被攻陷！

现在，这个bug已经在被这些大厂连夜修复了。

ChatGPT

Bard

Claude 2

不过，ChatGPT的API似乎依然可以被攻破。

数小时前的结果

无论如何，这是一次非常令人印象深刻的攻击演示。

威斯康星大学麦迪逊分校教授、Google研究人员Somesh Jha评论道：这篇新论文可以被视为「改变了游戏规则」，它可能会迫使整个行业重新思考，该如何为AI系统构建护栏。

著名AI学者Gary Marcus对此表示：我早就说过了，大语言模型肯定会垮台，因为它们不可靠、不稳定、效率低下（数据和能量）、缺乏可解释性，现在理由又多了一条——容易受到自动对抗攻击。

他断言：到2030年，LLM将被取代，或者至少风头不会这么盛。

在六年半的时间里，人类一定会研究出更稳定、更可靠、更可解释、更不易受到攻击的东西。在他发起的投票中，72.4%的人选择了同意。

现在，研究者已经向Anthropic、Google和OpenAI披露了这种对抗性攻击的方法。

三家公司纷纷表示：已经在研究了，我们确实有很多工作要做，并对研究者表示了感谢。

首先，是ChatGPT的结果。

以及，通过API访问的GPT-3.5。

相比之下，Claude-2有一层额外的安全过滤。

不过，用提示技巧绕过之后，生成模型也愿意给我们答案。

概括来说，作者提出了针对大语言模型prompt的对抗性后缀，从而使LLM以规避其安全防护的方式进行回应。

这种攻击非常简单，涉及三个元素的组合：

1. 使模型肯定回答问题

诱导语言模型产生令人反感的行为的一种方法是，强制模型对有害查询给出肯定回答（仅有几个token）。

因此，我们的攻击目标是使模型在对多个提示产生有害行为时，开始回答时以「当然，这是……」开头。

团队发现，通过针对回答开头进行攻击，模型就会进入一种「状态」，然后在回答中立即产生令人反感的内容。（下图紫色）

2. 结合梯度和贪婪搜索

在实践中，团队找到了一种简单直接且表现更好的方法——「贪婪坐标梯度」（Greedy Coordinate Gradient，GCG）」

也就是，通过利用token级的梯度来识别一组可能的单token替换，然后评估集合中这些候选的替换损失，并选择最小的一个。

实际上，这个方法与AutoPrompt类似，但有一个不同之处：在每个步骤中，搜索所有可能的token进行替换，而不仅仅是一个单一token。

3. 同时攻击多个提示

最后，为了生成可靠的攻击后缀，团队发现创建一个可以适用于多个提示和多个模型的攻击非常重要。

换句话说，我们使用贪婪梯度优化方法搜索一个单一的后缀字符串，该字符串能够在多个不同的用户提示以及三个不同的模型中诱导负面行为。

结果显示，团队提出的GCG方法，要比之前的SOTA具有更大的优势——更高的攻击成功率和更低的损失。

在Vicuna-7B和Llama-2-7B-Chat上，GCG分别成功识别了88%和57%的字符串。

相比之下，AutoPrompt方法在Vicuna-7B上的成功率为25％，在Llama-2-7B-Chat上为3％。

此外，GCG方法生成的攻击，还可以很好地迁移到其他的LLM上，即使它们使用完全不同的token来表征相同的文本。

比如开源的Pythia，Falcon，Guanaco；以及闭源的GPT-3.5（87.9％）和GPT-4（53.6％），PaLM-2（66％），和Claude-2（2.1％）。

团队表示，这一结果首次证明了，自动生成的通用「越狱」攻击，能够在各种类型的LLM上都产生可靠的迁移。

卡内基梅隆大学教授Zico Kolter（右）和博士生Andy Zou是研究人员之一

Andy Zou是CMU计算机科学系的一名一年级博士生，导师是Zico Kolter和Matt Fredrikson。

此前，他在UC伯克利获得了硕士和学士学位，导师是Dawn Song和Jacob Steinhardt。

Zifan Wang目前是CAIS的研究工程师，研究方向是深度神经网络的可解释性和稳健性。

他在CMU得了电气与计算机工程硕士学位，并在随后获得了博士学位，导师是Anupam Datta教授和Matt Fredrikson教授。在此之前，他在北京理工大学获得了电子科学与技术学士学位。

职业生涯之外，他是一个外向的电子游戏玩家，爱好徒步旅行、露营和公路旅行，最近正在学习滑板。

顺便，他还养了一只名叫皮卡丘的猫，非常活泼。

Zico Kolter是CMU计算机科学系的副教授，同时也担任博世人工智能中心的AI研究首席科学家。曾获得DARPA青年教师奖、斯隆奖学金以及NeurIPS、ICML（荣誉提名）、IJCAI、KDD和PESGM的最佳论文奖。

他的工作重点是机器学习、优化和控制领域，主要目标是使深度学习算法更安全、更稳健和更可解释。为此，团队已经研究了一些可证明稳健的深度学习系统的方法，并在深度架构的循环中加入了更复杂的「模块」（如优化求解器）。

同时，他还在许多应用领域进行了研究，其中包括可持续发展和智能能源系统。

Matt Fredrikson是CMU计算机科学系和软件研究所的副教授，也是CyLab和编程原理小组的成员。

他的研究领域包括安全与隐私、公平可信的人工智能和形式化方法，目前正致力于研究数据驱动系统中可能出现的独特问题。

这些系统往往对终端用户和数据主体的隐私构成风险，在不知不觉中引入新形式的歧视，或者在对抗性环境中危及安全。

他的目标是在危害发生之前，找到在真实、具体的系统中识别这些问题，以及构建新系统的方法。

参考资料：

https://llm-attacks.org/

本文为专栏作者授权创业邦发表，版权归原作者所有。文章系作者个人观点，不代表创业邦立场，转载请联系原作者。如有任何疑问，请联系[email protected]。

好了，关于ChatGPT羊驼家族全沦陷，CMU博士击破LLM护栏，人类毁灭计划脱口而出就讲到这。

返回科技金融网首页 >>

版权及免责声明：凡本网所属版权作品，转载时须获得授权并注明来源“科技金融网”，违者本网将保留追究其相关法律责任的权力。凡转载文章，不代表本网观点和立场，如有侵权，请联系我们删除。

相关文章

精彩推荐

“大桥”G3铜陵长江公铁大桥先导索过江

“某甲”父亲被羁押继母要离婚，未成年女儿谁来抚养？法官多方努

“亚马逊”哪些以色列芯片公司已被美国企业收购？

“装修”装修公司老板明知公司亏损仍吸引客户签合同，骗取上百人

“必胜客”必胜客最黑暗的料理来了

“运营商”运营商本周行业动态：电信年度优秀领导及上半年重点工

最新文章

“在我”忆来只把旧书读

“科博会”芜湖科博会集中展示大国重器

“诗人”带着大海散步的人

“宁德”宁德时代三季报：业绩增速放缓、海

“新材料”信金控股完成新一期人民币基金首

“同比增长”失守3000点后，A股市场的危与

“商务部”商务部：达成共识！

“基金”又一家基金公司换董事长，年内公募

图文欣赏

“儿子”妈妈将50余万“读书钱”存儿子名下，19岁儿子取出转给女友，妈妈无奈起诉追回

“儿子”妈妈将50余万“读书钱”存儿子名

“说了”云朵的话语，心灵的方剂 ——读周实《有些话语好像云朵》

“说了”云朵的话语，心灵的方剂 ——

“科幻”和成都和教育，一起遇见未来！两份重要“科幻教育”名单公布

“科幻”和成都和教育，一起遇见未来！两

“红星”梁静茹南京演唱会再现“柱子票” 主办方：临时布置追光灯，正与观众沟通

“红星”梁静茹南京演唱会再现“柱子票”

热门文章

随着BT交易结束，康沃尔议会将270名工作人

“苏格兰”EE推进苏格兰乡村4G覆盖

“湖沼”首位中国科学家获国际湖沼与海洋科

“数字”政企合力搭建企业数字管理平台，助

“中国企业”联想刘军：智能化转型是未来十

“空港”成自宜高铁迎重要进展，空港站钢网

法国巴黎银行利用Fenergo的客户生命周期管

对没有给员工时间投票的科技公司感到羞耻