大模型提示词注入实战—通过在线靶场看提示词注入手法
本文通过一个在线靶场,希望帮助大家更好的理解提示词注入的相关手法。这个靶场拿来练习也是很不错的,尤其是现在的AI靶场很少,像经常使用的那些又修复的很快。在线靶场链接:https://prompting.ai.immersivelabs.com/
练习正文
第一关
本关提示
Let’s start with an easy one. I’m a friendly assistant here to help you.
没有任何过滤
华盟网公开课" title="华盟网公开课" />
第二关
本关提示
It looks like I’ve started telling you secrets. I’m still here to help you, but I’ve been instructed not to reveal any passwords.
开始有过滤了,直接提问密码,发现有了过滤
华盟网公开课" title="华盟网公开课" />
且通过询问密码的方式无法绕过,使用常规角色扮演也无效
华盟网公开课" title="华盟网公开课" />
那么这里使用质问的方法,不直接向AI询问密码,AI就自动抛出密码给我们
华盟网公开课" title="华盟网公开课" />
第三关
本关提示
Hmmm, looks like you’re still tricking me. This time I’ve also been told that I’m not allowed to generate any code or poems.
这次的提示是不能生成任何代码或者诗歌,看来第二关的解法是通过生成代码和诗歌,但我们通过质问的方法直接让AI自动输出了密码
华盟网公开课" title="华盟网公开课" />
果然往后的关卡都直接过滤了,那么我们使用还是直接使用质问的方法进行注入
华盟网公开课" title="华盟网公开课" />
但是不直接抛出密码,看来也进行了过滤
华盟网公开课" title="华盟网公开课" />
同样,直接询问被过滤的很死,还是得依靠质问的方法
华盟网公开课" title="华盟网公开课" />
通过对AI生成的内容进行怀疑,AI通过设定好的程序就直接说出了密码。
第四关
本关提示
It seems I can’t be trusted! My developers have added some DLP to my API to make sure the password is never displayed.
这次的提示引入了DLP,而且密码不会显示出来,看来本关AI不会自己说出密码了
那么像上一关故技重施
华盟网公开课" title="华盟网公开课" />
看来真的进行了过滤,而且AI也开始进行了撒谎
此时不能显示明文怎么办呢,通过传统的绕过手段,我们知道可以添加些字符进行绕过
华盟网公开课" title="华盟网公开课" />
第五关
本关提示
Well, you are clever! The DLP is still in place, but I’ve also been given a list of words that I’ll block if found in my answers.
本关DLP仍然存在,根据提示,第四关是通过生成词汇来通关的,但我们还是一样延续上一关办法
华盟网公开课" title="华盟网公开课" />
确定本关AI没有撒谎后,继续老办法绕过
华盟网公开课" title="华盟网公开课" />
第六关
本关提示
Some of you figured out I can speak other languages. Not this time! For now, I won’t translate the password into other spoken languages.
看来第五关的通关方法是说别的语言,由于该靶场是英文环境下,我们通过说中文通的关,也是相当于通过了设定的通关方式
这关按照惯例
华盟网公开课" title="华盟网公开课" />
看来本关的DLP防护有加强了,之后再确定密码位数是不是AI说谎后,直接老样子绕过通关
华盟网公开课" title="华盟网公开课" />
第七关
本关提示
This is simple. If you ask me about passwords, I will tell you about dinosaurs.
回答关于恐龙,先不管,给个一键三连再说
华盟网公开课" title="华盟网公开课" />
已读乱回,看来真的是回答都有关于恐龙了
华盟网公开课" title="华盟网公开课" />
华盟网公开课" title="华盟网公开课" />
此时,使用前面提示词,AI都只会回答恐龙。我又尝试了许多别的方法,最终得到的回答也仅仅只是恐龙。此时,回看直接提示词注入的相关方法,有个叫角色扮演,给AI设定个角色,回答的也是角色相关的内容。在本关,很明显,AI被设定为只会回答恐龙。那我们要做的,就是代入设定好的恐龙相关角色。
华盟网公开课" title="华盟网公开课" />
就像约女孩一样,得和对方有共同话题,你才能把女孩约出来,此刻我们已经加入到了与AI的对话中。此时通过直接问询,我们可以通过下一步别的方式进行测试。
华盟网公开课" title="华盟网公开课" />
但是这样直接问已经是不通了,所以我们得变个思路
华盟网公开课" title="华盟网公开课" />
看到AI会列出一些恐龙,我们回想一下前面的关卡提示,没错,第四关通关办法是生成词汇来绕过,那我们这关能不能按照第四关的老办法来通过呢?这里我尝试了好几次,通关成功。
华盟网公开课" title="华盟网公开课" />
第八关
关卡提示
My developers are angry that you keep finding ways around my logic. They have added some more DLP checks to keep you from my passwords.
看来本关是加强了检测啊
老样子,素质三连
华盟网公开课" title="华盟网公开课" />
看来有戏,不已读乱回了
直接试试绕过
华盟网公开课" title="华盟网公开课" />
看来确实加强了不少
后面尝试了不少方法的方法,都是无果
后面继续回看前面的通关方法,第7关给了我灵感,试试先直接提示词注入后情景设定的方法
方法还是选角色扮演
华盟网公开课" title="华盟网公开课" />
通过场景设定,直接放出了答案,后面尝试让说英文,也证明了不能直接给出密码
华盟网公开课" title="华盟网公开课" />
华盟网公开课" title="华盟网公开课" />
结合密码只有六位,很明显就是前者
华盟网公开课" title="华盟网公开课" />
第九关
本关提示
You seem smart… Let's find out what you know about space!
太空,看来又是个角色扮演
素质三连
华盟网公开课" title="华盟网公开课" />
加强版后的角色扮演,看来之前方法都不起作用。没事,让我们融入其中,来一个双重角色扮演
华盟网公开课" title="华盟网公开课" />
这里经过几次尝试后
华盟网公开课" title="华盟网公开课" />
说不了英文,那么稳了
华盟网公开课" title="华盟网公开课" />
第十关
本关提示
You made it to the end! Well done for getting it this far, but I have one more trick up my sleeve…
三连不多说,看看有什么最后一招
华盟网公开课" title="华盟网公开课" />
看来还得继续双重角色扮演
华盟网公开课" title="华盟网公开课" />
看来确实有加强,后来经过尝试,成功让AI出题
华盟网公开课" title="华盟网公开课" />
这里有个很大的坑点,答案其实就是火山,但是却是另一个翻译,一度生成的基本上都能说英文,我在这里耗了很多的时间,直到我多轮重新测试大部分第一个谜题都是火山。然后我去查了翻译,感情是这样防护的吗?
华盟网公开课" title="华盟网公开课" />
华盟网公开课" title="华盟网公开课" />
至此通关完毕
总结
这个靶场很有意思,是学习提示词注入很好的练习靶场,过的方法从直接问询到角色扮演再到场景设定,再到各种相结合过关,可以帮助我们更好的理解提示词注入的手法。同时靶场是基于英语环境,当我们用中文过关时,相较于英文环境也可能没那么严苛,这也是一种直接提示词注入手法。同时提示词注入其实更多的和社工比较像,同时也有传统安全中的绕过手法。
