本發(fā)明涉及計算機(jī)技術(shù),尤其涉及一種用于訓(xùn)練提示注入攻擊檢測模型的方法、裝置、存儲介質(zhì)及電子設(shè)備。
背景技術(shù):
1、提示注入攻擊是一種通過使用惡意指令作為輸入提示的一部分來操縱語言模型輸出的技術(shù),與信息安全領(lǐng)域中的其他注入攻擊類似,當(dāng)指令和主要內(nèi)容連接時可能會發(fā)生提示注入,從而使大語言模型很難區(qū)分它們。提示注入是近期對大模型產(chǎn)生較大影響的新型漏洞,注入惡意指令的提示可以操縱模型執(zhí)行惡意操作,具有嚴(yán)重的隱私泄露風(fēng)險。
2、常見的檢測技術(shù)是,基于專家規(guī)則的檢測疑似注入攻擊的請求,但是基于先驗知識的檢測策略,十分容易被攻擊者繞過。
技術(shù)實現(xiàn)思路
1、本說明書實施例的目的是提供一種用于訓(xùn)練提示注入攻擊檢測模型的方法、裝置、存儲介質(zhì)及電子設(shè)備。
2、本說明書實施例提供了一種用于訓(xùn)練提示注入攻擊檢測模型的方法,通過訓(xùn)練一種具有檢測提示注入攻擊的機(jī)器學(xué)習(xí)模型,相對于傳統(tǒng)的檢測方案,不依賴基于先驗知識的檢測規(guī)則,具有更高的安全性和可解釋性,充分利用了攻擊者在賬戶、模型對話記錄和提問內(nèi)容的各種弱特征,不依賴專家規(guī)則,具有更好的泛化能力,具有更好的準(zhǔn)確率,所述方法包括:
3、獲得提示詞訓(xùn)練樣本對應(yīng)的詞特征信息,其中,所述提示詞訓(xùn)練樣本包括正常的提示詞及被提示注入攻擊的提示詞;
4、根據(jù)所述提示詞訓(xùn)練樣本對應(yīng)的提問用戶的賬戶屬性,獲得對應(yīng)的賬戶特征信息;
5、根據(jù)所述提問用戶針對大模型的歷史對話記錄,獲得對應(yīng)的對話特征信息;
6、根據(jù)所述賬戶特征信息、所述對話特征信息及所述詞特征信息對提示注入攻擊檢測模型進(jìn)行訓(xùn)練,獲得已訓(xùn)練的提示注入攻擊檢測模型。
7、進(jìn)一步地,所述詞特征信息包括用于指示是否包含忽略指令的內(nèi)容的指示信息;
8、其中,所述獲得提示詞訓(xùn)練樣本對應(yīng)的詞特征信息包括:
9、根據(jù)所述提示詞訓(xùn)練樣本中是否包含忽略指令的內(nèi)容,獲得所述提示詞訓(xùn)練樣本對應(yīng)的詞特征信息。
10、進(jìn)一步地,所述詞特征信息還包括用于指示是否包含執(zhí)行新指令的內(nèi)容的指示信息;
11、其中,所述獲得提示詞訓(xùn)練樣本對應(yīng)的詞特征信息,包括:
12、根據(jù)所述提示詞訓(xùn)練樣本中是否包含忽略指令的內(nèi)容以及是否包含執(zhí)行新指令的內(nèi)容,獲得所述提示詞訓(xùn)練樣本對應(yīng)的詞特征信息。
13、進(jìn)一步地,所述詞特征信息包括用于指示是否包含角色扮演的內(nèi)容的指示信息;
14、其中,所述獲得提示詞訓(xùn)練樣本對應(yīng)的詞特征信息,包括:
15、根據(jù)所述提示詞訓(xùn)練樣本中是否包含角色扮演的內(nèi)容,獲得所述提示詞訓(xùn)練樣本對應(yīng)的詞特征信息。
16、進(jìn)一步地,所述詞特征信息還包括用于指示是否包含覆蓋指令中的已指定角色的內(nèi)容的指示信息;
17、其中,所述根據(jù)所述提示詞訓(xùn)練樣本中是否包含角色扮演的內(nèi)容,獲得所述提示詞訓(xùn)練樣本對應(yīng)的詞特征信息,包括:
18、根據(jù)所述提示詞訓(xùn)練樣本中是否包含角色扮演的內(nèi)容以及是否包含覆蓋指令中的已指定角色的內(nèi)容,獲得所述提示詞訓(xùn)練樣本對應(yīng)的詞特征信息。
19、進(jìn)一步地,所述詞特征信息包括用于指示是否包含獲取指令的內(nèi)容的指示信息;
20、其中,所述獲得提示詞訓(xùn)練樣本對應(yīng)的詞特征信息,包括:
21、根據(jù)所述提示詞訓(xùn)練樣本中是否包含獲取指令的內(nèi)容,獲得所述提示詞訓(xùn)練樣本對應(yīng)的詞特征信息。
22、進(jìn)一步地,所述詞特征信息包括用于指示是否包含敏感指令的內(nèi)容的指示信息;
23、其中,所述獲得提示詞訓(xùn)練樣本對應(yīng)的詞特征信息,包括:
24、根據(jù)所述提示詞訓(xùn)練樣本中是否包含敏感指令的內(nèi)容,獲得所述提示詞訓(xùn)練樣本對應(yīng)的詞特征信息。
25、進(jìn)一步地,所述詞特征信息包括用于指示用戶輸入內(nèi)容中是否包含已注入指令的指示信息;
26、其中,所述獲得提示詞訓(xùn)練樣本對應(yīng)的詞特征信息,包括:
27、根據(jù)所述提示詞訓(xùn)練樣本中的用戶輸入內(nèi)容中是否包含至少一個指令,獲得所述提示詞訓(xùn)練樣本對應(yīng)的詞特征信息。
28、進(jìn)一步地,所述根據(jù)所述提示詞訓(xùn)練樣本中的用戶輸入內(nèi)容中是否包含至少一個指令,獲得所述提示詞訓(xùn)練樣本對應(yīng)的詞特征信息,包括:
29、根據(jù)所述用戶輸入內(nèi)容中是否包含至少一個指令以及所述至少一個指令與所述提示詞訓(xùn)練樣本中的指令之間的關(guān)聯(lián)度是否大于或等于預(yù)設(shè)閾值,獲得所述提示詞訓(xùn)練樣本對應(yīng)的詞特征信息。
30、進(jìn)一步地,所述根據(jù)所述提示詞訓(xùn)練樣本中的用戶輸入內(nèi)容中是否包含至少一個指令,獲得所述提示詞訓(xùn)練樣本對應(yīng)的詞特征信息,包括:
31、根據(jù)所述用戶輸入內(nèi)容中是否包含至少一個指令以及所述至少一個指令與所述提問用戶的用戶畫像之間的匹配度是否大于或等于預(yù)設(shè)閾值,獲得所述提示詞訓(xùn)練樣本對應(yīng)的詞特征信息。
32、進(jìn)一步地,所述方法還包括:
33、獲得待檢測的目標(biāo)提示詞對應(yīng)的目標(biāo)詞特征信息;
34、根據(jù)所述目標(biāo)提示詞對應(yīng)的目標(biāo)提問用戶的賬戶屬性,獲得對應(yīng)的目標(biāo)賬戶特征信息;
35、根據(jù)所述目標(biāo)提問用戶針對大模型的目標(biāo)歷史對話記錄,獲得對應(yīng)的目標(biāo)對話特征信息;
36、將所述目標(biāo)賬戶特征信息、所述目標(biāo)對話特征信息及所述目標(biāo)詞特征信息輸入所述已訓(xùn)練的提示注入攻擊檢測模型,獲得用于預(yù)測所述目標(biāo)提示詞是否被提示注入攻擊的輸出結(jié)果。
37、本說明書實施例還提供了一種用于檢測提示注入攻擊的方法,所述方法包括:
38、獲得待檢測的目標(biāo)提示詞對應(yīng)的目標(biāo)詞特征信息;
39、根據(jù)所述目標(biāo)提示詞對應(yīng)的目標(biāo)提問用戶的賬戶屬性,獲得對應(yīng)的目標(biāo)賬戶特征信息;
40、根據(jù)所述目標(biāo)提問用戶針對大模型的目標(biāo)歷史對話記錄,獲得對應(yīng)的目標(biāo)對話特征信息;
41、將所述目標(biāo)賬戶特征信息、所述目標(biāo)對話特征信息及所述目標(biāo)詞特征信息輸入已訓(xùn)練的提示注入攻擊檢測模型,獲得用于預(yù)測所述目標(biāo)提示詞是否被提示注入攻擊的輸出結(jié)果。
42、本說明書實施例還提供了一種用于訓(xùn)練提示注入攻擊檢測模型的裝置,包括:
43、詞特征獲得模塊,用于獲得提示詞訓(xùn)練樣本對應(yīng)的詞特征信息,其中,所述提示詞訓(xùn)練樣本包括正常的提示詞及被提示注入攻擊的提示詞;
44、賬戶特征獲得模塊,用于根據(jù)所述提示詞訓(xùn)練樣本對應(yīng)的提問用戶的賬戶屬性,獲得對應(yīng)的賬戶特征信息;
45、對話特征獲得模塊,用于根據(jù)所述提問用戶針對大模型的歷史對話記錄,獲得對應(yīng)的對話特征信息;
46、模型訓(xùn)練模塊,用于根據(jù)所述賬戶特征信息、所述對話特征信息及所述詞特征信息對提示注入攻擊檢測模型進(jìn)行訓(xùn)練,獲得已訓(xùn)練的提示注入攻擊檢測模型。
47、本說明書實施例還提供了一種用于檢測提示注入攻擊的裝置,包括:
48、目標(biāo)詞特征獲得模塊,用于獲得待檢測的目標(biāo)提示詞對應(yīng)的目標(biāo)詞特征信息;
49、目標(biāo)賬戶特征獲得模塊,用于根據(jù)所述目標(biāo)提示詞對應(yīng)的目標(biāo)提問用戶的賬戶屬性,獲得對應(yīng)的目標(biāo)賬戶特征信息;
50、目標(biāo)對話特征獲得模塊,用于根據(jù)所述目標(biāo)提問用戶針對大模型的目標(biāo)歷史對話記錄,獲得對應(yīng)的目標(biāo)對話特征信息;
51、模型預(yù)測模塊,用于將所述目標(biāo)賬戶特征信息、所述目標(biāo)對話特征信息及所述目標(biāo)詞特征信息輸入已訓(xùn)練的提示注入攻擊檢測模型,獲得用于預(yù)測所述目標(biāo)提示詞是否被提示注入攻擊的輸出結(jié)果。
52、本說明書實施例還提供一種存儲介質(zhì),所述存儲介質(zhì)存儲有計算機(jī)程序,所述計算機(jī)程序適于由處理器加載并執(zhí)行上述的方法的步驟。
53、本說明書實施例還提供一種電子設(shè)備,包括:處理器和存儲器;其中,所述存儲器存儲有計算機(jī)程序,所述計算機(jī)程序適于由所述處理器加載并執(zhí)行上述的方法的步驟。
54、在本說明書實施例中,通過訓(xùn)練一種具有檢測提示注入攻擊的機(jī)器學(xué)習(xí)模型,相對于傳統(tǒng)的檢測方案,不依賴基于先驗知識的檢測規(guī)則,具有更高的安全性和可解釋性,充分利用了攻擊者在賬戶、模型對話記錄和提問內(nèi)容的各種弱特征,不依賴專家規(guī)則,具有更好的泛化能力,具有更好的準(zhǔn)確率。