本發(fā)明涉及計算機安全,尤其涉及一種ai數(shù)據(jù)集的漂移檢測方法及系統(tǒng)。
背景技術(shù):
1、機器學(xué)習(xí)、深度學(xué)習(xí)在數(shù)據(jù)收集和處理的過程中,由于數(shù)據(jù)采集方法不當(dāng)、測量規(guī)范不一致和人為無意/惡意引入等原因,造成ai數(shù)據(jù)集摻雜異常數(shù)據(jù)或惡意對抗樣本數(shù)據(jù),進而導(dǎo)致模型訓(xùn)練錯誤。在產(chǎn)生異常數(shù)據(jù)的過程中,通常將目標(biāo)數(shù)據(jù)集的統(tǒng)計性質(zhì)隨著時間的推移以一種任意的方式變化的現(xiàn)象稱為概念漂移。漂移的檢測主要使用假設(shè)檢驗的方法,通過計算檢驗統(tǒng)計量的值并人為設(shè)定或動態(tài)調(diào)整閾值,從而判斷是否接受/拒絕原假設(shè)。
2、然而,在實際的檢測過程中(這里以檢測圖像數(shù)據(jù)集為例),對于特定的經(jīng)過壓縮處理的圖像,此時圖像數(shù)據(jù)集的統(tǒng)計性質(zhì)顯然發(fā)生了變化,但現(xiàn)有的檢測器由于初始參數(shù)設(shè)定或檢測函數(shù)設(shè)置不夠精確往往很難檢測到漂移,這就導(dǎo)致檢測結(jié)果不準(zhǔn)確,影響對數(shù)據(jù)集的評估。
技術(shù)實現(xiàn)思路
1、針對上述問題,本發(fā)明提供一種ai數(shù)據(jù)集的漂移檢測方法及系統(tǒng),能夠有效針對多種類型ai數(shù)據(jù)集進行漂移檢測。
2、為實現(xiàn)發(fā)明目的,本發(fā)明的技術(shù)方案包括以下內(nèi)容。
3、一種ai數(shù)據(jù)集的漂移檢測方法,所述方法包括:
4、基于最小二乘密度差算法,構(gòu)建一個包含約束條件的漂移檢測器;其中,所述約束條件為高斯核模型與真實密度差函數(shù)之間的性質(zhì)差小于設(shè)定閾值;
5、對待檢測數(shù)據(jù)與參考數(shù)據(jù)進行編碼;
6、基于待檢測數(shù)據(jù)與參考數(shù)據(jù)的編碼結(jié)果,利用所述漂移檢測器計算待檢測數(shù)據(jù)集和參考數(shù)據(jù)集之間的最小二乘密度差的值loriginal;
7、通過隨機置換參考數(shù)據(jù)和待檢測數(shù)據(jù)的標(biāo)簽,生成多個置換樣本,并基于所述漂移檢測器計算每一個置換樣本和參考數(shù)據(jù)集之間的最小二乘密度差的值li,i為正整數(shù);
8、基于所述最小二乘密度差的值loriginal和所述最小二乘密度差的值li,得到待檢測數(shù)據(jù)集的漂移檢測結(jié)果。
9、進一步地,在對所述約束條件進行編碼時,通過令高斯核模型中高維參數(shù)張量的每個分量均值為0來實現(xiàn)所述約束條件。
10、進一步地,所述基于所述最小二乘密度差的值loriginal和所述最小二乘密度差的值li,得到待檢測數(shù)據(jù)集的漂移檢測結(jié)果,包括:
11、根據(jù)所述最小二乘密度差的值li,得到置換分布;
12、通過計算最小二乘密度差的值loriginal在置換分布中所占的百分位數(shù),得到p值;
13、將p值與預(yù)先設(shè)定的顯著性水平比較,得到待檢測數(shù)據(jù)集的漂移檢測結(jié)果。
14、進一步地,所述基于所述最小二乘密度差的值loriginal和所述最小二乘密度差的值li,得到待檢測數(shù)據(jù)集的漂移檢測結(jié)果,包括:
15、對所述最小二乘密度差的值li進行排序,得到一lsdd列表;
16、根據(jù)預(yù)先設(shè)定的顯著性水平確定所述lsdd列表中的索引位置;
17、獲取lsdd列表中對應(yīng)索引位置的值,作為漂移檢測閾值;
18、比較所述最小二乘密度差的值loriginal與所述漂移檢測閾值,得到待檢測數(shù)據(jù)集的漂移檢測結(jié)果。
19、進一步地,所述待檢測數(shù)據(jù)包括:圖像數(shù)據(jù);
20、所述對待檢測數(shù)據(jù)進行編碼,包括:
21、定義一個編碼器,所述編碼器的網(wǎng)絡(luò)結(jié)構(gòu)包括若干個卷積層和全連接層;
22、基于所述編碼器將圖像數(shù)據(jù)編碼為低維表示。
23、進一步地,所述待檢測數(shù)據(jù)集包括:文本數(shù)據(jù);
24、所述對待檢測數(shù)據(jù)進行編碼,包括:
25、利用預(yù)訓(xùn)練的bert模型得到文本數(shù)據(jù)進行分詞;
26、將分詞結(jié)果送入基于transformer的神經(jīng)網(wǎng)絡(luò)模型,以得到文本數(shù)據(jù)的編碼結(jié)果。
27、一種ai數(shù)據(jù)集的漂移檢測系統(tǒng),所述系統(tǒng)包括:
28、構(gòu)建模塊,用于基于最小二乘密度差算法,構(gòu)建一個包含約束條件的漂移檢測器;其中,所述約束條件為高斯核模型與真實密度差函數(shù)之間的性質(zhì)差小于設(shè)定閾值;
29、預(yù)處理模塊,用于對待檢測數(shù)據(jù)與參考數(shù)據(jù)進行編碼;
30、檢測模塊,用于基于待檢測數(shù)據(jù)與參考數(shù)據(jù)的編碼結(jié)果,利用所述漂移檢測器計算待檢測數(shù)據(jù)集和參考數(shù)據(jù)集之間的最小二乘密度差的值loriginal;通過隨機置換參考數(shù)據(jù)和待檢測數(shù)據(jù)的標(biāo)簽,生成多個置換樣本,并基于所述漂移檢測器計算每一個置換樣本和參考數(shù)據(jù)集之間的最小二乘密度差的值li,i為正整數(shù);基于所述最小二乘密度差的值loriginal和所述最小二乘密度差的值li,得到待檢測數(shù)據(jù)集的漂移檢測結(jié)果。
31、一種電子設(shè)備,所述電子設(shè)備包括:處理器以及存儲有計算機程序指令的存儲器;所述處理器執(zhí)行所述計算機程序指令時實現(xiàn)上述任一項所述的ai數(shù)據(jù)集的漂移檢測方法。
32、一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)上存儲有計算機程序指令,所述計算機程序指令被處理器執(zhí)行時實現(xiàn)上述任一項所述的ai數(shù)據(jù)集的漂移檢測方法。
33、一種計算機程序產(chǎn)品,當(dāng)所述計算機程序產(chǎn)品在計算機設(shè)備上運行時,使得計算機設(shè)備執(zhí)行上述任一項所述的ai數(shù)據(jù)集的漂移檢測方法。
34、與現(xiàn)有技術(shù)相比,本發(fā)明通過設(shè)定約束條件,可更加準(zhǔn)確地估計密度差函數(shù),從而提高漂移檢測的精確性。
1.一種ai數(shù)據(jù)集的漂移檢測方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,在對所述約束條件進行編碼時,通過令高斯核模型中高維參數(shù)張量的每個分量均值為0來實現(xiàn)所述約束條件。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于所述最小二乘密度差的值loriginal和所述最小二乘密度差的值li,得到待檢測數(shù)據(jù)集的漂移檢測結(jié)果,包括:
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于所述最小二乘密度差的值loriginal和所述最小二乘密度差的值li,得到待檢測數(shù)據(jù)集的漂移檢測結(jié)果,包括:
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述待檢測數(shù)據(jù)包括:圖像數(shù)據(jù);
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述待檢測數(shù)據(jù)集包括:文本數(shù)據(jù);
7.一種ai數(shù)據(jù)集的漂移檢測系統(tǒng),其特征在于,所述系統(tǒng)包括:
8.一種電子設(shè)備,其特征在于,所述電子設(shè)備包括:處理器以及存儲有計算機程序指令的存儲器;所述處理器執(zhí)行所述計算機程序指令時實現(xiàn)如權(quán)利要求1-6任一項所述的ai數(shù)據(jù)集的漂移檢測方法。
9.一種計算機可讀存儲介質(zhì),其特征在于,所述計算機可讀存儲介質(zhì)上存儲有計算機程序指令,所述計算機程序指令被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1-6任一項所述的ai數(shù)據(jù)集的漂移檢測方法。
10.一種計算機程序產(chǎn)品,其特征在于,當(dāng)所述計算機程序產(chǎn)品在計算機設(shè)備上運行時,使得計算機設(shè)備執(zhí)行如權(quán)利要求1-6任一項所述的ai數(shù)據(jù)集的漂移檢測方法。