本申請涉及數(shù)據(jù)安全,尤其涉及一種數(shù)據(jù)識別方法、裝置、電子設(shè)備和存儲介質(zhì)。
背景技術(shù):
1、隨著信息技術(shù)的不斷發(fā)展,數(shù)據(jù)價值日益凸顯,在數(shù)據(jù)價值利益的驅(qū)動下,數(shù)據(jù)泄露、販賣、濫用等數(shù)據(jù)安全事件層出不窮,不僅對個人人身、財產(chǎn)、生命安全造成極大危害,對企業(yè)造成損壞,甚至可能影響國家安全。
2、作為數(shù)據(jù)安全工作的前置條件,能否從企業(yè)海量的非結(jié)構(gòu)化數(shù)據(jù)中準(zhǔn)確識別出敏感數(shù)據(jù)和重要數(shù)據(jù),并對其進(jìn)行分類分級,對數(shù)據(jù)安全工作影響巨大。
3、通過關(guān)鍵字、正則表達(dá)式、字典等技術(shù)手段進(jìn)行數(shù)據(jù)識別是業(yè)內(nèi)最常見的數(shù)據(jù)識別方式,或者通過構(gòu)造特征工程,然后將特征送入淺層機(jī)器學(xué)習(xí)模型,最終得出分類結(jié)果?,F(xiàn)有數(shù)據(jù)識別技術(shù)主要針對結(jié)構(gòu)化數(shù)據(jù)、大數(shù)據(jù)組件等,對非結(jié)構(gòu)化數(shù)據(jù)的識別能力較弱。但隨著企業(yè)業(yè)務(wù)的不斷發(fā)展,傳統(tǒng)的數(shù)據(jù)識別技術(shù)受到應(yīng)用場景、數(shù)據(jù)格式、數(shù)據(jù)量等限制,在多變的業(yè)務(wù)環(huán)境和數(shù)據(jù)形式下,已無法滿足對非結(jié)構(gòu)化數(shù)據(jù)識別的需求。
技術(shù)實(shí)現(xiàn)思路
1、本申請實(shí)施例提供一種數(shù)據(jù)識別方法、裝置、電子設(shè)備和存儲介質(zhì),用以解決現(xiàn)有數(shù)據(jù)識別技術(shù)主要針對結(jié)構(gòu)化數(shù)據(jù)、大數(shù)據(jù)組件等,對非結(jié)構(gòu)化數(shù)據(jù)的識別能力較弱,無法滿足對非結(jié)構(gòu)化數(shù)據(jù)識別的需求的缺陷。
2、第一方面,本申請實(shí)施例提供一種數(shù)據(jù)識別方法,包括:
3、獲取待識別數(shù)據(jù);
4、若所述待識別數(shù)據(jù)為非結(jié)構(gòu)化數(shù)據(jù),基于預(yù)先訓(xùn)練完成的非結(jié)構(gòu)化數(shù)據(jù)識別模型和預(yù)先確定的非結(jié)構(gòu)化數(shù)據(jù)特征集對所述待識別數(shù)據(jù)進(jìn)行識別,得到數(shù)據(jù)識別結(jié)果。
5、在一個實(shí)施例中,所述非結(jié)構(gòu)化數(shù)據(jù)識別模型的訓(xùn)練步驟,包括:
6、獲取非結(jié)構(gòu)化樣本數(shù)據(jù),得到訓(xùn)練樣本數(shù)據(jù);
7、基于所述訓(xùn)練樣本數(shù)據(jù)對預(yù)設(shè)的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,得到第一數(shù)據(jù)識別模型;
8、基于所述訓(xùn)練樣本數(shù)據(jù)的特征數(shù)據(jù)對預(yù)設(shè)的深度學(xué)習(xí)模型進(jìn)行訓(xùn)練,得到第二數(shù)據(jù)識別模型;
9、將所述第一數(shù)據(jù)識別模型和所述第二數(shù)據(jù)識別模型進(jìn)行組合,得到所述非結(jié)構(gòu)化數(shù)據(jù)識別模型;
10、其中,所述第一數(shù)據(jù)識別模型用于對所述待識別數(shù)據(jù)進(jìn)行識別,確定所述待識別數(shù)據(jù)所屬的數(shù)據(jù)類別,所述第二數(shù)據(jù)識別模型用于基于所述訓(xùn)練樣本數(shù)據(jù)的特征數(shù)據(jù)確定所述待識別數(shù)據(jù)的特征數(shù)據(jù)所屬的數(shù)據(jù)類別,以便對所述第一數(shù)據(jù)識別模型的識別結(jié)果進(jìn)行校驗(yàn)。
11、在一個實(shí)施例中,所述第一數(shù)據(jù)識別模型包括輸入層、雙向長短期記憶lstm層、拼接層、全連接層和輸出層;
12、所述輸入層用于將輸入的所述訓(xùn)練樣本數(shù)據(jù)嵌入至所述雙向lstm層;
13、所述雙向lstm層用于對嵌入的所述訓(xùn)練樣本數(shù)據(jù)進(jìn)行正向編碼和反向編碼,得到正向編碼數(shù)據(jù)和反向編碼數(shù)據(jù);
14、所述拼接層用于將同一時刻的所述正向編碼數(shù)據(jù)和所述反向編碼數(shù)據(jù)進(jìn)行拼接,得到拼接數(shù)據(jù);
15、所述全連接層用于對所述拼接數(shù)據(jù)進(jìn)行降維處理,得到預(yù)設(shè)維度數(shù)據(jù);
16、所述輸出層用于基于所述預(yù)設(shè)維度數(shù)據(jù),確定所述待識別數(shù)據(jù)所屬的數(shù)據(jù)類別。
17、在一個實(shí)施例中,所述第二數(shù)據(jù)識別模型包括預(yù)訓(xùn)練模型、深度學(xué)習(xí)模型和分類模型;
18、所述預(yù)訓(xùn)練模型用于根據(jù)所述訓(xùn)練樣本數(shù)據(jù)的特征數(shù)據(jù),確定所述訓(xùn)練樣本數(shù)據(jù)對應(yīng)的字向量、文本向量和位置向量;
19、所述深度學(xué)習(xí)模型用于對所述字向量、所述文本向量和所述位置向量進(jìn)行卷積處理,得到目標(biāo)卷積向量;
20、所述分類模型用于基于預(yù)設(shè)的編解碼規(guī)則對所述目標(biāo)卷積向量進(jìn)行解碼,確定所述待識別數(shù)據(jù)的特征數(shù)據(jù)所屬的數(shù)據(jù)類別。
21、在一個實(shí)施例中,所述深度學(xué)習(xí)模型包括多層空洞卷積網(wǎng)絡(luò),所述對所述字向量、所述文本向量和所述位置向量進(jìn)行卷積處理,得到目標(biāo)卷積向量,包括:
22、基于注意力機(jī)制確定每一所述空洞卷積網(wǎng)絡(luò)在任一區(qū)域的孔的尺寸;
23、基于每一所述空洞卷積網(wǎng)絡(luò)對所述字向量、所述文本向量和所述位置向量進(jìn)行卷積處理,得到與所述空洞卷積網(wǎng)絡(luò)對應(yīng)的卷積向量;
24、融合每一所述卷積向量,得到所述目標(biāo)卷積向量。
25、在一個實(shí)施例中,所述非結(jié)構(gòu)化數(shù)據(jù)特征集的構(gòu)建步驟,包括:
26、獲取預(yù)設(shè)的非結(jié)構(gòu)化數(shù)據(jù);
27、將所述非結(jié)構(gòu)化數(shù)據(jù)輸入至所述非結(jié)構(gòu)化數(shù)據(jù)識別模型,得到所述非結(jié)構(gòu)化數(shù)據(jù)識別模型輸出非結(jié)構(gòu)化數(shù)據(jù)識別結(jié)果;
28、根據(jù)所述非結(jié)構(gòu)化數(shù)據(jù)識別結(jié)果,構(gòu)建所述非結(jié)構(gòu)化數(shù)據(jù)特征集。
29、在一個實(shí)施例中,還包括:
30、根據(jù)所述數(shù)據(jù)識別結(jié)果,對所述待識別數(shù)據(jù)進(jìn)行測繪分析,得到測繪分析結(jié)果。
31、第二方面,本申請實(shí)施例還提供了一種數(shù)據(jù)識別裝置,包括:
32、獲取模塊,用于獲取待識別數(shù)據(jù);
33、識別模塊,用于若所述待識別數(shù)據(jù)為非結(jié)構(gòu)化數(shù)據(jù),基于預(yù)先訓(xùn)練完成的非結(jié)構(gòu)化數(shù)據(jù)識別模型和預(yù)先確定的非結(jié)構(gòu)化數(shù)據(jù)特征集對所述待識別數(shù)據(jù)進(jìn)行識別,得到數(shù)據(jù)識別結(jié)果。
34、第三方面,本申請實(shí)施例還提供一種電子設(shè)備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運(yùn)行的計算機(jī)程序,所述處理器執(zhí)行所述程序時實(shí)現(xiàn)如上述任一種所述數(shù)據(jù)識別方法。
35、第四方面,本申請實(shí)施例還提供一種非暫態(tài)計算機(jī)可讀存儲介質(zhì),其上存儲有計算機(jī)程序,該計算機(jī)程序被處理器執(zhí)行時實(shí)現(xiàn)如上述任一種所述數(shù)據(jù)識別方法。
36、本申請實(shí)施例提供的數(shù)據(jù)識別方法、裝置、電子設(shè)備和存儲介質(zhì),獲取待識別數(shù)據(jù);若所述待識別數(shù)據(jù)為非結(jié)構(gòu)化數(shù)據(jù),基于預(yù)先訓(xùn)練完成的非結(jié)構(gòu)化數(shù)據(jù)識別模型和預(yù)先確定的非結(jié)構(gòu)化數(shù)據(jù)特征集對所述待識別數(shù)據(jù)進(jìn)行識別,得到數(shù)據(jù)識別結(jié)果。本申請實(shí)施例通過非結(jié)構(gòu)化數(shù)據(jù)識別模型和非結(jié)構(gòu)化數(shù)據(jù)特征集實(shí)現(xiàn)對非結(jié)構(gòu)化數(shù)據(jù)的識別,提高非結(jié)構(gòu)化數(shù)據(jù)的識別能力能力,滿足非結(jié)構(gòu)化數(shù)據(jù)識別的需求。
1.一種數(shù)據(jù)識別方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的數(shù)據(jù)識別方法,其特征在于,所述非結(jié)構(gòu)化數(shù)據(jù)識別模型的訓(xùn)練步驟,包括:
3.根據(jù)權(quán)利要求2所述的數(shù)據(jù)識別方法,其特征在于,所述第一數(shù)據(jù)識別模型包括輸入層、雙向長短期記憶lstm層、拼接層、全連接層和輸出層;
4.根據(jù)權(quán)利要求2所述的數(shù)據(jù)識別方法,其特征在于,所述第二數(shù)據(jù)識別模型包括預(yù)訓(xùn)練模型、深度學(xué)習(xí)模型和分類模型;
5.根據(jù)權(quán)利要求4所述的數(shù)據(jù)識別方法,其特征在于,所述深度學(xué)習(xí)模型包括多層空洞卷積網(wǎng)絡(luò),所述對所述字向量、所述文本向量和所述位置向量進(jìn)行卷積處理,得到目標(biāo)卷積向量,包括:
6.根據(jù)權(quán)利要求1所述的數(shù)據(jù)識別方法,其特征在于,所述非結(jié)構(gòu)化數(shù)據(jù)特征集的構(gòu)建步驟,包括:
7.根據(jù)權(quán)利要求1所述的數(shù)據(jù)識別方法,其特征在于,還包括:
8.一種數(shù)據(jù)識別裝置,其特征在于,包括:
9.一種電子設(shè)備,包括存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運(yùn)行的計算機(jī)程序,其特征在于,所述處理器執(zhí)行所述程序時實(shí)現(xiàn)如權(quán)利要求1至7任一項(xiàng)所述數(shù)據(jù)識別方法。
10.一種非暫態(tài)計算機(jī)可讀存儲介質(zhì),其上存儲有計算機(jī)程序,其特征在于,所述計算機(jī)程序被處理器執(zhí)行時實(shí)現(xiàn)如權(quán)利要求1至7任一項(xiàng)所述數(shù)據(jù)識別方法。