本發(fā)明涉及數(shù)據(jù)安全,具體涉及一種敏感數(shù)據(jù)識(shí)別方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)。
背景技術(shù):
1、敏感數(shù)據(jù)是指那些包含個(gè)人隱私、商業(yè)秘密、國(guó)家安全信息或其它受法律保護(hù)的、需要嚴(yán)格控制訪問(wèn)權(quán)限的數(shù)據(jù)。敏感數(shù)據(jù)識(shí)別是數(shù)據(jù)安全管理的關(guān)鍵環(huán)節(jié),旨在從大量數(shù)據(jù)中檢測(cè)和標(biāo)記那些包含敏感信息的數(shù)據(jù)。這一過(guò)程可以幫助組織了解其數(shù)據(jù)資產(chǎn)中哪些數(shù)據(jù)需要特別的保護(hù)措施,防止未經(jīng)授權(quán)的訪問(wèn)、使用、泄露或篡改。
2、目前,敏感數(shù)據(jù)識(shí)別通常通過(guò)人工識(shí)別,利用數(shù)據(jù)分析師的主觀意識(shí)判斷是否為敏感數(shù)據(jù),其識(shí)別效率低,在大數(shù)據(jù)發(fā)展迅速的當(dāng)下不適合于數(shù)據(jù)量大的場(chǎng)景,并且同一人在不同時(shí)間對(duì)同一數(shù)據(jù)可能有不同的判斷,導(dǎo)致敏感數(shù)據(jù)在識(shí)別時(shí)產(chǎn)生的結(jié)果具有差異性,識(shí)別結(jié)果不準(zhǔn)確。
3、因此,如何提高敏感數(shù)據(jù)識(shí)別效率和準(zhǔn)確性成為亟待解決的技術(shù)問(wèn)題。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明提供一種敏感數(shù)據(jù)識(shí)別方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì),用以解決現(xiàn)有技術(shù)中敏感數(shù)據(jù)識(shí)別效率低、準(zhǔn)確性低的技術(shù)問(wèn)題。
2、本發(fā)明提供一種敏感數(shù)據(jù)識(shí)別方法,包括:
3、對(duì)于目標(biāo)數(shù)據(jù)中的任一屬性,根據(jù)所述屬性的信息熵,確定所述屬性的敏感度;
4、基于各所述屬性的敏感度,對(duì)各所述屬性進(jìn)行分類(lèi),得到第一屬性集和第二屬性集,所述第一屬性集包括多個(gè)第一屬性,所述第一屬性是敏感屬性,所述第二屬性集包括多個(gè)第二屬性,所述第二屬性是疑似敏感屬性;
5、對(duì)于所述第二屬性集中的任一第二屬性,若所述第二屬性與所述第一屬性集中的任一第一屬性存在關(guān)聯(lián)關(guān)系,則將所述第二屬性從所述第二屬性集中刪除,并添加至所述第一屬性集中。
6、根據(jù)本發(fā)明提供的一種敏感數(shù)據(jù)識(shí)別方法,所述根據(jù)所述屬性的信息熵,確定所述屬性的敏感度,包括:
7、根據(jù)所述屬性中各離散值發(fā)生的概率,確定所述屬性的敏感度。
8、根據(jù)本發(fā)明提供的一種敏感數(shù)據(jù)識(shí)別方法,基于如下公式計(jì)算所述屬性的敏感度:
9、
10、其中,p(aij)表示屬性ai中第j個(gè)離散值發(fā)生的概率,o≤p(aij)≤1,m表示屬性ai包含m個(gè)離散值。
11、根據(jù)本發(fā)明提供的一種敏感數(shù)據(jù)識(shí)別方法,所述基于各所述屬性的敏感度,對(duì)各所述屬性進(jìn)行分類(lèi),得到第一屬性集和第二屬性集,包括:
12、基于基準(zhǔn)屬性的敏感度,確定各所述屬性與所述基準(zhǔn)屬性之間的絕對(duì)差值,所述基準(zhǔn)屬性是已標(biāo)注的敏感屬性;
13、選取絕對(duì)差值最小的k個(gè)屬性,組合得到第一屬性集;
14、將除所述k個(gè)屬性之外的屬性組合得到第二屬性集。
15、根據(jù)本發(fā)明提供的一種敏感數(shù)據(jù)識(shí)別方法,基于如下步驟確定第一屬性與第二屬性是否存在關(guān)聯(lián)關(guān)系:
16、對(duì)所述目標(biāo)數(shù)據(jù)進(jìn)行頻繁項(xiàng)挖掘,得到挖掘結(jié)果,所述挖掘結(jié)果包括多個(gè)頻繁項(xiàng)集,所述多個(gè)頻繁項(xiàng)集中的任一頻繁項(xiàng)集包括至少一個(gè)第一屬性和至少一個(gè)第二屬性;
17、對(duì)于一個(gè)第一屬性和一個(gè)第二屬性,基于所述挖掘結(jié)果計(jì)算所述第一屬性與所述第二屬性相關(guān)聯(lián)的概率,以及所述第一屬性與所述第二屬性相關(guān)聯(lián)的置信度;
18、若所述概率大于概率閾值,且所述置信度大于置信度閾值,則確定所述第一屬性與所述第二屬性存在關(guān)聯(lián)關(guān)系。
19、根據(jù)本發(fā)明提供的一種敏感數(shù)據(jù)識(shí)別方法,所述對(duì)所述目標(biāo)數(shù)據(jù)進(jìn)行頻繁項(xiàng)挖掘,得到挖掘結(jié)果,包括:
20、統(tǒng)計(jì)所述目標(biāo)數(shù)據(jù)中各屬性的支持度,組合得到頻繁項(xiàng)單項(xiàng)集;
21、從所述頻繁項(xiàng)單項(xiàng)集中刪除支持度小于預(yù)設(shè)閾值的屬性后,按照支持度遞減排序,得到排序數(shù)據(jù)集;
22、基于所述排序數(shù)據(jù)集,構(gòu)建fp-tree;
23、從所述fp-tree的葉子節(jié)點(diǎn)向上挖掘,得到fp子樹(shù);
24、若所述fp子樹(shù)中不包含第一屬性,則更換葉子節(jié)點(diǎn)并返回至所述從所述fp-tree的葉子節(jié)點(diǎn)向上挖掘,得到fp子樹(shù)的步驟;
25、若所述fp子樹(shù)中包含至少一個(gè)第一屬性,則計(jì)算所述fp子樹(shù)中各節(jié)點(diǎn)的支持度后,刪除支持度小于所述預(yù)設(shè)閾值的節(jié)點(diǎn),獲得一個(gè)頻繁項(xiàng)集;
26、獲取多個(gè)頻繁項(xiàng)集,得到挖掘結(jié)果。
27、本發(fā)明還提供一種敏感數(shù)據(jù)識(shí)別裝置,包括:
28、敏感度確定模塊,用于:對(duì)于目標(biāo)數(shù)據(jù)中的任一屬性,根據(jù)所述屬性的信息熵,確定所述屬性的敏感度;
29、屬性分類(lèi)模塊,用于:基于各所述屬性的敏感度,對(duì)各所述屬性進(jìn)行分類(lèi),得到第一屬性集和第二屬性集,所述第一屬性集包括多個(gè)第一屬性,所述第一屬性是敏感屬性,所述第二屬性集包括多個(gè)第二屬性,所述第二屬性是疑似敏感屬性;
30、屬性集更新模塊,用于:對(duì)于所述第二屬性集中的任一第二屬性,若所述第二屬性與所述第一屬性集中的任一第一屬性存在關(guān)聯(lián)關(guān)系,則將所述第二屬性從所述第二屬性集中刪除,并添加至所述第一屬性集中。
31、本發(fā)明還提供一種電子設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)如上述任一種所述敏感數(shù)據(jù)識(shí)別方法。
32、本發(fā)明還提供一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述任一種所述敏感數(shù)據(jù)識(shí)別方法。
33、本發(fā)明還提供一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述任一種所述敏感數(shù)據(jù)識(shí)別方法。
34、本發(fā)明提供的敏感數(shù)據(jù)識(shí)別方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì),對(duì)于目標(biāo)數(shù)據(jù)中的任一屬性,根據(jù)所述屬性的信息熵,確定所述屬性的敏感度,由于通常敏感屬性的值對(duì)于單個(gè)對(duì)象來(lái)說(shuō)具備一定的唯一性,因此,對(duì)于任何一種數(shù)據(jù)集,其敏感屬性具有相似性,基于屬性數(shù)據(jù)中關(guān)鍵參數(shù)發(fā)生的概率即可確定屬性的敏感度;基于各所述屬性的敏感度,對(duì)各所述屬性進(jìn)行分類(lèi),得到第一屬性集和第二屬性集,所述第一屬性集包括多個(gè)第一屬性,所述第一屬性是敏感屬性,所述第二屬性集包括多個(gè)第二屬性,所述第二屬性是疑似敏感屬性,也就是說(shuō),根據(jù)各屬性的敏感度,將屬性劃分為敏感屬性集與其它屬性集,實(shí)現(xiàn)對(duì)敏感屬性的初步識(shí)別;對(duì)于所述第二屬性集中的任一第二屬性,若所述第二屬性與所述第一屬性集中的任一第一屬性存在關(guān)聯(lián)關(guān)系,則將所述第二屬性從所述第二屬性集中刪除,并添加至所述第一屬性集中,也就是說(shuō),基于第二屬性與第一屬性的關(guān)聯(lián)關(guān)系,進(jìn)一步識(shí)別出第二屬性集中的敏感屬性,確保第二屬性集中不存在敏感屬性,準(zhǔn)確劃分敏感屬性與非敏感屬性。綜上所述,相比于人工識(shí)別敏感屬性,本發(fā)明可以有效提高敏感屬性識(shí)別效率與準(zhǔn)確性。
1.一種敏感數(shù)據(jù)識(shí)別方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的敏感數(shù)據(jù)識(shí)別方法,其特征在于,所述根據(jù)所述屬性的信息熵,確定所述屬性的敏感度,包括:
3.根據(jù)權(quán)利要求2所述的敏感數(shù)據(jù)識(shí)別方法,其特征在于,基于如下公式計(jì)算所述屬性的敏感度:
4.根據(jù)權(quán)利要求1所述的敏感數(shù)據(jù)識(shí)別方法,其特征在于,所述基于各所述屬性的敏感度,對(duì)各所述屬性進(jìn)行分類(lèi),得到第一屬性集和第二屬性集,包括:
5.根據(jù)權(quán)利要求1-4中任一項(xiàng)所述的敏感數(shù)據(jù)識(shí)別方法,其特征在于,基于如下步驟確定第一屬性與第二屬性是否存在關(guān)聯(lián)關(guān)系:
6.根據(jù)權(quán)利要求5所述的敏感數(shù)據(jù)識(shí)別方法,其特征在于,所述對(duì)所述目標(biāo)數(shù)據(jù)進(jìn)行頻繁項(xiàng)挖掘,得到挖掘結(jié)果,包括:
7.一種敏感數(shù)據(jù)識(shí)別裝置,其特征在于,包括:
8.一種電子設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,其特征在于,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)如權(quán)利要求1至6任一項(xiàng)所述敏感數(shù)據(jù)識(shí)別方法。
9.一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至6任一項(xiàng)所述敏感數(shù)據(jù)識(shí)別方法。
10.一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至6任一項(xiàng)所述敏感數(shù)據(jù)識(shí)別方法。