本申請(qǐng)涉及數(shù)據(jù)處理,具體涉及一種網(wǎng)址風(fēng)險(xiǎn)評(píng)估方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)。
背景技術(shù):
1、隨著互聯(lián)網(wǎng)時(shí)代的到來,當(dāng)網(wǎng)絡(luò)成為人民群眾的一種生活方式,各種暗藏的風(fēng)險(xiǎn)隨之而來,尤其是基于惡意網(wǎng)址的詐騙,輻射人群多、危害大、變化快,給網(wǎng)絡(luò)安全治理帶來新的挑戰(zhàn)。
2、在傳統(tǒng)的網(wǎng)址風(fēng)險(xiǎn)識(shí)別中,采用的主要方法是基于黑名單和啟發(fā)式規(guī)則等,這些方法維護(hù)迭代成本高,且較低的智能化水平難以應(yīng)對(duì)海量高速變化的互聯(lián)網(wǎng)信息。因此,當(dāng)前先進(jìn)的技術(shù)方案往往采用機(jī)器學(xué)習(xí)或深度學(xué)習(xí)的方法對(duì)海量網(wǎng)址進(jìn)行檢測(cè)、識(shí)別和評(píng)估。例如:將網(wǎng)址訓(xùn)練樣本集的原始特征經(jīng)過特征工程后,輸入機(jī)器學(xué)習(xí)或深度學(xué)習(xí)模型中進(jìn)行訓(xùn)練。當(dāng)模型訓(xùn)練完成后,輸入預(yù)測(cè)網(wǎng)址樣本,按同樣方式進(jìn)行特征工程,則模型可以輸出一個(gè)詐騙風(fēng)險(xiǎn)評(píng)估分,后續(xù)可根據(jù)公安的業(yè)務(wù)規(guī)則劃定詐騙風(fēng)險(xiǎn)等級(jí)。但是,上述的方案僅僅使用了經(jīng)過特征工程處理后的結(jié)構(gòu)化特征,沒有考慮融合特征,因此導(dǎo)致模型預(yù)測(cè)的準(zhǔn)確性不足,最終導(dǎo)致當(dāng)前進(jìn)行網(wǎng)址風(fēng)險(xiǎn)評(píng)估時(shí)的準(zhǔn)確性低下。
技術(shù)實(shí)現(xiàn)思路
1、本申請(qǐng)實(shí)施例提供一種網(wǎng)址風(fēng)險(xiǎn)評(píng)估方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì),用以解決當(dāng)前進(jìn)行網(wǎng)址風(fēng)險(xiǎn)評(píng)估時(shí)的準(zhǔn)確性低下的問題。
2、第一方面,本申請(qǐng)實(shí)施例提供一種網(wǎng)址風(fēng)險(xiǎn)評(píng)估方法,包括:
3、獲取待評(píng)估網(wǎng)址;
4、將所述待評(píng)估網(wǎng)址的原始特征輸入至網(wǎng)址風(fēng)險(xiǎn)概率評(píng)估模型,得到所述網(wǎng)址風(fēng)險(xiǎn)概率評(píng)估模型輸出的網(wǎng)址風(fēng)險(xiǎn)概率;其中,所述網(wǎng)址風(fēng)險(xiǎn)概率評(píng)估模型是通過第三樣本網(wǎng)址數(shù)據(jù)及其標(biāo)簽對(duì)基準(zhǔn)模型進(jìn)行訓(xùn)練得到的;所述第三樣本網(wǎng)址數(shù)據(jù)包括第二樣本網(wǎng)址數(shù)據(jù)與增強(qiáng)網(wǎng)址數(shù)據(jù);所述增強(qiáng)網(wǎng)址數(shù)據(jù)是通過所述基準(zhǔn)模型,基于所述第二樣本網(wǎng)址數(shù)據(jù)進(jìn)行逆標(biāo)簽的樣本挑選得到的;所述基準(zhǔn)模型是基于第一樣本特征與第二樣本特征進(jìn)行聯(lián)合訓(xùn)練得到的;所述第一樣本特征是基于第一樣本網(wǎng)址數(shù)據(jù)進(jìn)行多模態(tài)特征提取得到的,所述第二樣本特征是通過深度因子分解機(jī)模型基于所述第一樣本網(wǎng)址數(shù)據(jù)進(jìn)行特征提取得到的;
5、基于所述網(wǎng)址風(fēng)險(xiǎn)概率對(duì)所述待評(píng)估網(wǎng)址進(jìn)行安全防護(hù)。
6、在一個(gè)實(shí)施例中,所述多模態(tài)特征包括url特征、網(wǎng)頁文本特征與網(wǎng)頁截圖特征;
7、所述url特征與所述網(wǎng)頁文本特征,是通過textcnn模型基于所述第一樣本網(wǎng)址數(shù)據(jù)提取的;
8、所述網(wǎng)頁截圖特征是通過resnet-101模型基于所述第一樣本網(wǎng)址數(shù)據(jù)提取的。
9、在一個(gè)實(shí)施例中,所述網(wǎng)頁文本特征具體通過如下步驟提取得到:
10、獲取所述第一樣本網(wǎng)址數(shù)據(jù)對(duì)應(yīng)的網(wǎng)頁文本;
11、對(duì)所述網(wǎng)頁文本進(jìn)行數(shù)據(jù)預(yù)處理,得到預(yù)處理文本;
12、對(duì)所述預(yù)處理文本進(jìn)行掩碼處理,得到掩碼文本;
13、通過textcnn模型對(duì)所述掩碼文本進(jìn)行特征提取,得到網(wǎng)頁文本特征。
14、在一個(gè)實(shí)施例中,所述第二樣本特征是通過如下步驟確定的:
15、獲取所述第一樣本網(wǎng)址數(shù)據(jù)的外部統(tǒng)計(jì)信息;
16、將所述外部統(tǒng)計(jì)信息編碼為二進(jìn)制向量,得到編碼向量;
17、通過深度因子分解機(jī)模型對(duì)所述編碼向量進(jìn)行特征提取,得到第二樣本特征。
18、在一個(gè)實(shí)施例中,所述基準(zhǔn)模型是基于第一樣本特征與第二樣本特征,對(duì)預(yù)設(shè)風(fēng)險(xiǎn)評(píng)估模型進(jìn)行聯(lián)合訓(xùn)練得到的;所述預(yù)設(shè)風(fēng)險(xiǎn)評(píng)估模型的具體表達(dá)式如下:
19、
20、其中,x表示特征信息,所述特征信息由所述第一樣本特征與所述第二樣本特征拼接得到;y表示瀏覽網(wǎng)址對(duì)應(yīng)網(wǎng)頁的標(biāo)簽;z表示被騙的標(biāo)簽;pfrr表用戶示瀏覽網(wǎng)址對(duì)應(yīng)網(wǎng)頁后被騙的風(fēng)險(xiǎn)概率得分;p(y=1|x)表示用戶瀏覽網(wǎng)址對(duì)應(yīng)網(wǎng)頁的風(fēng)險(xiǎn)概率得分;p(y=1,z=1|x)表示用戶瀏覽網(wǎng)址對(duì)應(yīng)網(wǎng)頁且被騙的風(fēng)險(xiǎn)概率得分。
21、在一個(gè)實(shí)施例中,所述增強(qiáng)網(wǎng)址數(shù)據(jù)是通過如下步驟確定的:
22、對(duì)第二樣本網(wǎng)址數(shù)據(jù)進(jìn)行掩碼處理,得到掩碼數(shù)據(jù);
23、基于所述掩碼數(shù)據(jù)生成第四樣本網(wǎng)址數(shù)據(jù);
24、通過所述基準(zhǔn)模型對(duì)所述第四樣本網(wǎng)址數(shù)據(jù)進(jìn)行逆標(biāo)簽的樣本挑選,基于逆標(biāo)簽的樣本挑選得到的網(wǎng)址數(shù)據(jù)確定增強(qiáng)網(wǎng)址數(shù)據(jù)。
25、在一個(gè)實(shí)施例中,所述基于所述網(wǎng)址風(fēng)險(xiǎn)概率對(duì)所述待評(píng)估網(wǎng)址進(jìn)行安全防護(hù),包括:
26、根據(jù)所述網(wǎng)址風(fēng)險(xiǎn)概率確定所述待評(píng)估網(wǎng)址的風(fēng)險(xiǎn)等級(jí);
27、基于所述風(fēng)險(xiǎn)等級(jí)確定并執(zhí)行所述待評(píng)估網(wǎng)址的目標(biāo)安全防護(hù)方案。
28、第二方面,本申請(qǐng)實(shí)施例提供一種網(wǎng)址風(fēng)險(xiǎn)評(píng)估裝置,包括:
29、獲取模塊,用于獲取待評(píng)估網(wǎng)址;
30、輸入模塊,用于將所述待評(píng)估網(wǎng)址的原始特征輸入至網(wǎng)址風(fēng)險(xiǎn)概率評(píng)估模型,得到所述網(wǎng)址風(fēng)險(xiǎn)概率評(píng)估模型輸出的網(wǎng)址風(fēng)險(xiǎn)概率;其中,所述網(wǎng)址風(fēng)險(xiǎn)概率評(píng)估模型是通過第三樣本網(wǎng)址數(shù)據(jù)及其標(biāo)簽對(duì)基準(zhǔn)模型進(jìn)行訓(xùn)練得到的;所述第三樣本網(wǎng)址數(shù)據(jù)包括第二樣本網(wǎng)址數(shù)據(jù)與增強(qiáng)網(wǎng)址數(shù)據(jù);所述增強(qiáng)網(wǎng)址數(shù)據(jù)是基于所述基準(zhǔn)模型對(duì)所述第二樣本網(wǎng)址數(shù)據(jù)進(jìn)行逆標(biāo)簽的樣本挑選得到的;所述基準(zhǔn)模型是基于第一樣本特征與第二樣本特征進(jìn)行聯(lián)合訓(xùn)練得到的;所述第一樣本特征是基于第一樣本網(wǎng)址數(shù)據(jù)進(jìn)行多模態(tài)特征提取得到的,所述第二樣本特征是通過深度因子分解機(jī)模型基于所述第一樣本網(wǎng)址數(shù)據(jù)進(jìn)行特征提取得到的;
31、防護(hù)模塊,用于基于所述網(wǎng)址風(fēng)險(xiǎn)概率對(duì)所述待評(píng)估網(wǎng)址進(jìn)行安全防護(hù)。
32、第三方面,本申請(qǐng)實(shí)施例提供一種電子設(shè)備,包括處理器和存儲(chǔ)有計(jì)算機(jī)程序的存儲(chǔ)器,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)第一方面所述的網(wǎng)址風(fēng)險(xiǎn)評(píng)估方法。
33、第四方面,本申請(qǐng)實(shí)施例提供一種存儲(chǔ)介質(zhì),所述存儲(chǔ)介質(zhì)為計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),包括計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)第一方面所述的網(wǎng)址風(fēng)險(xiǎn)評(píng)估方法。
34、本申請(qǐng)實(shí)施例提供的網(wǎng)址風(fēng)險(xiǎn)評(píng)估方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì),通過第一樣本網(wǎng)址數(shù)據(jù)進(jìn)行多模態(tài)特征提取得到第一樣本特征,以及通過深度因子分解機(jī)模型基于第一樣本網(wǎng)址數(shù)據(jù)進(jìn)行特征提取得到第二樣本特征,由此可以根據(jù)第一樣本特征與第二樣本特征進(jìn)行聯(lián)合訓(xùn)練得到基準(zhǔn)模型;進(jìn)一步可以通過基準(zhǔn)模型對(duì)第二樣本網(wǎng)址數(shù)據(jù)進(jìn)行逆標(biāo)簽的樣本挑選得到增強(qiáng)網(wǎng)址數(shù)據(jù),最后通過包括增強(qiáng)網(wǎng)址數(shù)據(jù)與第二樣本網(wǎng)址數(shù)據(jù)的第三樣本網(wǎng)址數(shù)據(jù)及其標(biāo)簽對(duì)基準(zhǔn)模型進(jìn)行訓(xùn)練得到網(wǎng)址風(fēng)險(xiǎn)概率評(píng)估模型。通過多模態(tài)特征與深度因子分解機(jī)模型提取的特征進(jìn)行聯(lián)合訓(xùn)練,使訓(xùn)練得到的基準(zhǔn)模型具有較高的魯棒性,通過基準(zhǔn)模型對(duì)樣本網(wǎng)址進(jìn)行增強(qiáng),可以提高基于增強(qiáng)網(wǎng)址數(shù)據(jù)與第二樣本網(wǎng)址數(shù)據(jù)訓(xùn)練得到的網(wǎng)址風(fēng)險(xiǎn)概率評(píng)估模型的泛化性能,由此可以提高網(wǎng)址風(fēng)險(xiǎn)概率評(píng)估模型的預(yù)測(cè)準(zhǔn)確性,使得通過網(wǎng)址風(fēng)險(xiǎn)概率評(píng)估模型對(duì)待評(píng)估網(wǎng)址的原始特征進(jìn)行預(yù)測(cè)時(shí)更加準(zhǔn)確,進(jìn)而可以根據(jù)預(yù)測(cè)得到的網(wǎng)址風(fēng)險(xiǎn)概率,準(zhǔn)確地對(duì)待評(píng)估網(wǎng)址進(jìn)行安全防護(hù),可以提高網(wǎng)址風(fēng)險(xiǎn)評(píng)估的準(zhǔn)確性。
1.一種網(wǎng)址風(fēng)險(xiǎn)評(píng)估方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的網(wǎng)址風(fēng)險(xiǎn)評(píng)估方法,其特征在于,所述多模態(tài)特征包括url特征、網(wǎng)頁文本特征與網(wǎng)頁截圖特征;
3.根據(jù)權(quán)利要求2所述的網(wǎng)址風(fēng)險(xiǎn)評(píng)估方法,其特征在于,所述網(wǎng)頁文本特征具體通過如下步驟提取得到:
4.根據(jù)權(quán)利要求1所述的網(wǎng)址風(fēng)險(xiǎn)評(píng)估方法,其特征在于,所述第二樣本特征是通過如下步驟確定的:
5.根據(jù)權(quán)利要求1所述的網(wǎng)址風(fēng)險(xiǎn)評(píng)估方法,其特征在于,所述基準(zhǔn)模型是基于第一樣本特征與第二樣本特征,對(duì)預(yù)設(shè)風(fēng)險(xiǎn)評(píng)估模型進(jìn)行聯(lián)合訓(xùn)練得到的;所述預(yù)設(shè)風(fēng)險(xiǎn)評(píng)估模型的具體表達(dá)式如下:
6.根據(jù)權(quán)利要求1所述的網(wǎng)址風(fēng)險(xiǎn)評(píng)估方法,其特征在于,所述增強(qiáng)網(wǎng)址數(shù)據(jù)是通過如下步驟確定的:
7.根據(jù)權(quán)利要求1-6任一項(xiàng)所述的網(wǎng)址風(fēng)險(xiǎn)評(píng)估方法,其特征在于,所述基于所述網(wǎng)址風(fēng)險(xiǎn)概率對(duì)所述待評(píng)估網(wǎng)址進(jìn)行安全防護(hù),包括:
8.一種網(wǎng)址風(fēng)險(xiǎn)評(píng)估裝置,其特征在于,包括:
9.一種電子設(shè)備,包括處理器和存儲(chǔ)有計(jì)算機(jī)程序的存儲(chǔ)器,其特征在于,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)權(quán)利要求1至7任一項(xiàng)所述的網(wǎng)址風(fēng)險(xiǎn)評(píng)估方法。
10.一種存儲(chǔ)介質(zhì),所述存儲(chǔ)介質(zhì)為計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),包括計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)權(quán)利要求1至7任一項(xiàng)所述的網(wǎng)址風(fēng)險(xiǎn)評(píng)估方法。