本發(fā)明涉及網(wǎng)絡(luò)安全,具體為一種基于機器學(xué)習(xí)的網(wǎng)絡(luò)安全威脅分析方法。
背景技術(shù):
1、網(wǎng)絡(luò)安全是信息技術(shù)領(lǐng)域中的一個重要分支,致力于保護計算機系統(tǒng)和網(wǎng)絡(luò)免受各種威脅和攻擊。在網(wǎng)絡(luò)安全領(lǐng)域中,威脅檢測是一個關(guān)鍵的具體方面,專注于識別和應(yīng)對潛在的安全威脅。威脅檢測技術(shù)通過分析網(wǎng)絡(luò)流量、系統(tǒng)日志和其他相關(guān)數(shù)據(jù),幫助企業(yè)和組織預(yù)防和抵御網(wǎng)絡(luò)攻擊。在威脅檢測的具體方法中,基于機器學(xué)習(xí)的威脅分析方法由于其高效性和準(zhǔn)確性,逐漸成為主流。
2、現(xiàn)有威脅檢測方法的不足之處主要源于其依賴于預(yù)先定義的簽名和規(guī)則,難以應(yīng)對新型和未知威脅。當(dāng)這些方法未能及時更新時,新型攻擊可能會輕易繞過檢測,造成嚴(yán)重后果。這些不足之處導(dǎo)致系統(tǒng)在面對高級持續(xù)性威脅(apt)、零日攻擊和變種惡意軟件時表現(xiàn)不佳,增加了網(wǎng)絡(luò)系統(tǒng)的安全風(fēng)險。一旦發(fā)生此類威脅,可能導(dǎo)致數(shù)據(jù)泄露、系統(tǒng)癱瘓和經(jīng)濟損失,嚴(yán)重影響企業(yè)和組織的正常運營和聲譽。
技術(shù)實現(xiàn)思路
1、(一)解決的技術(shù)問題
2、針對現(xiàn)有技術(shù)的不足,本發(fā)明提供了一種基于機器學(xué)習(xí)的網(wǎng)絡(luò)安全威脅分析方法,解決了上述背景技術(shù)中所提出的在面對高級持續(xù)性威脅(apt)、零日攻擊和變種惡意軟件時表現(xiàn)不佳,增加了網(wǎng)絡(luò)系統(tǒng)的安全風(fēng)險的問題。
3、(二)技術(shù)方案
4、為實現(xiàn)以上目的,本發(fā)明通過以下技術(shù)方案予以實現(xiàn):一種基于機器學(xué)習(xí)的網(wǎng)絡(luò)安全威脅分析方法,具體步驟包括;
5、s1、設(shè)置識別器組,分別從網(wǎng)絡(luò)終端獲取實時網(wǎng)絡(luò)數(shù)據(jù)集和樣本網(wǎng)絡(luò)數(shù)據(jù)集,并對實時網(wǎng)絡(luò)數(shù)據(jù)集和往期網(wǎng)絡(luò)數(shù)據(jù)集進行預(yù)處理;
6、s2、對預(yù)處理后的實時網(wǎng)絡(luò)數(shù)據(jù)集和樣本網(wǎng)絡(luò)數(shù)據(jù)集中篩選出與目標(biāo)變量相關(guān)性較高的特征,再利用降維技術(shù),減少特征數(shù)量,保留最有信息量的特征,去除冗余特征并生成第一數(shù)據(jù)集和第二數(shù)據(jù)集;
7、s3、建立分析模型,并將分析模型離線,將第二數(shù)據(jù)集作為樣本數(shù)據(jù),將第二數(shù)據(jù)集輸入至分析模型內(nèi)進行多次推演,獲取若干個樣本危險系數(shù)值yfx,并對若干個樣本危險系數(shù)值yfx進行整合,生成第一閾值y,并上線分析模型;
8、s4、將第一數(shù)據(jù)集輸入至上線后的分析模型內(nèi)進行推演,獲取實時風(fēng)險系數(shù)值sfx,并將實時風(fēng)險系數(shù)值sfx與第一閾值y進行對比,從而生成第一對比結(jié)果,并根據(jù)第一對比結(jié)果,判斷系統(tǒng)是否遭受安全威脅,若第一對比結(jié)果顯示出現(xiàn)安全威脅,將實時風(fēng)險系數(shù)值sfx與第一閾值y進行整合生成風(fēng)險量級系數(shù),并將風(fēng)險量級系數(shù)與預(yù)設(shè)的第二閾值r進行對比,從而對安全威脅進行量級劃分;
9、s5、將第一對比結(jié)果和第二對比結(jié)果通過顯示模塊發(fā)送至終端。
10、優(yōu)選的,步驟s1中,通過設(shè)置識別器組從網(wǎng)絡(luò)終端中獲取以下數(shù)據(jù);
11、平均數(shù)據(jù)包大小、每秒數(shù)據(jù)包量、平均流量間隔、源ip頻率、目標(biāo)ip頻率以及協(xié)議分布比例;
12、其中實時網(wǎng)絡(luò)數(shù)據(jù)集包括:實時平均數(shù)據(jù)包容量值sps、實時每秒數(shù)據(jù)包傳輸量值sss、實時平均流量間隔值spi、實時源ip頻率值ssf、實時目標(biāo)ip頻率值sdf以及實時協(xié)議分布比例值spr;
13、樣本網(wǎng)絡(luò)數(shù)據(jù)集包括:樣本平均數(shù)據(jù)包容量值yps、樣本每秒數(shù)據(jù)包傳輸量值yss、樣本平均流量間隔值ypi、樣本源ip頻率值ysf、樣本目標(biāo)ip頻率值ydf以及樣本協(xié)議分布比例值ypr。
14、優(yōu)選的,步驟s1中,預(yù)處理方式包括對實時網(wǎng)絡(luò)數(shù)據(jù)集和往期網(wǎng)絡(luò)數(shù)據(jù)集進行數(shù)據(jù)清洗,并處理缺失值、重復(fù)值和異常值,使用插值法和填充法對缺失值和異常值進行處理,并去除重復(fù)數(shù)據(jù);
15、第一數(shù)據(jù)集包括:實時平均數(shù)據(jù)包容量值sps、實時每秒數(shù)據(jù)包傳輸量值sss、實時平均流量間隔值spi、實時源ip頻率值ssf、實時目標(biāo)ip頻率值sdf以及實時協(xié)議分布比例值spr;
16、第二數(shù)據(jù)集包括:樣本平均數(shù)據(jù)包容量值yps、樣本每秒數(shù)據(jù)包傳輸量值yss、樣本平均流量間隔值ypi、樣本源ip頻率值ysf、樣本目標(biāo)ip頻率值ydf以及樣本協(xié)議分布比例值ypr。
17、優(yōu)選的,樣本危險系數(shù)值yfx通過下述公式計算獲?。?/p>
18、
19、式中:s1為第一序列參考系數(shù),s2為第二序列參考系數(shù),s1和s2通過第二數(shù)據(jù)集整合計算進行獲取,e為底數(shù)函數(shù)。
20、優(yōu)選的,第一序列參考系數(shù)s1和第二序列參考系數(shù)s2分別通過下述公式計算獲?。?/p>
21、
22、s2=b1×ysf+b2×log(1+ydf)+b3×ypr2;
23、式中:yps為樣本平均數(shù)據(jù)包容量值,yps為樣本每秒數(shù)據(jù)包傳輸量值,ypi為樣本平均流量間隔值,ysf為樣本源ip頻率值,ydf為樣本目標(biāo)ip頻率值,ypr為樣本協(xié)議分布比例值;
24、a1、a2、a3、b1、b2以及b3為權(quán)重值,且a1、a2、a3、b1、b2以及b3的值由用戶調(diào)整設(shè)置。
25、優(yōu)選的,第一閾值y通過下述步驟獲??;
26、s2.1、將若干個計算出的樣本危險系數(shù)按照小到大的順序進行排序,通過計算到中間位置的樣本危險系數(shù)值yfx,記為居中值;
27、s2.2、將若干個樣本危險系數(shù)分別與居中值進行計算,從而獲取若干個居中差值,并對若干個居中差值進行整合計算,從而生成終差值;
28、s2.3、將居中值與終差值進行整合計算,從而生成第一閾值y。
29、優(yōu)選的,步驟s2.1中,居中值通過下述公式計算獲??;
30、當(dāng)樣本危險系數(shù)值yfx的總數(shù)為奇數(shù)時,居中值記為jz1,具體計算方式為:
31、
32、當(dāng)樣本危險系數(shù)值yfx的總數(shù)為偶數(shù)時,居中值記為jz2,具體計算方式為:
33、
34、式中:n為樣本危險系數(shù)值yfx的編號數(shù),代表有n個樣本危險系數(shù)值yfx。
35、優(yōu)選的,終差值通過下述公式計算獲?。?/p>
36、
37、式中:jz1為奇數(shù)下的居中值,jz2為偶數(shù)下的居中值,zc1為奇數(shù)下的終差值,zc2為偶數(shù)下的終差值,yfx1、yfx2、yfx3、...、yfxn分別代表共計n個的樣本危險系數(shù)。
38、優(yōu)選的,第一閾值y的計算公式如下:
39、y=j(luò)z-zc;
40、式中:jz包括jz1和jz2,zc包括zc1和zc2。
41、優(yōu)選的,第一對比結(jié)果和第二對比結(jié)果分別如下;
42、第一對比結(jié)果為:
43、當(dāng)sfx≤y時,代表當(dāng)前網(wǎng)絡(luò)無安全威脅;
44、當(dāng)sfx>y時,代表當(dāng)前網(wǎng)絡(luò)有安全威脅;
45、第二對比結(jié)果為:
46、當(dāng)時,代表當(dāng)前網(wǎng)絡(luò)處于一級完全威脅;
47、當(dāng)時,代表當(dāng)前網(wǎng)絡(luò)處于二級完全威脅;
48、當(dāng)時,代表當(dāng)前網(wǎng)絡(luò)處于三級完全威脅;
49、其中sfx為實時風(fēng)險系數(shù)值,通過第一數(shù)據(jù)集計算獲取,y為第一閾值,r為第二閾值。
50、(三)有益效果
51、本發(fā)明提供了基于機器學(xué)習(xí)的網(wǎng)絡(luò)安全威脅分析方法。具備以下有益效果:
52、(1)該基于機器學(xué)習(xí)的網(wǎng)絡(luò)安全威脅分析方法,通過全面的數(shù)據(jù)采集與預(yù)處理,提高了數(shù)據(jù)質(zhì)量;通過特征篩選與降維,增強了模型的性能;通過多次推演和整合生成穩(wěn)健的閾值,為實際應(yīng)用中的威脅檢測提供了準(zhǔn)確的基準(zhǔn);通過實時風(fēng)險評估與威脅判斷,提高了方法的敏捷性和準(zhǔn)確性;通過直觀的顯示與報警機制,提升了安全管理的響應(yīng)速度和有效性。
53、(2)該基于機器學(xué)習(xí)的網(wǎng)絡(luò)安全威脅分析方法,本方法通過精細化的中位數(shù)計算以及居中差值計算,動態(tài)權(quán)重調(diào)整和數(shù)據(jù)驅(qū)動的閾值設(shè)定,提升了模型的預(yù)測準(zhǔn)確性和穩(wěn)健性,綜合考慮居中值和離散程度的閾值計算方法,使得本方法在面對復(fù)雜多變的網(wǎng)絡(luò)環(huán)境時,能夠更加精準(zhǔn)和高效地識別和應(yīng)對各種安全威脅。