本發(fā)明涉及網絡流量數據處理,特別是指一種網絡流量需求數據生成方法、裝置、設備及可讀存儲介質
背景技術:
1、流量測量和分析的工作只注重發(fā)現流量分布的差異,而未能全面地總結流量建模方案需要滿足的要求;“流量時序到達模型”所提出的統計學模型只能解釋特定場景下的流量時序到達特征,泛化能力和魯棒性較差;“流量時序到達模型”只關注單一維度的流量屬性(包間隔/流間隔),而忽視了流大小、流量空間分布等同等重要的流量屬性;“流量矩陣模型”的關注目標是粗粒度的流量信息,缺少細粒度的逐流/逐包信息,導致其應用場景和應用效果有限;“基于深度學習的流量生成模型”對算力的要求較高,導致建模效率存在不足。因此,現有技術中針對數據中心網絡流量的特征分析或建模方法無法同時滿足細粒度、泛用性以及高精度。
技術實現思路
1、本發(fā)明的目的是提供一種網絡流量需求數據生成方法、裝置、設備及可讀存儲介質,用以解決現有技術中針對數據中心網絡流量的特征分析或建模方法無法同時滿足細粒度、泛用性以及高精度的問題。
2、為達到上述目的,本發(fā)明的實施例提供一種網絡流量需求數據生成方法,包括:
3、獲取流量需求數據集,所述流量需求數據集包括源地址、目的地址、流間隔以及流大??;
4、采用貝葉斯模型對所述流量需求數據集中的流間隔以及流大小建立聯合概率分布模型;
5、采用馬爾科夫狀態(tài)轉移模型對所述流量需求數據集中的流間隔以及流大小進行建模,得到第一模型,所述第一模型用于表征所述流量需求數據的時序依賴關系;
6、根據所述流量需求數據集對所述聯合概率分布模型進行訓練,得到目標模型;
7、根據所述流量需求數據集、所述第一模型以及所述第二模型,生成流量需求數據。
8、進一步地,所述獲取流量需求數據集,包括:
9、根據接收到的網絡流量數據,提取包級別的流量數據;
10、對所述包級別的流量數據進行處理,得到第一流量數據,所述第一流量數據為至少一個流對應的流量數據;
11、根據所述第一流量數據,得到所述流量需求數據集。
12、進一步地,所述對所述包級別的流量數據進行處理,得到第一流量數據,包括以下一項:
13、根據所述流量數據中的源地址、目標地址和被動超時間隔,對所述包級別的流量數據進行劃分,得到所述第一流量數據;
14、根據網絡會話語義信息對所述包級別的流量數據進行劃分,得到所述第一流量數據。
15、進一步地,所述根據所述第一流量數據,得到所述流量需求數據集,包括:
16、通過積累分布函數對所述第一流量數據中的流間隔以及流大小進行等頻分箱處理,得到所述流量需求數據集。
17、進一步地,其特征在于,所述根據所述流量需求數據集對所述聯合概率分布模型進行訓練,得到第二模型,包括:
18、根據所述流量需求數據集中流量分布的相似性,所述流量需求數據集進行聚合處理,得到至少一類子數據集;所述子數據集用于表征源-目的地址與所述流間隔和所述流大小的對應關系;
19、將所述子數據集作為訓練樣本,對所述聯合概率分布模型進行訓練;
20、通過gibbs采樣法從訓練樣本中進行估計,得到所述第二模型。
21、進一步地,所述根據所述流量需求數據集、所述第一模型以及所述目標模型,生成流量需求數據,包括:
22、將所述子數據集作為所述第二模型的輸入,得到第一中間數據;
23、將所述第一中間數據作為所述第一模型的輸入,得到所述流量需求數據。
24、進一步地,所述第一模型為:
25、
26、其中,t代表觀測區(qū)間的長度,即所述流量需求數據集對應的時間區(qū)間;ni,j,t代表每個小時間窗口內所述流大小從狀態(tài)i轉移到狀態(tài)j的頻率,或者,ni,j,t代表每個小時間窗口內所述流間隔從狀態(tài)i轉移到狀態(tài)j的頻率;ni,t代表第t個時間窗口內流大小處于i的頻率,或者,ni,t代表第t個時間窗口內流間隔處于i的頻率。
27、為達到上述目的,本發(fā)明的實施例提供一種網絡流量需求數據生成裝置,包括:
28、獲取模塊,用于獲取流量需求數據集,所述流量需求數據集包括源地址、目的地址、流間隔以及流大?。?/p>
29、第一建模模塊,用于采用貝葉斯模型對所述流量需求數據集中的流間隔以及流大小建立聯合概率分布模型;
30、第二建模模塊,用于采用馬爾科夫狀態(tài)轉移模型對所述流量需求數據集中的流間隔以及流大小進行建模,得到第一模型,所述第一模型用于表征所述流量需求數據的時序依賴關系;
31、訓練模塊,用于根據所述流量需求數據集對所述聯合概率分布模型進行訓練,得到第二模型;
32、生成模塊,用于根據所述流量需求數據集、所述第一模型以及所述第二模型,生成流量需求數據。
33、為達到上述目的,本發(fā)明的實施例提供一種網絡流量需求數據生成設備,其特征在于,包括:收發(fā)機和處理器;
34、所述收發(fā)機用于獲取流量需求數據集,所述流量需求數據集包括源地址、目的地址、流間隔以及流大?。?/p>
35、所述處理器用于采用貝葉斯模型對所述流量需求數據集中的流間隔以及流大小建立聯合概率分布模型;
36、采用馬爾科夫狀態(tài)轉移模型對所述流量需求數據集中的流間隔以及流大小進行建模,得到第一模型,所述第一模型用于表征所述流量需求數據的時序依賴關系;
37、根據所述流量需求數據集對所述聯合概率分布模型進行訓練,得到第二模型;
38、根據所述流量需求數據集、所述第一模型以及所述目標模型,生成流量需求數據。
39、為達到上述目的,本發(fā)明的實施例提供一種終端設備,包括收發(fā)器、處理器、存儲器及存儲在所述存儲器上并可在所述處理器上運行的程序或指令;所述處理器執(zhí)行所述程序或指令時實現如上所述的網絡流量需求數據生成方法。
40、為達到上述目的,本發(fā)明的實施例提供一種可讀存儲介質,其上存儲有程序或指令,所述程序或指令被處理器執(zhí)行時實現如上所述的網絡流量需求數據生成方法中的步驟。
41、本發(fā)明的上述技術方案的有益效果如下:
42、本發(fā)明實施例的網絡流量需求數據生成方法,通過貝葉斯模型對流量多維屬性的聯合分布進行建模,并結合馬爾可夫狀態(tài)轉移模型進一步刻畫流量的時序依賴關系。能夠同時對網絡流量多個維度屬性的聯合分布進行建模,在建模精度方面能夠媲美基于深度學習網絡的流量生成模型,但建模和訓練的復雜度低于深度學習模型。本發(fā)明的方案解決了現有技術中針對數據中心網絡流量的特征分析或建模方法無法同時滿足細粒度、泛用性以及高精度的問題。
1.一種網絡流量需求數據生成方法,其特征在于,包括:
2.根據權利要求1所述的網絡流量需求數據生成方法,其特征在于,所述獲取流量需求數據集,包括:
3.根據權利要求2所述的網絡流量需求數據生成方法,其特征在于,所述對所述包級別的流量數據進行處理,得到第一流量數據,包括以下一項:
4.根據權利要求2所述的網絡流量需求數據生成方法,其特征在于,所述根據所述第一流量數據,得到所述流量需求數據集,包括:
5.根據權利要求1所述的網絡流量需求數據生成方法,其特征在于,所述根據所述流量需求數據集對所述聯合概率分布模型進行訓練,得到第二模型,包括:
6.根據權利要求5所述的網絡流量需求數據生成方法,其特征在于,所述根據所述流量需求數據集、所述第一模型以及所述第二模型,生成流量需求數據,包括:
7.根據權利要求1或6所述的網絡流量需求數據生成方法,其特征在于,所述第一模型為:
8.一種網絡流量需求數據生成裝置,其特征在于,包括:
9.一種網絡流量需求數據生成設備,其特征在于,包括:收發(fā)機和處理器;
10.一種終端設備,包括:收發(fā)器、處理器、存儲器及存儲在所述存儲器上并可在所述處理器上運行的程序或指令;其特征在于,所述處理器執(zhí)行所述程序或指令時實現如權利要求1-7任一項所述的網絡流量需求數據生成方法。
11.一種可讀存儲介質,其上存儲有程序或指令,其特征在于,所述程序或指令被處理器執(zhí)行時實現如權利要求1-7任一項所述的網絡流量需求數據生成方法中的步驟。