本技術(shù)涉及數(shù)據(jù)處理,尤其涉及一種網(wǎng)元數(shù)據(jù)聚類方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)。
背景技術(shù):
1、在通信領(lǐng)域飛速發(fā)展的大背景下,將人工智能技術(shù)賦能于網(wǎng)絡(luò)運(yùn)維,精準(zhǔn)預(yù)測(cè)未來時(shí)間的網(wǎng)元負(fù)荷,建設(shè)網(wǎng)絡(luò)智能化體系能給傳統(tǒng)的運(yùn)維方式帶來前所未有的變革和提升。海量的網(wǎng)元負(fù)荷指標(biāo)擁有不同的屬性指標(biāo)和變化規(guī)律,單一的模型建模難以對(duì)海量的網(wǎng)元精準(zhǔn)預(yù)測(cè),而若是對(duì)每一個(gè)網(wǎng)元構(gòu)建一個(gè)模型不僅將耗費(fèi)大量的訓(xùn)練資源,也會(huì)浪費(fèi)大量的空間去存儲(chǔ)不斷新增的網(wǎng)元模型。因此,需要先對(duì)網(wǎng)元負(fù)荷數(shù)據(jù)進(jìn)行聚類,將不同類別的網(wǎng)元指標(biāo)曲線分別使用不同的預(yù)測(cè)模型訓(xùn)練,不僅可以提高模型預(yù)測(cè)的精度,還可以一定程度上減少對(duì)每個(gè)單一數(shù)據(jù)曲線建模造成的資源損耗。因此,在面臨多指標(biāo)網(wǎng)元時(shí)間序列預(yù)測(cè)任務(wù)或質(zhì)差網(wǎng)元檢測(cè)時(shí),如何將曲線聚合成不同的簇是一個(gè)十分重要的研究方向?,F(xiàn)在主流的方案:針對(duì)每一個(gè)網(wǎng)元指標(biāo)曲線,首先利用數(shù)據(jù)降維提取固定長度的特征。然后對(duì)提取后的每個(gè)曲線使用密度聚類算法(density-based?spatial?clustering?ofapplications?with?noise,dbsan)聚類,自動(dòng)得到每條曲線所屬的類別。該方案只考慮了基礎(chǔ)的網(wǎng)元曲線數(shù)據(jù)波動(dòng),沒有考慮對(duì)網(wǎng)元數(shù)據(jù)中深層次的特征進(jìn)行表征,導(dǎo)致聚類的效果較差。
技術(shù)實(shí)現(xiàn)思路
1、本技術(shù)實(shí)施例提供的一種網(wǎng)元數(shù)據(jù)聚類方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì),可以提高對(duì)多個(gè)網(wǎng)元數(shù)據(jù)的聚類效果。
2、本技術(shù)的技術(shù)方案是這樣實(shí)現(xiàn)的:
3、本技術(shù)實(shí)施例提供了一種網(wǎng)元數(shù)據(jù)聚類方法,包括:
4、獲取多個(gè)網(wǎng)元時(shí)序數(shù)據(jù);
5、針對(duì)每一所述網(wǎng)元時(shí)序數(shù)據(jù)提取對(duì)應(yīng)的數(shù)據(jù)特征;其中,所述數(shù)據(jù)特征用于反映每一所述網(wǎng)元時(shí)序數(shù)據(jù)以下特征中的一個(gè)或多個(gè):數(shù)據(jù)曲線特征、周期特征、峰谷殘差特征、統(tǒng)計(jì)類特征和與其他的所述網(wǎng)元時(shí)序數(shù)據(jù)之間的相關(guān)性特征;
6、基于每一所述數(shù)據(jù)特征對(duì)多個(gè)所述網(wǎng)元時(shí)序數(shù)據(jù)進(jìn)行聚類,得到聚類結(jié)果。
7、上述方案中,所述針對(duì)每一所述網(wǎng)元時(shí)序數(shù)據(jù)提取對(duì)應(yīng)的數(shù)據(jù)特征,包括:
8、對(duì)每一所述網(wǎng)元時(shí)序數(shù)據(jù)進(jìn)行時(shí)序波動(dòng)性分析,確定所述數(shù)據(jù)曲線特征和所述峰谷殘差特征;
9、基于對(duì)每一所述網(wǎng)元時(shí)序數(shù)據(jù)進(jìn)行多個(gè)類別周期長度的數(shù)據(jù)切分,確定所述周期特征;其中,多個(gè)類別的所述周期長度是基于所述網(wǎng)元時(shí)序數(shù)據(jù)中數(shù)據(jù)的頻率確定的;
10、確定每一所述網(wǎng)元時(shí)序數(shù)據(jù)對(duì)應(yīng)的所述統(tǒng)計(jì)類特征;
11、基于每一所述網(wǎng)元時(shí)序數(shù)據(jù)與其他的所述網(wǎng)元時(shí)序數(shù)據(jù)之間的相似性確定所述相關(guān)性特征;
12、基于所述數(shù)據(jù)曲線特征、所述周期特征、所述峰谷殘差特征、所述統(tǒng)計(jì)類特征和所述相關(guān)性特征確定所述數(shù)據(jù)特征。
13、上述方案中,所述對(duì)每一所述網(wǎng)元時(shí)序數(shù)據(jù)進(jìn)行時(shí)序波動(dòng)性分析,確定所述數(shù)據(jù)曲線特征和所述峰谷殘差特征,包括:
14、對(duì)每一所述網(wǎng)元時(shí)序數(shù)據(jù)進(jìn)行歸一化處理確定對(duì)應(yīng)的網(wǎng)元縮放時(shí)序數(shù)據(jù);
15、基于滑動(dòng)窗口的方法對(duì)每一所述網(wǎng)元縮放時(shí)序數(shù)據(jù)進(jìn)行平滑處理,確定對(duì)應(yīng)的平滑時(shí)序數(shù)據(jù);
16、基于所述平滑時(shí)序數(shù)據(jù)和每一所述網(wǎng)元時(shí)序數(shù)據(jù)對(duì)應(yīng)的時(shí)間特征,確定所述數(shù)據(jù)曲線特征;其中,所述時(shí)間特征是基于每一所述網(wǎng)元時(shí)序數(shù)據(jù)對(duì)應(yīng)的多個(gè)時(shí)間點(diǎn)確定的;
17、基于所述網(wǎng)元縮放時(shí)序數(shù)據(jù)與所述平滑時(shí)序數(shù)據(jù)中相同時(shí)間點(diǎn)之間的數(shù)據(jù)差,確定殘差數(shù)據(jù);
18、基于所述殘差數(shù)據(jù)與預(yù)定系數(shù)之積確定所述峰谷殘差特征;其中,所述預(yù)定系數(shù)是基于所述網(wǎng)元時(shí)序數(shù)據(jù)所處的時(shí)段確定的。
19、上述方案中,所述基于對(duì)每一所述網(wǎng)元時(shí)序數(shù)據(jù)進(jìn)行多個(gè)類別周期長度的數(shù)據(jù)切分,確定所述周期特征,包括:
20、基于每一所述網(wǎng)元時(shí)序數(shù)據(jù)中的數(shù)據(jù)頻率確定多個(gè)類別的所述周期長度;
21、針對(duì)每一所述網(wǎng)元時(shí)序數(shù)據(jù)按照每一類別的所述周期長度進(jìn)行數(shù)據(jù)切分,得到對(duì)應(yīng)每一類別的所述周期長度的多個(gè)子周期數(shù)據(jù);
22、基于多個(gè)所述子周期數(shù)據(jù),確定每一類別的所述周期長度對(duì)應(yīng)的特征向量;
23、基于每一所述特征向量進(jìn)行堆疊卷積處理確定所述周期特征。
24、上述方案中,所述基于所述數(shù)據(jù)曲線特征、所述周期特征、所述峰谷殘差特征、所述統(tǒng)計(jì)類特征和所述相關(guān)性特征確定所述數(shù)據(jù)特征,包括:
25、通過預(yù)設(shè)編碼器對(duì)所述數(shù)據(jù)曲線特征、所述周期特征、所述峰谷殘差特征、所述統(tǒng)計(jì)類特征和所述相關(guān)性特征分別進(jìn)行訓(xùn)練,確定所述數(shù)據(jù)曲線特征、所述周期特征、所述峰谷殘差特征、所述統(tǒng)計(jì)類特征和所述相關(guān)性特征分別對(duì)應(yīng)的隱向量;
26、基于多個(gè)所述隱向量進(jìn)行加權(quán)平均確定所述數(shù)據(jù)特征。
27、上述方案中,所述基于每一所述數(shù)據(jù)特征對(duì)多個(gè)所述網(wǎng)元時(shí)序數(shù)據(jù)進(jìn)行聚類,得到聚類結(jié)果,包括:
28、基于每一所述數(shù)據(jù)特征之間的特征距離對(duì)多個(gè)所述數(shù)據(jù)特征進(jìn)行k次聚類,得到每次聚類后的簇以及每次聚類后對(duì)應(yīng)的特征和;其中,所述特征和用于表征每次聚類后的簇中的所述數(shù)據(jù)特征與對(duì)應(yīng)的聚類中心之間的特征距離和;其中,k為大于1的整數(shù);每次聚類后的簇?cái)?shù)比前一次聚類后的簇?cái)?shù)多1;
29、基于k個(gè)所述特征和中每一所述特征和與前一個(gè)所述特征和之間的變化率確定第m次聚類之后的m個(gè)簇;其中,m個(gè)簇對(duì)應(yīng)的所述特征和的所述變化率最大;m為大于1不大于k的整數(shù);
30、基于m+1個(gè)簇對(duì)多個(gè)所述網(wǎng)元時(shí)序數(shù)據(jù)進(jìn)行聚類得到所述聚類結(jié)果。
31、上述方案中,所述基于每一所述數(shù)據(jù)特征之間的特征距離對(duì)多個(gè)所述數(shù)據(jù)特征進(jìn)行k次聚類,得到每次聚類后的簇以及每次聚類后對(duì)應(yīng)的特征和,包括:
32、基于每一所述數(shù)據(jù)特征與第一聚類中心之間的特征距離,確定距離所述第一聚類中心最遠(yuǎn)的第二聚類中心;其中,所述第一聚類中心為任一所述數(shù)據(jù)特征;
33、基于每一所述數(shù)據(jù)特征與所述第一聚類中心和所述第二聚類中心之間的特征距離,對(duì)多個(gè)所述數(shù)據(jù)特征進(jìn)行聚類得到兩個(gè)簇,并確定兩個(gè)所述簇對(duì)應(yīng)的第二特征和;
34、基于每一數(shù)據(jù)特征與所述第一聚類中心和所述第二聚類中心之間的特征距離,確定距離所述第一聚類中心和所述第二聚類中心最遠(yuǎn)的第三聚類中心,并基于每一數(shù)據(jù)特征與三個(gè)所述聚類中心對(duì)多個(gè)所述數(shù)據(jù)特征再次進(jìn)行聚類得到三個(gè)簇以及三個(gè)簇對(duì)應(yīng)的第三特征和,直至對(duì)多個(gè)所述數(shù)據(jù)特征進(jìn)行聚類達(dá)到預(yù)定條件時(shí)停止,得到k個(gè)簇以及k個(gè)簇對(duì)應(yīng)的第k特征和。
35、上述方案中,所述基于每一所述數(shù)據(jù)特征與所述第一聚類中心和所述第二聚類中心之間的特征距離,對(duì)多個(gè)所述數(shù)據(jù)特征進(jìn)行聚類得到兩個(gè)簇,并確定兩個(gè)所述簇對(duì)應(yīng)的第二特征和,包括:
36、確定每一所述數(shù)據(jù)特征與所述第一聚類中心之間的第一特征距離,以及每一所述數(shù)據(jù)特征與所述第二聚類中心之間的第二特征距離;
37、將小于預(yù)定閾值的所述第一特征距離對(duì)應(yīng)的所述數(shù)據(jù)特征劃分至所述第一聚類中心的第一簇中,將小于所述預(yù)定閾值的所述第二特征距離對(duì)應(yīng)的所述數(shù)據(jù)特征劃分至所述第二聚類中心的第二簇中;
38、確定所述第一簇中的所述數(shù)據(jù)特征與所述第一聚類中心的第一特征距離和,以及所述第二簇中的所述數(shù)據(jù)特征與所述第二聚類中心的第二特征距離和,并將所述第一特征距離和與所述第二特征距離和相加得到所述第二特征和。
39、本技術(shù)實(shí)施例還提供了一種網(wǎng)元數(shù)據(jù)聚類裝置,包括:
40、數(shù)據(jù)獲取單元,用于獲取多個(gè)網(wǎng)元時(shí)序數(shù)據(jù);
41、特征提取單元,用于針對(duì)每一所述網(wǎng)元時(shí)序數(shù)據(jù)提取對(duì)應(yīng)的數(shù)據(jù)特征;其中,所述數(shù)據(jù)特征用于反映每一所述網(wǎng)元時(shí)序數(shù)據(jù)以下特征中的一個(gè)或多個(gè):數(shù)據(jù)曲線特征、周期特征、峰谷殘差特征、統(tǒng)計(jì)類特征和與其他的所述網(wǎng)元時(shí)序數(shù)據(jù)之間的相關(guān)性特征;
42、聚類單元,用于基于每一所述數(shù)據(jù)特征對(duì)多個(gè)所述網(wǎng)元時(shí)序數(shù)據(jù)進(jìn)行聚類,得到聚類結(jié)果。
43、本技術(shù)實(shí)施例還提供了一種電子設(shè)備,包括存儲(chǔ)器和處理器,所述存儲(chǔ)器存儲(chǔ)有可在處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)上述方法中的步驟。
44、本技術(shù)實(shí)施例還提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述方法中的步驟。
45、本技術(shù)實(shí)施例還提供了一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,所述計(jì)算機(jī)程序在被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述方法中的步驟。
46、本技術(shù)實(shí)施例中,獲取多個(gè)網(wǎng)元時(shí)序數(shù)據(jù);針對(duì)每一網(wǎng)元時(shí)序數(shù)據(jù)提取對(duì)應(yīng)的數(shù)據(jù)特征;其中,數(shù)據(jù)特征用于反映每一網(wǎng)元時(shí)序數(shù)據(jù)以下特征中的一個(gè)或多個(gè):數(shù)據(jù)曲線特征、周期特征、峰谷殘差特征、統(tǒng)計(jì)類特征和與其他的網(wǎng)元時(shí)序數(shù)據(jù)之間的相關(guān)性特征;基于每一數(shù)據(jù)特征對(duì)多個(gè)網(wǎng)元時(shí)序數(shù)據(jù)進(jìn)行聚類,得到聚類結(jié)果。這樣,相比于相關(guān)技術(shù)中基于基礎(chǔ)的網(wǎng)元曲線數(shù)據(jù)波動(dòng)對(duì)網(wǎng)元數(shù)據(jù)進(jìn)行聚類的方案,本技術(shù)實(shí)施例中通過基于數(shù)據(jù)曲線特征、周期特征、峰谷殘差特征、統(tǒng)計(jì)類特征和與其他的網(wǎng)元時(shí)序數(shù)據(jù)之間的相關(guān)性特征對(duì)多個(gè)網(wǎng)元時(shí)序數(shù)據(jù)進(jìn)行聚類,考慮的更多且更全面,所以本技術(shù)實(shí)施例中對(duì)多個(gè)網(wǎng)元時(shí)序數(shù)據(jù)進(jìn)行聚類的聚類效果更好。