本公開涉及數(shù)據(jù)處理,尤其涉及一種異常事件的檢測方法及裝置、電子設(shè)備和存儲介質(zhì)。
背景技術(shù):
1、隨著云計算、大數(shù)據(jù)等技術(shù)的高速發(fā)展,新的it(information?technology,信息技術(shù))系統(tǒng)規(guī)模不斷擴大升級,每天都產(chǎn)生海量的數(shù)據(jù),這使得運維工作量越來越大,運維管理難度也越來越高。告警,是運維人員了解系統(tǒng)運行狀況的重要途徑,是一種常見的信息來源,運維人員通過對故障報警的原因進行分析和定位,找出故障產(chǎn)生的具體原因和位置。但是在大型復雜的it系統(tǒng)下,設(shè)備數(shù)量動輒成千上萬、應(yīng)用系統(tǒng)緊密相連,任何一個小小的it問題都有可能引發(fā)一場告警風暴(告警風暴是指短時間內(nèi)系統(tǒng)產(chǎn)生大量告警),這些告警有的是由于某種共同因素引發(fā),互相之間存在一定關(guān)聯(lián)。大量同一事故源引發(fā)的告警信息會極大地干擾運維人員的工作,導致運維人員疲于應(yīng)付大量的告警消息,耗費更多時間排查和處理問題,大大降低了運維效率。更為嚴重的是,真正關(guān)鍵的告警信息可能淹沒其中,運維人員無法第一時間發(fā)現(xiàn)根源問題,延誤了故障處理時間。
2、為了提高運維效率,相關(guān)技術(shù)中主要通過設(shè)置特定的時間窗口,對告警數(shù)據(jù)進行分割。統(tǒng)計各個時間窗口當中的告警出現(xiàn)的次數(shù),告警當中的關(guān)鍵詞出現(xiàn)的次數(shù)等,其中關(guān)鍵詞是通過借助專家經(jīng)驗所整理出的異常告警關(guān)鍵詞表。在實際實施過程當中,人為設(shè)置告警次數(shù)閾值表,通過多次迭代的形式確定出最優(yōu)的閾值,通過專家經(jīng)驗整理的異常關(guān)鍵詞表進行匹配,最終匹配出異常告警。
3、但是,這種依賴專家經(jīng)驗設(shè)置告警閾值以確認告警的方法受外界環(huán)境影響過大,其識別結(jié)果可能存在一些誤差,例如,在采用閾值過濾告警的過程中,若閾值設(shè)置過小,會導致告警過于敏感,從而會引起告警風暴;若閾值設(shè)置過大,則會導致關(guān)鍵告警丟失,丟失掉的告警往往會引發(fā)一系列的問題,急速降低用戶體驗,大幅度縮減企業(yè)收益,甚至導致企業(yè)面對更大的商業(yè)威脅。而且在不同時間段,系統(tǒng)的調(diào)用量以及負載壓力會有區(qū)別,因此依賴專家經(jīng)驗設(shè)置告警閾值以確認告警的方法會造成較大的誤差,降低系統(tǒng)的可用性。
技術(shù)實現(xiàn)思路
1、本公開提供了一種異常事件的檢測方法及裝置、電子設(shè)備和存儲介質(zhì)。其主要目的在于解決依賴專家經(jīng)驗設(shè)置告警閾值以確認告警的方法容易造成較大誤差,從而降低系統(tǒng)的可用性的問題。
2、根據(jù)本公開的第一方面,提供了一種異常事件的檢測方法,其中,包括:
3、響應(yīng)于告警數(shù)據(jù)采集指令,提取所述告警數(shù)據(jù)采集指令對應(yīng)的原始告警數(shù)據(jù),并根據(jù)預(yù)設(shè)篩選條件從所述原始告警數(shù)據(jù)中獲取目標告警信息,所述目標告警信息中至少包含時間信息及告警信息;
4、基于第一預(yù)設(shè)時長,按照時間信息將所述告警信息轉(zhuǎn)換為告警時間序列數(shù)據(jù);
5、調(diào)用預(yù)設(shè)算法計算所述告警時間序列數(shù)據(jù)對應(yīng)的時序指標,所述時序指標為評估事件的評估指標;
6、基于所述時序指標進行異常事件的檢測,確定目標異常事件。
7、可選地,所述根據(jù)預(yù)設(shè)篩選條件從所述原始告警數(shù)據(jù)中獲取目標告警信息包括:
8、根據(jù)預(yù)設(shè)篩選條件獲取所述原始告警數(shù)據(jù)中的所述時間信息及所述告警信息;
9、將篩選后的所述時間信息及所述告警信息確定為所述目標告警信息。
10、可選地,所述基于第一預(yù)設(shè)時長,按照時間信息將所述告警信息轉(zhuǎn)換為告警時間序列數(shù)據(jù)包括:
11、按照所述時間信息,確定所述第一預(yù)設(shè)時長內(nèi)所述告警信息出現(xiàn)的次數(shù);
12、基于所述第一預(yù)設(shè)時長內(nèi)所述告警信息出現(xiàn)的次數(shù)對所述告警信息進行匯聚,得到所述告警時間序列數(shù)據(jù)。
13、可選地,所述調(diào)用預(yù)設(shè)算法計算所述告警時間序列數(shù)據(jù)對應(yīng)的時序指標包括:
14、定義所述告警時間序列數(shù)據(jù)對應(yīng)的告警次數(shù)權(quán)重及告警天數(shù)權(quán)重;
15、基于所述告警次數(shù)權(quán)重及所述告警天數(shù)權(quán)重,調(diào)用預(yù)設(shè)算法對所述告警時間序列數(shù)據(jù)對應(yīng)的時序指標進行計算。
16、可選地,所述定義所述告警時間序列數(shù)據(jù)對應(yīng)的告警次數(shù)權(quán)重及告警天數(shù)權(quán)重包括:
17、基于所述告警事件序列數(shù)據(jù),確定第二預(yù)設(shè)時長內(nèi)所述告警信息出現(xiàn)的次數(shù)和天數(shù);所述第二預(yù)設(shè)時長大于所述第一預(yù)設(shè)時長;
18、根據(jù)所述第二預(yù)設(shè)時長內(nèi)所述告警信息出現(xiàn)的次數(shù),對所述告警信息進行排序,并確定所有告警信息中的最大告警次數(shù);
19、根據(jù)所述第二預(yù)設(shè)時長內(nèi)所述告警信息出現(xiàn)的天數(shù),對所述告警信息進行排序,并確定所有告警信息中的最大告警天數(shù);
20、根據(jù)所述最大告警次數(shù)與所述第二預(yù)設(shè)時長內(nèi)的告警次數(shù)定義所述告警次數(shù)權(quán)重;
21、根據(jù)所述最大告警天數(shù)與所述第二預(yù)設(shè)時長內(nèi)的告警天數(shù)定義所述告警天數(shù)權(quán)重。
22、可選地,所述基于所述告警次數(shù)權(quán)重及所述告警天數(shù)權(quán)重,調(diào)用預(yù)設(shè)算法計算所述告警時間序列數(shù)據(jù)對應(yīng)的時序指標包括:
23、確定所述告警時間序列數(shù)據(jù)中每個告警分別對應(yīng)的告警次數(shù)權(quán)重及告警天數(shù)權(quán)重;
24、對每個告警的所述告警次數(shù)權(quán)重與告警天數(shù)權(quán)重進行加和計算,得到權(quán)重加和結(jié)果;
25、將所述權(quán)重加和結(jié)果分別與對應(yīng)的所述告警時間序列數(shù)據(jù)相乘,得到所述告警時間序列數(shù)據(jù)分別對應(yīng)的加權(quán)值;
26、按照所述時間信息,將所有告警對應(yīng)的所述加權(quán)值進行加和計算,得到所述時序指標。
27、可選地,所述基于所述時序指標進行異常事件的檢測,確定目標異常事件包括:
28、對所述時序指標進行異常檢測,確定異常的時序指標值;
29、根據(jù)所述異常的時序指標值,查找到對應(yīng)的目標告警信息;
30、基于所述目標告警信息,確定對應(yīng)的目標異常事件。
31、根據(jù)本公開的第二方面,提供了一種異常事件的檢測裝置,包括:
32、提取單元,用于響應(yīng)于告警數(shù)據(jù)采集指令,提取所述告警數(shù)據(jù)采集指令對應(yīng)的原始告警數(shù)據(jù);
33、獲取單元,用于根據(jù)預(yù)設(shè)篩選條件從所述原始告警數(shù)據(jù)中獲取目標告警信息,所述目標告警信息中至少包含時間信息及告警信息;
34、轉(zhuǎn)換單元,用于基于第一預(yù)設(shè)時長,按照時間信息將所述告警信息轉(zhuǎn)換為告警時間序列數(shù)據(jù);
35、計算單元,用于調(diào)用預(yù)設(shè)算法計算所述告警時間序列數(shù)據(jù)對應(yīng)的時序指標,所述時序指標為評估事件的評估指標;
36、檢測單元,用于基于所述時序指標進行異常事件的檢測,確定目標異常事件。
37、可選地,所述獲取單元包括:
38、獲取模塊,用于根據(jù)預(yù)設(shè)篩選條件獲取所述原始告警數(shù)據(jù)中的所述時間信息及所述告警信息;
39、第一確定模塊,用于將篩選后的所述時間信息及所述告警信息確定為所述目標告警信息。
40、可選地,所述轉(zhuǎn)換單元包括:
41、第二確定模塊,用于按照所述時間信息,確定所述第一預(yù)設(shè)時長內(nèi)所述告警信息出現(xiàn)的次數(shù);
42、匯聚模塊,用于基于所述第一預(yù)設(shè)時長內(nèi)所述告警信息出現(xiàn)的次數(shù)對所述告警信息進行匯聚,得到所述告警時間序列數(shù)據(jù)。
43、可選地,所述計算單元還用于:
44、定義所述告警時間序列數(shù)據(jù)對應(yīng)的告警次數(shù)權(quán)重及告警天數(shù)權(quán)重;
45、基于所述告警次數(shù)權(quán)重及所述告警天數(shù)權(quán)重,調(diào)用預(yù)設(shè)算法對所述告警時間序列數(shù)據(jù)對應(yīng)的時序指標進行計算。
46、可選地,所述計算單元還包括:
47、第三確定模塊,用于基于所述告警事件序列數(shù)據(jù),確定第二預(yù)設(shè)時長內(nèi)所述告警信息出現(xiàn)的次數(shù)和天數(shù),所述第二預(yù)設(shè)時長大于所述第一預(yù)設(shè)時長;
48、第一排序模塊,用于根據(jù)所述第二預(yù)設(shè)時長內(nèi)所述告警信息出現(xiàn)的次數(shù),對所述告警信息進行排序,并確定所有告警信息中的最大告警次數(shù);
49、第二排序模塊,用于根據(jù)所述第二預(yù)設(shè)時長內(nèi)所述告警信息出現(xiàn)的天數(shù),對所述告警信息進行排序,并確定所有告警信息中的最大告警天數(shù);
50、第一定義模塊,用于根據(jù)所述最大告警次數(shù)與所述第二預(yù)設(shè)時長內(nèi)的告警次數(shù)定義所述告警次數(shù)權(quán)重;
51、第二定義模塊,用于根據(jù)所述最大告警天數(shù)與所述第二預(yù)設(shè)時長內(nèi)的告警天數(shù)定義所述告警天數(shù)權(quán)重。
52、可選地,所述計算單元還包括:
53、第四確定模塊,用于確定所述告警時間序列數(shù)據(jù)中每個告警分別對應(yīng)的告警次數(shù)權(quán)重及告警天數(shù)權(quán)重;
54、第一計算模塊,用于對每個告警的所述告警次數(shù)權(quán)重與告警天數(shù)權(quán)重進行加和計算,得到權(quán)重加和結(jié)果;
55、第二計算模塊,用于將所述權(quán)重加和結(jié)果分別與對應(yīng)的所述告警時間序列數(shù)據(jù)相乘,得到所述告警時間序列數(shù)據(jù)分別對應(yīng)的加權(quán)值;
56、第三計算模塊,用于按照所述時間信息,將所有告警對應(yīng)的所述加權(quán)值進行加和計算,得到所述時序指標。
57、可選地,所述檢測單元包括:
58、檢測模塊,用于對所述時序指標進行異常檢測,確定異常的時序指標值;
59、查找模塊,用于根據(jù)所述異常的時序指標值,查找到對應(yīng)的目標告警信息;
60、第五確定模塊,用于基于所述目標告警信息,確定對應(yīng)的目標異常事件。
61、根據(jù)本公開的第三方面,提供了一種電子設(shè)備,包括:
62、至少一個處理器;以及
63、與所述至少一個處理器通信連接的存儲器;其中,
64、所述存儲器存儲有可被所述至少一個處理器執(zhí)行的指令,所述指令被所述至少一個處理器執(zhí)行,以使所述至少一個處理器能夠執(zhí)行前述第一方面所述的方法。
65、根據(jù)本公開的第四方面,提供了一種存儲有計算機指令的非瞬時計算機可讀存儲介質(zhì),其中,所述計算機指令用于使所述計算機執(zhí)行前述第一方面所述的方法。
66、根據(jù)本公開的第五方面,提供了一種計算機程序產(chǎn)品,包括計算機程序,所述計算機程序在被處理器執(zhí)行時實現(xiàn)如前述第一方面所述的方法。
67、本公開提供的異常事件的檢測方法及裝置、電子設(shè)備和存儲介質(zhì),響應(yīng)于告警數(shù)據(jù)采集指令,提取所述告警數(shù)據(jù)采集指令對應(yīng)的原始告警數(shù)據(jù),并根據(jù)預(yù)設(shè)篩選條件從所述原始告警數(shù)據(jù)中獲取目標告警信息,所述目標告警信息中至少包含時間信息及告警信息;基于第一預(yù)設(shè)時長,按照時間信息將所述告警信息轉(zhuǎn)換為告警時間序列數(shù)據(jù);調(diào)用預(yù)設(shè)算法計算所述告警時間序列數(shù)據(jù)對應(yīng)的時序指標,所述時序指標為評估事件的評估指標;基于所述時序指標進行異常事件的檢測,確定目標異常事件。本公開提供的異常事件檢測方法通過時序指標反應(yīng)不同時間信息對應(yīng)系統(tǒng)狀態(tài),對時序指標進行異常事件檢測,準確挖掘真正的異常事件,不依賴于專家經(jīng)驗,避免了閾值設(shè)置過小導致告警敏感和閾值設(shè)置過大導致告警丟失的問題,減少誤差,提高系統(tǒng)的可用性。
68、應(yīng)當理解,本部分所描述的內(nèi)容并非旨在標識本技術(shù)的實施例的關(guān)鍵或重要特征,也不用于限制本技術(shù)的范圍。本技術(shù)的其它特征將通過以下的說明書而變得容易理解。