本技術(shù)實施例涉及計算機領(lǐng)域,具體而言,涉及一種分布式節(jié)點的隔離方法及裝置。
背景技術(shù):
1、節(jié)點的亞健康狀態(tài)通常是指在一個網(wǎng)絡(luò)或分布式系統(tǒng)中,某個節(jié)點的性能或功能沒有達(dá)到預(yù)期的標(biāo)準(zhǔn)。亞健康狀態(tài)的節(jié)點雖然可以繼續(xù)運行,但這種狀態(tài)可能會影響整個系統(tǒng)的性能和可靠性。為了避免亞健康狀態(tài)的擴散以及亞健康狀態(tài)節(jié)點對系統(tǒng)運行的影響,設(shè)計了一種節(jié)點隔離機制,但對亞健康狀態(tài)的節(jié)點進行隔離可能會影響系統(tǒng)的正常運行,因此在面對亞健康狀態(tài)的節(jié)點時,一般仍采取向上告警不隔離的方案,這樣的方案會使系統(tǒng)中的節(jié)點的亞健康狀態(tài)長期存在,影響系統(tǒng)的整體運行,節(jié)點的亞健康狀態(tài)的處理效率不高。
技術(shù)實現(xiàn)思路
1、本技術(shù)實施例提供了一種分布式節(jié)點的隔離方法及裝置,以至少解決相關(guān)技術(shù)中節(jié)點的亞健康狀態(tài)的處理效率較低的問題。
2、根據(jù)本技術(shù)的一個實施例,提供了一種分布式節(jié)點的隔離方法,分布式系統(tǒng)包括監(jiān)控節(jié)點和多個分布式節(jié)點,所述監(jiān)控節(jié)點與所述多個分布式節(jié)點連接,所述方法應(yīng)用于所述多個分布式節(jié)點中的目標(biāo)分布式節(jié)點,所述方法包括:
3、在檢測到所述目標(biāo)分布式節(jié)點當(dāng)前的運行狀態(tài)為亞健康狀態(tài)的情況下,根據(jù)所述目標(biāo)分布式節(jié)點上的配置信息檢測所述目標(biāo)分布式節(jié)點所對應(yīng)的決策時機,其中,所述決策時機用于指示由所述監(jiān)控節(jié)點決策所述目標(biāo)分布式節(jié)點是否隔離的時機;
4、在檢測到所述決策時機已到達(dá)的情況下,繼續(xù)運行并向所述監(jiān)控節(jié)點上報隔離請求,其中,所述隔離請求用于請求對所述目標(biāo)分布式節(jié)點進行隔離;
5、接收所述監(jiān)控節(jié)點響應(yīng)所述隔離請求所返回的隔離指令,其中,所述監(jiān)控節(jié)點用于響應(yīng)所述隔離請求根據(jù)所述多個分布式節(jié)點的運行信息生成所述隔離指令;
6、按照所述隔離指令對所述目標(biāo)分布式節(jié)點進行隔離。
7、作為一種可選的實施方式,所述根據(jù)所述目標(biāo)分布式節(jié)點上的配置信息檢測所述目標(biāo)分布式節(jié)點所對應(yīng)的決策時機,包括:
8、從所述配置信息中提取決策標(biāo)識,其中,所述決策標(biāo)識用于指示所述決策時機;
9、監(jiān)控在所述目標(biāo)分布式節(jié)點上是否到達(dá)所述決策標(biāo)識所指示的所述決策時機。
10、作為一種可選的實施方式,所述監(jiān)控在所述目標(biāo)分布式節(jié)點上是否到達(dá)所述決策標(biāo)識所指示的所述決策時機,包括:
11、在所述決策時機為第一決策時機的情況下,執(zhí)行恢復(fù)操作,其中,所述恢復(fù)操作用于將所述運行狀態(tài)從所述亞健康狀態(tài)恢復(fù)至健康狀態(tài),所述第一決策時機用于指示在分布式節(jié)點處于所述亞健康狀態(tài)后未能從所述亞健康狀態(tài)恢復(fù)至所述健康狀態(tài)的情況下由所述監(jiān)控節(jié)點決策分布式節(jié)點的隔離;檢測所述運行狀態(tài)的狀態(tài)變化信息,其中,所述狀態(tài)變化信息用于指示所述運行狀態(tài)是否從所述亞健康狀態(tài)轉(zhuǎn)換為健康狀態(tài);在所述狀態(tài)變化信息用于指示所述運行狀態(tài)仍未從所述亞健康狀態(tài)轉(zhuǎn)換為所述健康狀態(tài)的情況下,確定檢測到所述第一決策時機已到達(dá);
12、在所述決策時機為第二決策時機的情況下,確定檢測到所述第二決策時機已到達(dá),其中,所述第二決策時機用于指示在分布式節(jié)點處于亞健康狀態(tài)時由所述監(jiān)控節(jié)點決策分布式節(jié)點的隔離。
13、作為一種可選的實施方式,所述從所述配置信息中提取決策標(biāo)識,包括:
14、從所述配置信息中提取自動恢復(fù)標(biāo)識,其中,所述決策標(biāo)識包括所述自動恢復(fù)標(biāo)識,所述自動恢復(fù)標(biāo)識用于指示所述目標(biāo)分布式節(jié)點的從所述亞健康狀態(tài)到所述健康狀態(tài)的自動恢復(fù)能力;
15、在所述自動恢復(fù)標(biāo)識為第一標(biāo)識值的情況下,確定所述決策時機為所述第一決策時機,其中,所述第一標(biāo)識值用于指示所述目標(biāo)分布式節(jié)點具備從所述亞健康狀態(tài)到所述健康狀態(tài)的自動恢復(fù)能力;
16、在所述自動恢復(fù)標(biāo)識為第二標(biāo)識值的情況下,確定所述決策時機為所述第二決策時機,其中,所述第二標(biāo)識值用于指示所述目標(biāo)分布式節(jié)點不具備從所述亞健康狀態(tài)到所述健康狀態(tài)的自動恢復(fù)能力。
17、作為一種可選的實施方式,所述在檢測到所述目標(biāo)分布式節(jié)點當(dāng)前的運行狀態(tài)為亞健康狀態(tài)的情況下,根據(jù)所述目標(biāo)分布式節(jié)點上的配置信息檢測所述目標(biāo)分布式節(jié)點所對應(yīng)的決策時機,包括:通過第一進程檢測所述目標(biāo)分布式節(jié)點當(dāng)前的運行狀態(tài);在所述第一進程檢測到所述目標(biāo)分布式節(jié)點當(dāng)前的運行狀態(tài)為所述亞健康狀態(tài)的情況下,通過所述第一進程將所述目標(biāo)分布式節(jié)點上的隔離狀態(tài)機從正常狀態(tài)轉(zhuǎn)移到故障狀態(tài),其中,所述目標(biāo)分布式節(jié)點上的第二進程用于在所述隔離狀態(tài)機從所述正常狀態(tài)轉(zhuǎn)移到所述故障狀態(tài)的情況下,執(zhí)行根據(jù)所述目標(biāo)分布式節(jié)點上的配置信息檢測所述目標(biāo)分布式節(jié)點所對應(yīng)的決策時機的操作;
18、所述在檢測到所述決策時機已到達(dá)的情況下,繼續(xù)運行并向所述監(jiān)控節(jié)點上報隔離請求,包括:在所述第二進程檢測到所述決策時機已到達(dá)的情況下,通過所述第一進程控制所述目標(biāo)分布式節(jié)點繼續(xù)運行,并將所述隔離狀態(tài)機從故障狀態(tài)轉(zhuǎn)移到隔離狀態(tài),其中,所述第二進程用于在所述隔離狀態(tài)機從所述故障狀態(tài)轉(zhuǎn)移到所述隔離狀態(tài)的情況下,執(zhí)行向所述監(jiān)控節(jié)點上報隔離請求的操作;
19、所述接收所述監(jiān)控節(jié)點響應(yīng)所述隔離請求所返回的隔離指令,包括:通過所述第二進程在向所述監(jiān)控節(jié)點上報隔離請求的操作之后接收所述監(jiān)控節(jié)點響應(yīng)所述隔離請求所返回的隔離指令;
20、所述按照所述隔離指令對所述目標(biāo)分布式節(jié)點進行隔離,包括:通過所述第一進程按照所述第二進程所接收到的所述隔離指令對所述目標(biāo)分布式節(jié)點進行隔離。
21、作為一種可選的實施方式,所述按照所述隔離指令對所述目標(biāo)分布式節(jié)點進行隔離,包括:
22、在所述隔離指令用于指示禁止隔離所述目標(biāo)分布式節(jié)點的情況下,繼續(xù)運行所述目標(biāo)分布式節(jié)點上的業(yè)務(wù);
23、在所述隔離指令用于指示允許隔離所述目標(biāo)分布式節(jié)點的情況下,從所述隔離指令中提取參考分布式節(jié)點,其中,所述參考分布式節(jié)點是所述監(jiān)控節(jié)點根據(jù)所述多個分布式節(jié)點的運行信息從所述多個分布式節(jié)點中篩選出的用于承接所述目標(biāo)分布式節(jié)點上的業(yè)務(wù)的分布式節(jié)點;將所述目標(biāo)分布式節(jié)點上的業(yè)務(wù)轉(zhuǎn)移至所述參考分布式節(jié)點;隔離所述目標(biāo)分布式節(jié)點。
24、作為一種可選的實施方式,在所述根據(jù)所述目標(biāo)分布式節(jié)點上的配置信息檢測所述目標(biāo)分布式節(jié)點所對應(yīng)的決策時機之前,所述方法還包括:
25、檢測所述目標(biāo)分布式節(jié)點當(dāng)前的運行參數(shù);
26、在所述運行參數(shù)超出目標(biāo)參數(shù)范圍的情況下,從所述目標(biāo)分布式節(jié)點上的所述配置信息中提取修復(fù)標(biāo)識,其中,所述修復(fù)標(biāo)識用于指示所述目標(biāo)分布式節(jié)點對所述亞健康狀態(tài)的修復(fù)能力;
27、在所述修復(fù)標(biāo)識用于指示所述目標(biāo)分布式節(jié)點對所述亞健康狀態(tài)具備修復(fù)能力的情況下,執(zhí)行修復(fù)操作,其中,所述修復(fù)操作用于對所述亞健康狀態(tài)進行修復(fù);
28、在所述修復(fù)操作對所述亞健康狀態(tài)修復(fù)失敗,或者,所述修復(fù)標(biāo)識用于指示所述目標(biāo)分布式節(jié)點對所述亞健康狀態(tài)不具備修復(fù)能力的情況下,確定檢測到所述目標(biāo)分布式節(jié)點當(dāng)前的運行狀態(tài)為亞健康狀態(tài)。
29、根據(jù)本技術(shù)的另一個實施例,提供了一種分布式節(jié)點的隔離裝置,分布式系統(tǒng)包括監(jiān)控節(jié)點和多個分布式節(jié)點,所述監(jiān)控節(jié)點與所述多個分布式節(jié)點連接,所述裝置應(yīng)用于所述多個分布式節(jié)點中的目標(biāo)分布式節(jié)點,所述裝置包括:
30、第一檢測模塊,用于在檢測到所述目標(biāo)分布式節(jié)點當(dāng)前的運行狀態(tài)為亞健康狀態(tài)的情況下,根據(jù)所述目標(biāo)分布式節(jié)點上的配置信息檢測所述目標(biāo)分布式節(jié)點所對應(yīng)的決策時機,其中,所述決策時機用于指示由所述監(jiān)控節(jié)點決策所述目標(biāo)分布式節(jié)點是否隔離的時機;
31、上報模塊,用于在檢測到所述決策時機已到達(dá)的情況下,繼續(xù)運行并向所述監(jiān)控節(jié)點上報隔離請求,其中,所述隔離請求用于請求對所述目標(biāo)分布式節(jié)點進行隔離;
32、接收模塊,用于接收所述監(jiān)控節(jié)點響應(yīng)所述隔離請求所返回的隔離指令,其中,所述監(jiān)控節(jié)點用于響應(yīng)所述隔離請求根據(jù)所述多個分布式節(jié)點的運行信息生成所述隔離指令;
33、隔離模塊,用于按照所述隔離指令對所述目標(biāo)分布式節(jié)點進行隔離。
34、根據(jù)本技術(shù)的又一個實施例,還提供了一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)中存儲有計算機程序,其中,所述計算機程序被設(shè)置為運行時執(zhí)行上述任一項方法實施例中的步驟。
35、根據(jù)本技術(shù)的又一個實施例,還提供了一種電子設(shè)備,包括存儲器和處理器,所述存儲器中存儲有計算機程序,所述處理器被設(shè)置為運行所述計算機程序以執(zhí)行上述任一項方法實施例中的步驟。
36、通過本技術(shù),由于在檢測到所述目標(biāo)分布式節(jié)點當(dāng)前的運行狀態(tài)為亞健康狀態(tài)的情況下,根據(jù)所述目標(biāo)分布式節(jié)點上的配置信息檢測所述目標(biāo)分布式節(jié)點所對應(yīng)的決策時機,在檢測到所述決策時機已到達(dá)即由所述監(jiān)控節(jié)點決策所述目標(biāo)分布式節(jié)點是否隔離的時機到達(dá)的情況下,繼續(xù)運行并向所述監(jiān)控節(jié)點上報隔離請求,接收所述監(jiān)控節(jié)點響應(yīng)所述隔離請求所返回的隔離指令,按照所述隔離指令對所述目標(biāo)分布式節(jié)點進行隔離,即先檢測是否到達(dá)需要進行隔離決策的時機,在需要進行隔離決策的時機到達(dá)的情況下,請求監(jiān)控節(jié)點根據(jù)多個分布式節(jié)點的運行信息生成隔離指令指示目標(biāo)分布式節(jié)點的隔離,由監(jiān)控節(jié)點結(jié)合多個分布式節(jié)點的運行信息生成隔離指令指示目標(biāo)分布式節(jié)點的隔離,能夠充分衡量節(jié)點的隔離舉措對整個系統(tǒng)運行情況的影響,給出適應(yīng)于系統(tǒng)內(nèi)各節(jié)點運行情況的目標(biāo)分布式節(jié)點的隔離指令,保證了處于亞健康狀態(tài)的節(jié)點在存在隔離需求的情況下合理采取隔離措施,減少亞健康狀態(tài)的節(jié)點對系統(tǒng)的運行的影響,因此,可以解決節(jié)點的亞健康狀態(tài)的處理效率較低的問題,達(dá)到提高節(jié)點的亞健康狀態(tài)的處理效率的效果。