一種云計算平臺故障檢測方法、裝置及解決方法、裝置制造方法

文檔序號：7983784閱讀：341來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>電子通信裝置的制造及其應(yīng)用技術(shù)

一種云計算平臺故障檢測方法、裝置及解決方法、裝置制造方法
【專利摘要】本發(fā)明公開了一種云計算平臺故障檢測方法、裝置及解決方法、裝置以實現(xiàn)自動發(fā)現(xiàn)和解決云計算平臺故障的目的，由于本發(fā)明將云計算平臺分為各個檢測層，通過檢測初始檢測層運行狀態(tài)是否正常，將初始檢測層運行狀態(tài)不正常作為進入各級檢測層的入口，逐級將下一級檢測層作為當(dāng)前檢測層進行檢測獲得當(dāng)前檢測層運行狀態(tài)，進而尋找到運行狀態(tài)不正常的最低級檢測層，確定最終故障所在檢測層，實現(xiàn)了自動發(fā)現(xiàn)故障的目的；其次，在故障解決方面，本發(fā)明還通過判斷故障所在檢測層，針對各級檢測層問題做出不同的解決機制，盡可能的減少故障時間，實現(xiàn)了快速恢復(fù)服務(wù)的目的。
【專利說明】—種云計算平臺故障檢測方法、裝置及解決方法、裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及云計算領(lǐng)域，特別涉及一種云計算平臺故障檢測方法、裝置及解決方法、裝置。
【背景技術(shù)】
[0002]隨著云計算平臺服務(wù)器部署規(guī)模越來越大，機器數(shù)量越來越多，及時發(fā)現(xiàn)并解決虛擬機故障成為維護云計算平臺服務(wù)的重中之重。
[0003]從故障檢測方面來看，目前云計算平臺檢測虛擬機故障的方法主要以人工發(fā)現(xiàn)為主:當(dāng)用戶使用虛擬機時發(fā)現(xiàn)虛擬機的服務(wù)不成功時，由用戶通知數(shù)據(jù)中心管理員，數(shù)據(jù)中心管理員判斷虛擬機運行于哪一臺物理機上，然后檢查物理機和虛擬機，確定物理機故障還是虛擬機故障，當(dāng)管理員確定為虛擬機故障時，人工檢查配置，確定故障原因，當(dāng)管理員確定為物理機故障時，人工檢查物理機故障位置，確定故障原因。但是，人工發(fā)現(xiàn)故障的方法，需要人為的去做故障檢測，耗時較長，在云計算平臺的規(guī)模越來越大時，會導(dǎo)致大量的人力和時間耗費在故障的檢測中，浪費寶貴的人力物力。
[0004]目前還有一種故障自動檢測技術(shù)，這種檢測技術(shù)只檢測服務(wù)是否正常，通過服務(wù)的檢測來獲得故障的機器并將故障信息報警至管理員，由管理員檢查故障機器，確定具體故障原因。這種檢測技術(shù)在一定程度比人工發(fā)現(xiàn)故障加快了發(fā)現(xiàn)故障的時間，但是，需要人為判斷故障原因，而在云計算平臺，很多服務(wù)器故障都是有共通性的，故障的原因往往是幾種相同的問題，這就造成很多可確定的故障仍需要人工重復(fù)工作來發(fā)現(xiàn)。
[0005]從故障解決方面來看，由于很多服務(wù)器故障都是有共通性的，故障的原因往往是幾種相同的問題，同樣造成很多可確定的故障仍需要人工重復(fù)工作來解決。
[0006]可見，人工發(fā)現(xiàn)和人工解決虛擬機故障處理不僅工作量巨大，也會由于人工操作時間過長而導(dǎo)致服務(wù)中斷時間過長，無法保證服務(wù)質(zhì)量。

【發(fā)明內(nèi)容】

[0007]有鑒于此，本發(fā)明的主要目的在于提供一種云計算平臺故障檢測方法、裝置及解決方法、裝置以實現(xiàn)自動發(fā)現(xiàn)和解決云計算平臺故障的目的。
[0008]本發(fā)明提供了一種云計算平臺故障檢測方法，該方法具體包括初始檢測步驟和下級檢測步驟:
[0009]所述初始檢測步驟包括:
[0010]檢測初始檢測層運行狀態(tài)是否正常，如果是，則反饋該初始檢測層運行狀態(tài)正常信息，并結(jié)束流程；否則，確定初始檢測層的下一級檢測層作為當(dāng)前檢測層；
[0011 ] 所述下級檢測步驟包括:
[0012]獲取當(dāng)前檢測層的運行狀態(tài)，判斷當(dāng)前檢測層運行狀態(tài)是否正常；
[0013]如果是，則返回當(dāng)前檢測層上一級檢測層故障的信息，結(jié)束流程；
[0014]如果否，將所述當(dāng)前檢測層的下一級檢測層作為所述當(dāng)前檢測層，返回所述下級檢測步驟，直至檢測到各級檢測層的最低級一層運行狀態(tài)不正常，返回該最低級一層故障的信息。
[0015]優(yōu)選地，所述初始檢測層具體為虛擬機檢測層；
[0016]所述檢測虛擬機檢測層運行狀態(tài)是否正常具體通過對虛擬機所在宿主物理機的xend端口訪問虛擬機獲得所述虛擬機運行狀態(tài)。
[0017]優(yōu)選地,所述Hypervisor檢測層為虛擬機的下一級檢測層；
[0018]所述檢測Hypervisor檢測層運行狀態(tài)是否正常具體通過以下步驟獲得Hypervisor檢測層運行狀態(tài):
[0019]判斷所述虛擬機所在宿主物理機xend端口是否開放；
[0020]如果開放，則hypervisor檢測層運行狀態(tài)正常；
[0021]如果不開放，則hypervisor檢測層運行狀態(tài)不正常。
[0022]優(yōu)選地，該方法還包括:
[0023]接收來自于所述虛擬機所在宿主物理機硬件相連的傳感器的數(shù)據(jù)，如果所述數(shù)據(jù)超過預(yù)設(shè)安全數(shù)據(jù)范圍，則:
[0024]觸發(fā)所述虛擬機所在宿主物理機上的虛擬機遷移至第二物理機；
[0025]并且,若所述虛擬機所在宿主物理機裝載了 Intel的NodeManager,強制將所述虛擬機所在宿主物理機的功耗降到最低。
[0026]優(yōu)選地，該方法還包括:
[0027]監(jiān)測所述虛擬機所在宿主物理機CPU負(fù)載，若所述虛擬機所在宿主物理機CPU處于負(fù)載超負(fù)荷狀態(tài)且負(fù)載超負(fù)荷狀態(tài)持續(xù)時間超過允許時間，則:
[0028]通過觸發(fā)所述虛擬機所在宿主物理機上的至少一個虛擬機遷移至第二物理機使所述第一物理機CPU負(fù)載在負(fù)荷范圍之內(nèi)。
[0029]本發(fā)明還提供一種云計算平臺故障檢測裝置，該裝置包括:
[0030]初始檢測單元:用于檢測初始檢測層運行狀態(tài)是否正常，如果是，則反饋該初始檢測層運行狀態(tài)正常信息，并結(jié)束流程；否則，確定初始檢測層的下一級檢測層作為當(dāng)前檢測層；
[0031]下級檢測單元:用于獲取當(dāng)前檢測層的運行狀態(tài)，判斷當(dāng)前檢測層運行狀態(tài)是否正常，如果是，則返回當(dāng)前檢測層上一級檢測層故障的信息，結(jié)束流程；否則，將所述當(dāng)前檢測層的下一級檢測層作為所述當(dāng)前檢測層，返回所述下級檢測單元，直至檢測到各級檢測層的最低級一層運行狀態(tài)不正常，返回該最低級一層故障的信息。
[0032]本發(fā)明還提供一種云計算平臺故障解決方法，包括:
[0033]獲取應(yīng)用如權(quán)利要求1所述的一種云計算平臺故障檢測方法進行檢測返回的故
障信息；
[0034]根據(jù)所述故障信息，查詢出故障所在檢測層對應(yīng)的故障解決指令；
[0035]執(zhí)行故障解決指令。
[0036]優(yōu)選地，當(dāng)故障所在檢測層具體為虛擬機檢測層時，所述查詢出的對應(yīng)的故障解決指令具體為重新啟動虛擬機；
[0037]當(dāng)故障所在檢測層具體為hypervisor檢測層時,所述查詢出的對應(yīng)的故障解決指令具體為對所述虛擬機所在宿主物理機hypervisor層xend重啟；[0038]當(dāng)故障所在檢測層具體為硬件檢測層時，所述查詢出的對應(yīng)的故障解決指令具體為通過IPMI重新啟動所述虛擬機所在宿主物理機。
[0039]優(yōu)選地，還包括:
[0040]在重新啟動虛擬機之后，通過虛擬機xend端口訪問虛擬機判斷所述虛擬機運行狀態(tài)是否正常，若所述虛擬機運行狀態(tài)不正常，且重新啟動所述虛擬機次數(shù)大于或等于預(yù)設(shè)允許重啟虛擬機次數(shù)范圍，返回虛擬機故障需人工接入消息；若所述虛擬機運行狀態(tài)不正常，且重新啟動所述虛擬機次數(shù)在預(yù)設(shè)允許重啟虛擬機次數(shù)范圍內(nèi)，重新啟動虛擬機；
[0041]在對所述虛擬機所在宿主物理機hypervisor層xend重啟之后,通過對所述虛擬機所在宿主物理機xend端口訪問判斷hypervisor檢測層運行狀態(tài),若所述hypervisor檢測層運行狀態(tài)仍不正常，且重新啟動所述虛擬機所在宿主物理機hypervisor層xend的次數(shù)大于或等于預(yù)設(shè)允許重啟hypervisor層xend次數(shù)范圍，返回hypervisor層故障需人工介入消息；若所述虛擬機運行狀態(tài)不正常，且重新啟動所述虛擬機所在宿主物理機hypervisor層xend的次數(shù)在預(yù)設(shè)允許重啟hypervisor層xend次數(shù)范圍內(nèi)，對所述虛擬機所在宿主物理機hypervisor層xend重啟；
[0042]在重新啟動所述虛擬機所在宿主物理機之后，通過對所述虛擬機所在宿主物理機IPMI接口的訪問判斷硬件檢測層運行狀態(tài)是否正常，若所述硬件檢測層運行狀態(tài)不正常，且重新啟動所述虛擬機所在宿主物理機次數(shù)大于或等于預(yù)設(shè)允許重啟物理機次數(shù)范圍，返回硬件層故障需人工介入消息；若所述硬件檢測層運行狀態(tài)不正常，且重新啟動所述虛擬機所在宿主物理機次數(shù)在預(yù)設(shè)允許重啟物理機次數(shù)范圍內(nèi)，重新啟動所述虛擬機所在宿主物理機。
[0043]本發(fā)明還提供一種云計算平臺故障解決裝置，該裝置包括:
[0044]查詢單元:用于獲取應(yīng)用如權(quán)利要求1所述的一種云計算平臺故障檢測方法進行檢測返回的故障信息，根據(jù)所述故障信息，查詢出故障所在檢測層對應(yīng)的故障解決指令；
[0045]執(zhí)行單元:用于執(zhí)行故障解決指令。
[0046]可見本發(fā)明具有如下有益效果:
[0047]由于本發(fā)明將云計算平臺分為各個檢測層，通過檢測初始檢測層運行狀態(tài)是否正常，將初始檢測層運行狀態(tài)不正常作為進入各級檢測層的入口，逐級將下一級檢測層作為當(dāng)前檢測層進行檢測獲得當(dāng)前檢測層運行狀態(tài)，進而尋找到運行狀態(tài)不正常的最低級檢測層，確定最終故障所在檢測層，實現(xiàn)了自動發(fā)現(xiàn)故障的目的；
[0048]其次，在故障解決方面，本發(fā)明還通過判斷故障所在檢測層，針對各級檢測層問題做出不同的解決機制，盡可能的減少故障時間，實現(xiàn)了快速恢復(fù)服務(wù)的目的；
[0049]而且，在故障預(yù)警方面，本發(fā)明還通過獲取虛擬機所在宿主物理機硬件相連的傳感器的數(shù)據(jù)，在傳感器數(shù)據(jù)超過預(yù)設(shè)安全數(shù)據(jù)范圍時，例如硬件主板溫度超過安全溫度，即散熱系統(tǒng)出現(xiàn)故障時，可第一時間發(fā)現(xiàn)并降低其使用功耗，延長服務(wù)時間，并將虛擬機遷移至其他物理機上以保證服務(wù)不間斷。
【專利附圖】

【附圖說明】
[0050]圖1是本發(fā)明一種云計算平臺故障檢測方法流程圖；
[0051]圖2是本發(fā)明一種云計算平臺故障檢測裝置組成圖；[0052]圖3是本發(fā)明一種云計算平臺故障解決方法流程圖；
[0053]圖4是本發(fā)明一種云計算平臺故障解決裝置組成圖。
【具體實施方式】
[0054]為使本發(fā)明的上述目的、特征和優(yōu)點能夠更加明顯易懂，下面結(jié)合附圖和【具體實施方式】對本發(fā)明實施例作進一步詳細(xì)的說明。
[0055]參見圖1，為本發(fā)明提供了一種云計算平臺故障檢測方法的流程圖，該方法包括:
[0056]S101、初始檢測步驟，所述初始檢測步驟包括:檢測初始檢測層運行狀態(tài)是否正常，如果是，則反饋該初始檢測層運行狀態(tài)正常信息，并結(jié)束流程；否則，確定初始檢測層的下一級檢測層作為當(dāng)前檢測層；
[0057]S102、下級檢測步驟，所述下級檢測步驟包括:獲取當(dāng)前檢測層的運行狀態(tài)，判斷當(dāng)前檢測層運行狀態(tài)是否正常；
[0058]S103、如果是，則返回當(dāng)前檢測層上一級檢測層故障的信息，結(jié)束流程；
[0059]S104、如果否，將所述當(dāng)前檢測層的下一級檢測層作為所述當(dāng)前檢測層，返回所述下級檢測步驟S102，直至檢測到各級檢測層的最低級一層運行狀態(tài)不正常，返回該最低級
一層故障的信息。
[0060]需要說明的是，所述各級檢測層具體可以按照各級檢測層故障邏輯關(guān)系預(yù)先設(shè)置，下面通過預(yù)先設(shè)置的各級檢測層故障邏輯關(guān)系的幾個實施例對本發(fā)明進行詳細(xì)說明:
[0061]實施例(一):將虛擬機作為初始檢測層:
[0062]在該實施例中，將虛擬機作為云計算平臺中預(yù)先設(shè)置的各級檢測層中的初始檢測層進行檢測；
[0063]所述檢測虛擬機檢測層運行狀態(tài)是否正常具體通過對虛擬機所在宿主物理機的xend端口訪問虛擬機獲得所述虛擬機運行狀態(tài)；
[0064]再具體地，通過網(wǎng)絡(luò)向虛擬機所在宿主物理機發(fā)送查詢虛擬機運行狀態(tài)的命令，通過xend端口返回虛擬機所在宿主物理機上的虛擬機運行狀況，可以借此判定虛擬機狀態(tài)，包括運行或者關(guān)機等狀態(tài)。
[0065]實施例(二):所述Hypervisor檢測層為虛擬機的下一級檢測層；
[0066]所述檢測Hypervisor檢測層運行狀態(tài)是否正常具體通過以下步驟獲得Hypervisor檢測層運行狀態(tài):
[0067]判斷所述虛擬機所在宿主物理機xend端口是否開放；
[0068]如果開放，則hypervisor檢測層運行狀態(tài)正常；
[0069]如果不開放,則hypervisor檢測層運行狀態(tài)不正常。
[0070]實施例(三):
[0071]在以上實施例(二)的基礎(chǔ)上，按照hypervisor檢測層的故障邏輯關(guān)系，將SSH服務(wù)檢測層做為hypervisor檢測層的下一級檢測層；
[0072]所述檢測SSH服務(wù)檢測層運行狀態(tài)是否正常具體通過以下步驟獲得SSH服務(wù)檢測層運行狀態(tài):
[0073]通過對所述虛擬機所在宿主物理機SSH端口進行訪問判斷SSH服務(wù)是否可用；
[0074]若SSH服務(wù)可用，則SSH服務(wù)檢測層運行狀態(tài)正常；[0075]若SSH服務(wù)不可用，則SSH服務(wù)檢測層運行狀態(tài)不正常。
[0076]實施例(四):
[0077]在以上實施例(三)的基礎(chǔ)上，在SSH服務(wù)檢測層運行狀態(tài)不正常時，有可能是SSH服務(wù)本身有故障，也有可能是網(wǎng)絡(luò)故障，按照SSH服務(wù)檢測層的故障邏輯關(guān)系，在該實施例中，將網(wǎng)絡(luò)檢測層作為SSH服務(wù)檢測層的下一級檢測層；
[0078]所述檢測網(wǎng)絡(luò)檢測層運行狀態(tài)是否正常具體通過以下步驟獲得網(wǎng)絡(luò)檢測層運行狀態(tài):
[0079]通過虛擬機對目標(biāo)物理機進行ping的詢問判斷網(wǎng)絡(luò)是否連通；
[0080]若網(wǎng)絡(luò)連通，則網(wǎng)絡(luò)檢測層運行狀態(tài)正常；
[0081 ] 若網(wǎng)絡(luò)不連通，則網(wǎng)絡(luò)檢測層運行狀態(tài)不正常。
[0082]實施例(五):
[0083]在以上實施例(四)的基礎(chǔ)上，在網(wǎng)絡(luò)檢測層運行狀態(tài)不正常時，有可能是網(wǎng)絡(luò)本身有故障，也有可能是物理機硬件故障，按照故障邏輯關(guān)系，在該實施例中，將硬件檢測層作為網(wǎng)絡(luò)檢測層的下一級檢測層；
[0084]所述硬件檢測層為所述網(wǎng)絡(luò)檢測層的下一級檢測層；
[0085]所述檢測硬件檢測層運行狀態(tài)是否正常具體通過以下步驟獲得硬件檢測層運行狀態(tài):
[0086]通過對所述虛擬機所在宿主物理機IPMI接口訪問判斷電源狀態(tài)；
[0087]若電源狀態(tài)開啟，則所述硬件檢測層運行狀態(tài)正常；
[0088]若電源狀態(tài)關(guān)閉，則所述硬件檢測層運行狀態(tài)不正常。
[0089]通過以上各實施例可見，本發(fā)明通過逐級將下一級檢測層作為當(dāng)前級檢測層進行檢測獲得當(dāng)前級檢測層運行狀態(tài)，又通過判斷當(dāng)前級檢測層運行狀態(tài)是否正常，最終確定故障所在檢測層，實現(xiàn)自動發(fā)現(xiàn)故障的目的。
[0090]而且，在故障預(yù)警方面，本發(fā)明還提出以下兩個實施例以實現(xiàn)對云計算中心故障的預(yù)測:
[0091]實施例(六)基于硬件傳感器的預(yù)警策略
[0092]在該實施例中，本發(fā)明方法還包括:
[0093]接收來自于所述虛擬機所在宿主物理機硬件相連的傳感器的數(shù)據(jù)，如果所述數(shù)據(jù)超過預(yù)設(shè)安全數(shù)據(jù)范圍，則:
[0094]觸發(fā)所述虛擬機所在宿主物理機上的虛擬機遷移至第二物理機；
[0095]并且,若所述虛擬機所在宿主物理機裝載了 Intel的NodeManager,強制將所述虛擬機所在宿主物理機的功耗降到最低。
[0096]實施例(七)基于CPU負(fù)載的預(yù)警策略
[0097]在該實施例中，本發(fā)明方法還包括:
[0098]監(jiān)測所述虛擬機所在宿主物理機CPU負(fù)載，若所述虛擬機所在宿主物理機CPU處于負(fù)載超負(fù)荷狀態(tài)且負(fù)載超負(fù)荷狀態(tài)持續(xù)時間超過允許時間，則:
[0099]通過觸發(fā)所述虛擬機所在宿主物理機上的至少一個虛擬機遷移至第二物理機使所述第一物理機CPU負(fù)載在負(fù)荷范圍之內(nèi)。
[0100]從以上實施例(六)、(七)可見，本發(fā)明提出的兩種預(yù)警策略能夠在故障發(fā)生之前，及時的將虛擬機轉(zhuǎn)移至其他物理機上，保證服務(wù)的持續(xù)可用性。
[0101]本發(fā)明還提供一種云計算平臺故障檢測裝置，參見圖2，該裝置包括:
[0102]初始檢測單元201:用于檢測初始檢測層運行狀態(tài)是否正常，如果是，則反饋該初始檢測層運行狀態(tài)正常信息，并結(jié)束流程；否則，確定初始檢測層的下一級檢測層作為當(dāng)前檢測層；
[0103]下級檢測單元202:用于獲取當(dāng)前檢測層的運行狀態(tài)，判斷當(dāng)前檢測層運行狀態(tài)是否正常，如果是，則返回當(dāng)前檢測層上一級檢測層故障的信息，結(jié)束流程；否則，將所述當(dāng)前檢測層的下一級檢測層作為所述當(dāng)前檢測層，返回所述下級檢測單元，直至檢測到各級檢測層的最低級一層運行狀態(tài)不正常，返回該最低級一層故障的信息。
[0104]由于以上各實施例返回的故障代碼，對有針對性的故障解決提供了有效信息，本發(fā)明針對不同的故障代碼，還提出了相應(yīng)的故障解決策略，因此，本發(fā)明還提供一種云計算平臺故障解決方法，參見圖3，該方法包括:
[0105]S301、獲取應(yīng)用如權(quán)利要求1所述的一種云計算平臺故障檢測方法進行檢測返回的故障信息；
[0106]S302、根據(jù)所述故障信息，查詢出故障所在檢測層對應(yīng)的故障解決指令；
[0107]S303、執(zhí)行故障解決指令。
[0108]具體通過以下幾個實施例對故障所在具體檢測層對應(yīng)的故障解決策略進行詳細(xì)說明:
[0109]實施例(八):該實施例采用重啟相關(guān)設(shè)備或者端口實現(xiàn)故障解決目的，包括:
[0110]當(dāng)故障所在檢測層具體為虛擬機檢測層時，所述查詢出的對應(yīng)的故障解決指令具體為重新啟動虛擬機；
[0111]當(dāng)故障所在檢測層具體為hypervisor檢測層時,所述查詢出的對應(yīng)的故障解決指令具體為對所述虛擬機所在宿主物理機hypervisor層xend重啟；
[0112]當(dāng)故障所在檢測層具體為硬件檢測層時，所述查詢出的對應(yīng)的故障解決指令具體為通過IPMI重新啟動所述虛擬機所在宿主物理機。
[0113]實施例(九):在以上實施例(八)重啟相關(guān)設(shè)備或者端口未解決故障時，該實施例通過繼續(xù)重啟相關(guān)設(shè)備或者端口、并預(yù)設(shè)重啟次數(shù)范圍，增加故障解決的機會，因此，該方法還包括:
[0114]在重新啟動虛擬機之后，通過虛擬機xend端口訪問虛擬機判斷所述虛擬機運行狀態(tài)是否正常，若所述虛擬機運行狀態(tài)不正常，且重新啟動所述虛擬機次數(shù)大于或等于預(yù)設(shè)允許重啟虛擬機次數(shù)范圍，返回虛擬機故障需人工接入消息；若所述虛擬機運行狀態(tài)不正常，且重新啟動所述虛擬機次數(shù)在預(yù)設(shè)允許重啟虛擬機次數(shù)范圍內(nèi)，重新啟動虛擬機；
[0115]在對所述虛擬機所在宿主物理機hypervisor層xend重啟之后,通過對所述虛擬機所在宿主物理機xend端口訪問判斷hypervisor檢測層運行狀態(tài),若所述hypervisor檢測層運行狀態(tài)仍不正常，且重新啟動所述虛擬機所在宿主物理機hypervisor層xend的次數(shù)大于或等于預(yù)設(shè)允許重啟hypervisor層xend次數(shù)范圍，返回hypervisor層故障需人工介入消息；若所述虛擬機運行狀態(tài)不正常，且重新啟動所述虛擬機所在宿主物理機hypervisor層xend的次數(shù)在預(yù)設(shè)允許重啟hypervisor層xend次數(shù)范圍內(nèi)，對所述虛擬機所在宿主物理機hypervisor層xend重啟；[0116]在重新啟動所述虛擬機所在宿主物理機之后，通過對所述虛擬機所在宿主物理機IPMI接口的訪問判斷硬件檢測層運行狀態(tài)是否正常，若所述硬件檢測層運行狀態(tài)不正常，且重新啟動所述虛擬機所在宿主物理機次數(shù)大于或等于預(yù)設(shè)允許重啟物理機次數(shù)范圍，返回硬件層故障需人工介入消息；若所述硬件檢測層運行狀態(tài)不正常，且重新啟動所述虛擬機所在宿主物理機次數(shù)在預(yù)設(shè)允許重啟物理機次數(shù)范圍內(nèi)，重新啟動所述虛擬機所在宿主物理機。
[0117]另外，由于通過硬件檢測層故障檢測可以確定物理機的狀態(tài)，當(dāng)出現(xiàn)硬件檢測層故障時，故障物理機上的虛擬機需要進行遷移，遷移時有兩種可配置的選擇，第一種為遷移到同一服務(wù)器池中的其他物理機上，并可選擇是否在故障物理機修復(fù)后遷回；第二種為遷移到指定的備用物理機上。虛擬機的遷移順序是由虛擬機的優(yōu)先級來決定的，因此本發(fā)明還包括:
[0118]預(yù)先指定目標(biāo)物理機；
[0119]預(yù)先設(shè)置虛擬機的優(yōu)先級；
[0120]預(yù)先設(shè)置所述虛擬機所在宿主物理機故障修復(fù)后是否遷回；
[0121]當(dāng)所述硬件層運行狀態(tài)不正常，且重新啟動所述虛擬機所在宿主物理機次數(shù)大于或等于預(yù)設(shè)允許重啟物理機次數(shù)范圍時，觸發(fā)所述虛擬機遷移至目標(biāo)物理機，具體按照所述虛擬機的優(yōu)先級順序遷移虛擬機。
[0122]若預(yù)先設(shè)置所述虛擬機所在宿主物理機故障修復(fù)后遷回，在所述虛擬機所在宿主物理機故障修復(fù)后，將所述虛擬機由所述目標(biāo)物理機遷回所述虛擬機所在宿主物理機。
[0123]實施例(十):由于當(dāng)SSH服務(wù)層、網(wǎng)絡(luò)層故障將導(dǎo)致很多服務(wù)的實效，宿主物理機上的虛擬機均為狀態(tài)錯誤或不可知狀態(tài)，鑒于此種狀態(tài)下錯誤有多種可能性，所以，在該實施例中不能自動解決故障，需要向管理員發(fā)送警告，通知其人工介入解決此類問題，具體為:
[0124]當(dāng)故障所在檢測層具體為SSH服務(wù)檢測層時，所述查詢出的對應(yīng)的故障解決指令具體為返回SSH服務(wù)檢測層故障需人工介入消息；
[0125]當(dāng)故障所在檢測層具體為網(wǎng)絡(luò)檢測層時，所述查詢出的對應(yīng)的故障解決指令具體為返回網(wǎng)絡(luò)層故障需人工介入消息。
[0126]通過以上實施例(八)到(十)可見，在故障解決方面，本發(fā)明還通過判斷故障代碼具體所在檢測層，針對不同檢測層的故障問題做出不同的恢復(fù)機制，盡可能的減少故障時間，實現(xiàn)了快速恢復(fù)的目的
[0127]本發(fā)明還提供一種云計算平臺故障解決裝置，參見圖4，該裝置包括:
[0128]查詢單元401:用于獲取應(yīng)用如權(quán)利要求1所述的一種云計算平臺故障檢測方法進行檢測返回的故障信息，根據(jù)所述故障信息，查詢出故障所在檢測層對應(yīng)的故障解決指令；
[0129]執(zhí)行單元402:用于執(zhí)行故障解決指令。
[0130]需要說明的是，在本文中，諸如第一和第二等之類的關(guān)系術(shù)語僅僅用來將一個實體或者操作與另一個實體或操作區(qū)分開來，而不一定要求或者暗示這些實體或操作之間存在任何這種實際的關(guān)系或者順序。而且，術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含，從而使得包括一系列要素的過程、方法、物品或者設(shè)備不僅包括那些要素，而且還包括沒有明確列出的其他要素，或者是還包括為這種過程、方法、物品或者設(shè)備所固有的要素。在沒有更多限制的情況下，由語句“包括一個……”限定的要素，并不排除在包括所述要素的過程、方法、物品或者設(shè)備中還存在另外的相同要素。
[0131] 以上所述僅為本發(fā)明的較佳實施例而已，并非用于限定本發(fā)明的保護范圍。凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換、改進等，均包含在本發(fā)明的保護范圍內(nèi)。
【權(quán)利要求】
1.一種云計算平臺故障檢測方法，其特征在于，包括初始檢測步驟和下級檢測步驟: 所述初始檢測步驟包括: 檢測初始檢測層運行狀態(tài)是否正常，如果是，則反饋該初始檢測層運行狀態(tài)正常信息，并結(jié)束流程；否則，確定初始檢測層的下一級檢測層作為當(dāng)前檢測層；所述下級檢測步驟包括: 獲取當(dāng)前檢測層的運行狀態(tài)，判斷當(dāng)前檢測層運行狀態(tài)是否正常；如果是，則返回當(dāng)前檢測層上一級檢測層故障的信息，結(jié)束流程；如果否，將所述當(dāng)前檢測層的下一級檢測層作為所述當(dāng)前檢測層，返回所述下級檢測步驟，直至檢測到各級檢測層的最低級一層運行狀態(tài)不正常，返回該最低級一層故障的信肩、O
2.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述初始檢測層具體為虛擬機檢測層；所述檢測虛擬機檢測層運行狀態(tài)是否正常具體通過對虛擬機所在宿主物理機的xend端口訪問虛擬機獲得所述虛擬機運行狀態(tài)。
3.根據(jù)權(quán)利要求2所述的方法，其特征在于，所述Hypervisor檢測層為虛擬機的下一級檢測層；所述檢測Hypervisor檢測層運行狀態(tài)是否正常具體通過以下步驟獲得Hypervisor檢測層運行狀態(tài): 判斷所述虛擬機所在宿主物理機xend端口是否開放；如果開放，則hypervisor檢測層運行狀態(tài)正常；如果不開放，則hypervisor檢測層運行狀態(tài)不正常。
4.根據(jù)權(quán)利要求3所述的方法，其特征在于，所述SSH服務(wù)檢測層為所述Hypervisor檢測層的下一級檢測層；所述檢測SSH服務(wù)檢測層運行狀態(tài)是否正常具體通過下步驟獲得SSH服務(wù)檢測層運行狀態(tài): 通過對所述虛擬機所在宿主物理機SSH端口進行訪問判斷SSH服務(wù)是否可用；若SSH服務(wù)可用，則SSH服務(wù)檢測層運行狀態(tài)正常；若SSH服務(wù)不可用，則SSH服務(wù)檢測層運行狀態(tài)不正常。
5.根據(jù)權(quán)利要求4所述的方法，其特征在于，所述網(wǎng)絡(luò)檢測層為所述SSH服務(wù)檢測層的下一級檢測層；所述檢測網(wǎng)絡(luò)檢測層運行狀態(tài)是否正常具體通過以下步驟獲得網(wǎng)絡(luò)檢測層運行狀態(tài): 通過虛擬機對目標(biāo)物理機進行Ping的詢問判斷網(wǎng)絡(luò)是否連通；若網(wǎng)絡(luò)連通，則網(wǎng)絡(luò)檢測層運行狀態(tài)正常；若網(wǎng)絡(luò)不連通，則網(wǎng)絡(luò)檢測層運行狀態(tài)不正常。
6.根據(jù)權(quán)利要求5所述的方法，其特征在于，所述硬件檢測層為所述網(wǎng)絡(luò)檢測層的下一級檢測層；所述檢測硬件檢測層運行狀態(tài)是否正常具體通過以下步驟獲得硬件檢測層運行狀態(tài): 通過對所述虛擬機所在宿主物理機IPMI接口訪問判斷電源狀態(tài)；若電源狀態(tài)開啟，則所述硬件檢測層運行狀態(tài)正常；若電源狀態(tài)關(guān)閉，則所述硬件檢測層運行狀態(tài)不正常。
7.根據(jù)權(quán)利要求1所述的方法，其特征在于，還包括: 接收來自于所述虛擬機所在宿主物理機硬件相連的傳感器的數(shù)據(jù)，如果所述數(shù)據(jù)超過預(yù)設(shè)安全數(shù)據(jù)范圍，則: 觸發(fā)所述虛擬機所在宿主物理機上的虛擬機遷移至第二物理機；并且，若所述虛擬機所在宿主物理機裝載了 Intel的NodeManager,強制將所述虛擬機所在宿主物理機的功耗降到最低。
8.根據(jù)權(quán)利要求1所述的方法，其特征在于，還包括: 監(jiān)測所述虛擬機所在宿主物理機CPU負(fù)載，若所述虛擬機所在宿主物理機CPU處于負(fù)載超負(fù)荷狀態(tài)且負(fù)載超負(fù)荷狀態(tài)持續(xù)時間超過允許時間，則: 通過觸發(fā)所述虛擬機所在宿主物理機上的至少一個虛擬機遷移至第二物理機使所述第一物理機CPU負(fù)載在負(fù)荷范圍之內(nèi)。
9.一種云計算平臺故障檢測裝置，其特征在于，包括: 初始檢測單元:用于檢測初始檢測層運行狀態(tài)是否正常，如果是，則反饋該初始檢測層運行狀態(tài)正常信息，并結(jié)束流程；否則，確定初始檢測層的下一級檢測層作為當(dāng)前檢測層；下級檢測單元:用于獲取當(dāng)前檢測層的運行狀態(tài)，判斷當(dāng)前檢測層運行狀態(tài)是否正常，如果是，則返回當(dāng)前檢測層上一級檢測層故障的信息，結(jié)束流程；否則，將所述當(dāng)前檢測層的下一級檢測層作為所述當(dāng)前檢測層，返回所述下級檢測單元，直至檢測至預(yù)先設(shè)置的各級檢測層的最低級一層，返回該最低級一層故障的信息。
10.一種云計算平臺故障解決方法，其特征在于，包括: 獲取應(yīng)用如權(quán)利要求1所述的一種云計算平臺故障檢測方法進行檢測返回的故障信息；根據(jù)所述故障信息，查詢出故障所在檢測層對應(yīng)的故障解決指令；執(zhí)行故障解決指令。
11.根據(jù)權(quán)利要求10所述的方法，其特征在于，包括: 當(dāng)故障所在檢測層具體為虛擬機檢測層時，所述查詢出的對應(yīng)的故障解決指令具體為重新啟動虛擬機；當(dāng)故障所在檢測層具體為hypervisor檢測層時,所述查詢出的對應(yīng)的故障解決指令具體為對所述虛擬機所在宿主物理機hypervisor層xend重啟；當(dāng)故障所在檢測層具體為硬件檢測層時，所述查詢出的對應(yīng)的故障解決指令具體為通過IPMI重新啟動所述虛擬機所在宿主物理機。
12.根據(jù)權(quán)利要求11所述的方法，其特征在于，還包括: 在重新啟動虛擬機之后，通過虛擬機xend端口訪問虛擬機判斷所述虛擬機運行狀態(tài)是否正常，若所述虛擬機運行狀態(tài)不正常，且重新啟動所述虛擬機次數(shù)大于或等于預(yù)設(shè)允許重啟虛擬機次數(shù)范圍，返回虛擬機故障需人工接入消息；若所述虛擬機運行狀態(tài)不正常，且重新啟動所述虛擬機次數(shù)在預(yù)設(shè)允許重啟虛擬機次數(shù)范圍內(nèi)，重新啟動虛擬機；在對所述虛擬機所在宿主物理機hypervisor層xend重啟之后,通過對所述虛擬機所在宿主物理機xend端口訪問判斷hypervisor檢測層運行狀態(tài),若所述hypervisor檢測層運行狀態(tài)仍不正常，且重新啟動所述虛擬機所在宿主物理機hypervisor層xend的次數(shù)大于或等于預(yù)設(shè)允許重啟hypervisor層xend次數(shù)范圍,返回hypervisor層故障需人工介入消息；若所述虛擬機運行狀態(tài)不正常，且重新啟動所述虛擬機所在宿主物理機hypervisor層xend的次數(shù)在預(yù)設(shè)允許重啟hypervisor層xend次數(shù)范圍內(nèi)，對所述虛擬機所在宿主物理機hypervisor層xend重啟；在重新啟動所述虛擬機所在宿主物理機之后，通過對所述虛擬機所在宿主物理機IPMI接口的訪問判斷硬件檢測層運行狀態(tài)是否正常，若所述硬件檢測層運行狀態(tài)不正常，且重新啟動所述虛擬機所在宿主物理機次數(shù)大于或等于預(yù)設(shè)允許重啟物理機次數(shù)范圍，返回硬件層故障需人工介入消息；若所述硬件檢測層運行狀態(tài)不正常，且重新啟動所述虛擬機所在宿主物理機次數(shù)在預(yù)設(shè)允許重啟物理機次數(shù)范圍內(nèi)，重新啟動所述虛擬機所在宿主物理機。
13.根據(jù)權(quán)利要求12所述的方法，其特征在于，還包括: 預(yù)先指定目標(biāo)物理機；預(yù)先設(shè)置虛擬機的優(yōu)先級；預(yù)先設(shè)置所述虛擬機所在宿主物理機故障修復(fù)后是否遷回；當(dāng)所述硬件層運行狀態(tài)不正常，且重新啟動所述虛擬機所在宿主物理機次數(shù)大于或等于預(yù)設(shè)允許重啟物理機次數(shù)范圍時，觸發(fā)所述虛擬機遷移至目標(biāo)物理機，具體按照所述虛擬機的優(yōu)先級順序遷移虛擬機；若預(yù)先設(shè)置所述虛擬機所在宿主物理機故障修復(fù)后遷回，在所述虛擬機所在宿主物理機故障修復(fù)后，將所述虛擬機由所述目標(biāo)物理機遷回所述虛擬機所在宿主物理機。
14.根據(jù)權(quán)利要求10所述的方法，其特征在于，當(dāng)故障所在檢測層具體為SSH服務(wù)檢測層時，所述查詢出的對應(yīng)的故障解決指令具體為返回SSH服務(wù)檢測層故障需人工介入消息；當(dāng)故障所在檢測層具體為網(wǎng)絡(luò)檢測層時，所述查詢出的對應(yīng)的故障解決指令具體為返回網(wǎng)絡(luò)層故障需人工介入消息。
15.一種云計算平臺故障解決裝置，其特征在于，包括: 查詢單元:用于獲取應(yīng)用如權(quán)利要求1所述的一種云計算平臺故障檢測方法進行檢測返回的故障信息，根據(jù)所述故障信息，查詢出故障所在檢測層對應(yīng)的故障解決指令；執(zhí)行單元:用于執(zhí)行故障解決指令。
【文檔編號】H04L12/24GK103701627SQ201210370060
【公開日】2014年4月2日申請日期:2012年9月27日優(yōu)先權(quán)日:2012年9月27日
【發(fā)明者】劉宇航申請人:北京搜狐新媒體信息技術(shù)有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：劉宇航;
技術(shù)所有人：北京搜狐新媒體信息技術(shù)有限公司;
我是此專利的發(fā)明人

上一篇：報文轉(zhuǎn)發(fā)方法和裝置制造方法
上一篇：通訊切換裝置制造方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、王老師：1.數(shù)字信號處理 2.傳感器技術(shù)及應(yīng)用 3.機電一體化產(chǎn)品開發(fā) 4.機械工程測試技術(shù) 5.逆向工程技術(shù)研究
2、王老師：1.機器人 2.嵌入式控制系統(tǒng)開發(fā)
3、孫老師：1.振動信號時頻分析理論與測試系統(tǒng)設(shè)計 2.汽車檢測系統(tǒng)設(shè)計 3.汽車電子控制系統(tǒng)設(shè)計
4、畢老師：機構(gòu)動力學(xué)與控制
5、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>