基于平均強(qiáng)化學(xué)習(xí)和高斯過程回歸的云作業(yè)接入控制方法
【專利摘要】本發(fā)明公開一種基于平均強(qiáng)化學(xué)習(xí)和高斯過程回歸的云作業(yè)接入控制方法,并針對(duì)調(diào)度過程中存在的連續(xù)狀態(tài)?動(dòng)作空間而導(dǎo)致的最優(yōu)策略生成過慢問題,采用高斯過程回歸進(jìn)行平均回報(bào)值和最優(yōu)策略的逼近,大幅度減少了得到最優(yōu)策略的學(xué)習(xí)迭代時(shí)間,提高了云資源的利用率。
【專利說明】
基于平均強(qiáng)化學(xué)習(xí)和高斯過程回歸的云作業(yè)接入控制方法
技術(shù)領(lǐng)域
[0001]本發(fā)明涉及云作業(yè)調(diào)度領(lǐng)域,具體涉及一種基于平均強(qiáng)化學(xué)習(xí)和高斯過程回歸的云作業(yè)接入控制方法。
【背景技術(shù)】
[0002]作業(yè)調(diào)度是工作流研究中的重要問題之一,也一直得到了學(xué)術(shù)界的深入研究和工業(yè)界的廣泛實(shí)踐。面向云計(jì)算環(huán)境的工作流的調(diào)度方法與傳統(tǒng)工作流和網(wǎng)格工作流的調(diào)度方法存在著很大的區(qū)別。
[0003]由于云環(huán)境的復(fù)雜性和動(dòng)態(tài)性,客觀上要求能夠進(jìn)行自適應(yīng)作業(yè)調(diào)度。而強(qiáng)化學(xué)習(xí)作為一種重要的機(jī)器學(xué)習(xí)方法,其在云計(jì)算環(huán)境中的應(yīng)用得到了廣泛關(guān)注,取得了一些重要成果。但在實(shí)際應(yīng)用過程中,不可避免的會(huì)遇到連續(xù)狀態(tài)-動(dòng)作空間而產(chǎn)生的維數(shù)災(zāi)難問題,最終導(dǎo)致收斂速度慢,自適應(yīng)性差,這些問題極大限制了強(qiáng)化學(xué)習(xí)在云計(jì)算領(lǐng)域中的應(yīng)用。
【發(fā)明內(nèi)容】
[0004]本發(fā)明的目的是解決現(xiàn)有技術(shù)的缺陷,提供一種能夠大幅度減少得到最優(yōu)策略的學(xué)習(xí)迭代時(shí)間,提高云資源的利用率的云作業(yè)接入控制方法,采用的技術(shù)方案如下:
[0005]—種基于平均強(qiáng)化學(xué)習(xí)和高斯過程回歸的云作業(yè)接入控制方法,包括:
[0006]準(zhǔn)備階段:
[0007]定義狀態(tài)空間:將云環(huán)境資源池中的虛擬機(jī)數(shù)量定義為平均強(qiáng)化學(xué)習(xí)的狀態(tài)空間;
[0008]定義動(dòng)作空間:動(dòng)作空間中包括2個(gè)動(dòng)作,分別為接受當(dāng)前被調(diào)度作業(yè)和拒絕當(dāng)前被調(diào)度作業(yè);
[0009]定義回報(bào)函數(shù):將用戶愿意支付的費(fèi)用定義為回報(bào)函數(shù);
[0010]執(zhí)行階段:
[0011]第一步:初始化P和Q(s,a),其中P表示平均回報(bào),Q(s,a)為二維表格,行s為系統(tǒng)狀態(tài),列a為動(dòng)作空間;
[0012]第二步:設(shè)置更新步長,執(zhí)行迭代;
[0013]第三步:將變量i設(shè)置為O,將s設(shè)置為當(dāng)前狀態(tài);
[0014]第四步:從動(dòng)作空間a中選擇動(dòng)作;
[0015]第五步:執(zhí)行選擇的動(dòng)作,得到當(dāng)前狀態(tài)的立即回報(bào)值r和下一個(gè)系統(tǒng)狀態(tài)s’;
[0016]第六步:按式Q(s,a)—Q(s,a)+a*[r-p+maxa’Q(s,,a,)-Q(s,a)]更新Q(s,a),其中,a’代表系統(tǒng)狀態(tài)s’下的動(dòng)作空間,ae(0,I)代表學(xué)習(xí)速率;
[0017]第七步:判斷是否滿足0(8,&)=!^^0(8,&),若是則更新平均回報(bào)0然后轉(zhuǎn)第八步,若否則直接轉(zhuǎn)第八步;
[0018]第八步:令i = i+l;
[0019]第九步:若i小于更新步長,令s= s’,轉(zhuǎn)至第二步,若i不小于更新步長,則轉(zhuǎn)至第十步;
[0020]第十步:將Q(s,a)表格中的數(shù)據(jù)作為輸入,使用高斯過程進(jìn)行回歸操作,得到回歸結(jié)果;
[0021 ]第^^一步:使用第十步得到的回歸結(jié)果修改Q( s,a)表格;
[0022]第十二步:將第七步得到的平均回報(bào)P作為輸入,使用高斯過程進(jìn)行回歸操作,得到回歸結(jié)果;
[0023]第十三步:使用第十二步得到的回歸結(jié)果修改平均回報(bào)P;
[0024]第十四步:轉(zhuǎn)至第二步。
[0025]將云環(huán)境資源池中的虛擬機(jī)數(shù)量定義為平均強(qiáng)化學(xué)習(xí)的狀態(tài)空間,則本發(fā)明中每個(gè)決策時(shí)刻(云作業(yè)調(diào)度時(shí)刻),下一個(gè)狀態(tài)僅僅取決于當(dāng)前狀態(tài),滿足馬爾科夫性。
[0026]本發(fā)明中動(dòng)作空間中包括2個(gè)動(dòng)作,分別為接受當(dāng)前被調(diào)度作業(yè)和拒絕當(dāng)前被調(diào)度作業(yè),可用向量(0,I)進(jìn)行表示,其中O表示拒絕,I表示接受。
[0027]云計(jì)算是一種按需付費(fèi)的使用模式,云服務(wù)提供商獲得的收益來自于用戶支付的費(fèi)用,愿意支付的費(fèi)用決定了接受的服務(wù)的質(zhì)量是不同的,因此本發(fā)明將用戶作業(yè)的優(yōu)先級(jí)(取決于用戶愿意支付的費(fèi)用)定義為回報(bào)函數(shù),因此,本發(fā)明的優(yōu)化目標(biāo)為根據(jù)資源池中可用的虛擬機(jī)數(shù)量,接受或拒絕用戶作業(yè),以使得累計(jì)回報(bào)最大。
[0028]第一步至第九步的平均強(qiáng)化學(xué)習(xí)在實(shí)際的運(yùn)行過程中,會(huì)由于云環(huán)境中數(shù)據(jù)中心的規(guī)模增大,導(dǎo)致狀態(tài)空間產(chǎn)生維數(shù)災(zāi)難問題,本發(fā)明使用高斯過程回歸加速最優(yōu)策略的生成,當(dāng)?shù)诰挪降臈l件不滿足,執(zhí)行第十步及后面的步驟,使用高斯過程回歸加速最優(yōu)策略的生成。
[0029]作為優(yōu)選,所述第四步中使用貪心策略從動(dòng)作集合a中選擇動(dòng)作。
[°03°] 作為優(yōu)選,所述第七步中,按照公式P—P+P*[r-p+maxa’Q(s’,a’)_maxaQ(s,a)]更新平均回報(bào)p,其中βε[0,1]為累積回報(bào)折扣因子。
[0031]作為優(yōu)選,所述第十一步中,使用第十步得到的回歸結(jié)果替換之前的值。
[0032]作為優(yōu)選,所述第十三步中,使用第十二步得到的回歸結(jié)果替換之前的平均回報(bào)
Po
[0033]與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果:
[0034]本發(fā)明設(shè)計(jì)了一種基于平均強(qiáng)化學(xué)習(xí)的云作業(yè)調(diào)度方法,并針對(duì)調(diào)度過程中存在的連續(xù)狀態(tài)-動(dòng)作空間而導(dǎo)致的最優(yōu)策略生成過慢問題,采用高斯過程回歸進(jìn)行平均回報(bào)值和最優(yōu)策略的逼近,大幅度減少了得到最優(yōu)策略的學(xué)習(xí)迭代時(shí)間,提高了云資源的利用率。
【附圖說明】
[0035]圖1是本發(fā)明的流程圖;
[0036]圖2是經(jīng)過2000000步后,帶高斯過程回歸的平均強(qiáng)化學(xué)習(xí)得到的最優(yōu)策略示意圖;
[0037]圖3是經(jīng)過2000000步后,不帶高斯過程回歸的平均強(qiáng)化學(xué)習(xí)得到的最優(yōu)策略示意圖。
【具體實(shí)施方式】
[0038]如圖1所示,一種基于平均強(qiáng)化學(xué)習(xí)和高斯過程回歸的云作業(yè)接入控制方法,包括:
[0039]本發(fā)明的目的是解決現(xiàn)有技術(shù)的缺陷,提供一種能夠大幅度減少得到最優(yōu)策略的學(xué)習(xí)迭代時(shí)間,提高云資源的利用率的云作業(yè)接入控制方法,采用的技術(shù)方案如下:
[0040]一種基于平均強(qiáng)化學(xué)習(xí)和高斯過程回歸的云作業(yè)接入控制方法,包括:
[0041 ] 準(zhǔn)備階段:
[0042]定義狀態(tài)空間:將云環(huán)境資源池中的虛擬機(jī)數(shù)量定義為平均強(qiáng)化學(xué)習(xí)的狀態(tài)空間;
[0043]定義動(dòng)作空間:動(dòng)作空間中包括2個(gè)動(dòng)作,分別為接受當(dāng)前被調(diào)度作業(yè)和拒絕當(dāng)前被調(diào)度作業(yè);
[0044]定義回報(bào)函數(shù):將用戶愿意支付的費(fèi)用定義為回報(bào)函數(shù);
[0045]執(zhí)行階段:
[0046]第一步:初始化P和Q(s,a),其中P表示平均回報(bào),Q(s,a)為二維表格,行s為系統(tǒng)狀態(tài),列a為動(dòng)作空間;
[0047]第二步:設(shè)置更新步長,執(zhí)行迭代;
[0048]第三步:將變量i設(shè)置為O,將s設(shè)置為當(dāng)前狀態(tài);
[0049]第四步:從動(dòng)作空間a中選擇動(dòng)作;
[0050]第五步:執(zhí)行選擇的動(dòng)作,得到當(dāng)前狀態(tài)的立即回報(bào)值r和下一個(gè)系統(tǒng)狀態(tài)s’;
[0051 ]第六步:按式Q(s,a)—Q(s,a)+a*[r-p+maxa,Q(s’,a’)-Q(s,a)]更新Q(s,a),其中,a’代表系統(tǒng)狀態(tài)s’下的動(dòng)作空間,ae(0,I)代表學(xué)習(xí)速率;
[0052]第七步:判斷是否滿足0(8,&)=!^^0(8,&),若是則更新平均回報(bào)0然后轉(zhuǎn)第八步,若否則直接轉(zhuǎn)第八步;
[0053]第八步:令i = i+l;
[0054]第九步:若i小于更新步長,令s= s’,轉(zhuǎn)至第二步,若i不小于更新步長,則轉(zhuǎn)至第十步;
[0055]第十步:將Q(s,a)表格中的數(shù)據(jù)作為輸入,使用高斯過程進(jìn)行回歸操作,得到回歸結(jié)果;
[0056]第^^一步:使用第十步得到的回歸結(jié)果修改Q(s,a)表格;
[0057]第十二步:將第七步得到的平均回報(bào)P作為輸入,使用高斯過程進(jìn)行回歸操作,得到回歸結(jié)果;
[0058]第十三步:使用第十二步得到的回歸結(jié)果修改平均回報(bào)P;
[0059]第十四步:轉(zhuǎn)至第二步。
[0060]將云環(huán)境資源池中的虛擬機(jī)數(shù)量定義為平均強(qiáng)化學(xué)習(xí)的狀態(tài)空間,則本發(fā)明中每個(gè)決策時(shí)刻(云作業(yè)調(diào)度時(shí)刻),下一個(gè)狀態(tài)僅僅取決于當(dāng)前狀態(tài),滿足馬爾科夫性。
[0061]本發(fā)明中動(dòng)作空間中包括2個(gè)動(dòng)作,分別為接受當(dāng)前被調(diào)度作業(yè)和拒絕當(dāng)前被調(diào)度作業(yè),可用向量(0,I)進(jìn)行表示,其中O表示拒絕,I表示接受。
[0062]云計(jì)算是一種按需付費(fèi)的使用模式,云服務(wù)提供商獲得的收益來自于用戶支付的費(fèi)用,愿意支付的費(fèi)用決定了接受的服務(wù)的質(zhì)量是不同的,因此本發(fā)明將用戶作業(yè)的優(yōu)先級(jí)(取決于用戶愿意支付的費(fèi)用)定義為回報(bào)函數(shù),因此,本發(fā)明的優(yōu)化目標(biāo)為根據(jù)資源池中可用的虛擬機(jī)數(shù)量,接受或拒絕用戶作業(yè),以使得累計(jì)回報(bào)最大。
[0063]第一步至第九步的平均強(qiáng)化學(xué)習(xí)在實(shí)際的運(yùn)行過程中,會(huì)由于云環(huán)境中數(shù)據(jù)中心的規(guī)模增大,導(dǎo)致狀態(tài)空間產(chǎn)生維數(shù)災(zāi)難問題,本發(fā)明使用高斯過程回歸加速最優(yōu)策略的生成,當(dāng)?shù)诰挪降臈l件不滿足,執(zhí)行第十步及后面的步驟,使用高斯過程回歸加速最優(yōu)策略的生成。
[0064]所述第四步中使用貪心策略從動(dòng)作集合a中選擇動(dòng)作。
[0065]所述第七步中,按照公式P—P+0*[r-p+maxa,Q(s’,a’)_maxaQ(s,a)]更新平均回報(bào)P,其中βε[0,1]為累積回報(bào)折扣因子。
[0066]所述第十一步中,使用第十步得到的回歸結(jié)果替換之前的值。
[0067]所述第十三步中,使用第十二步得到的回歸結(jié)果替換之前的平均回報(bào)P。
[0068]如圖2所示是經(jīng)過2000000步后,帶高斯過程回歸的平均強(qiáng)化學(xué)習(xí)得到的最優(yōu)策略示意圖,圖3所示是經(jīng)過2000000步后,不帶高斯過程回歸的平均強(qiáng)化學(xué)習(xí)得到的最優(yōu)策略示意圖,通過對(duì)比可知,本實(shí)施例大幅度減少了得到最優(yōu)策略的學(xué)習(xí)迭代時(shí)間,提高了云資源的利用率。
【主權(quán)項(xiàng)】
1.一種基于平均強(qiáng)化學(xué)習(xí)和高斯過程回歸的云作業(yè)接入控制方法,其特征在于,包括: 準(zhǔn)備階段: 定義狀態(tài)空間:將云環(huán)境資源池中的虛擬機(jī)數(shù)量定義為平均強(qiáng)化學(xué)習(xí)的狀態(tài)空間;定義動(dòng)作空間:動(dòng)作空間中包括2個(gè)動(dòng)作,分別為接受當(dāng)前被調(diào)度作業(yè)和拒絕當(dāng)前被調(diào)度作業(yè); 定義回報(bào)函數(shù):將用戶愿意支付的費(fèi)用定義為回報(bào)函數(shù); 執(zhí)行階段: 第一步:初始化P和Q( S,a),其中P表示平均回報(bào),Q( s, a)為二維表格,行s為系統(tǒng)狀態(tài),列a為動(dòng)作空間; 第二步:設(shè)置更新步長,執(zhí)行迭代; 第三步:將變量i設(shè)置為O,將s設(shè)置為當(dāng)前狀態(tài); 第四步:從動(dòng)作空間a中選擇動(dòng)作; 第五步:執(zhí)行選擇的動(dòng)作,得到當(dāng)前狀態(tài)的立即回報(bào)值r和下一個(gè)系統(tǒng)狀態(tài)s ’ ; 第六步:按式Q(s,a)—Q(s,a)+a*[r-p+maxa,Q(s’,a’)-Q(s,a)]更新Q(s,a),其中,a’代表系統(tǒng)狀態(tài)s’下的動(dòng)作空間,ae(0,I)代表學(xué)習(xí)速率; 第七步:判斷是否滿足(^3)=11^4(8,&),若是則更新平均回報(bào)0然后轉(zhuǎn)第八步,若否則直接轉(zhuǎn)第八步; 第八步:令i = i+l; 第九步:若i小于更新步長,令s = s’,轉(zhuǎn)至第二步,若i不小于更新步長,則轉(zhuǎn)至第十步; 第十步:將Q(s,a)表格中的數(shù)據(jù)作為輸入,使用高斯過程進(jìn)行回歸操作,得到回歸結(jié)果; 第i^一步:使用第十步得到的回歸結(jié)果修改Q (s,a)表格; 第十二步:將第七步得到的平均回報(bào)P作為輸入,使用高斯過程進(jìn)行回歸操作,得到回歸結(jié)果; 第十三步:使用第十二步得到的回歸結(jié)果修改平均回報(bào)P; 第十四步:轉(zhuǎn)至第二步。2.根據(jù)權(quán)利要求1所述的一種基于平均強(qiáng)化學(xué)習(xí)和高斯過程回歸的云作業(yè)接入控制方法,其特征在于,所述第四步中使用貪心策略從動(dòng)作集合a中選擇動(dòng)作。3.根據(jù)權(quán)利要求1所述的一種基于平均強(qiáng)化學(xué)習(xí)和高斯過程回歸的云作業(yè)接入控制方法,其特征在于,所述第七步中,按照公式P—ρ+β* [r-p+maxa,Q(s ’,a ’)_maxaQ(s,a)]更新平均回報(bào)P,其中陽[0,1]為累積回報(bào)折扣因子。
【文檔編號(hào)】H04L29/08GK105959353SQ201610261723
【公開日】2016年9月21日
【申請(qǐng)日】2016年4月22日
【發(fā)明人】崔得龍, 彭志平, 李啟銳, 許波, 柯文德
【申請(qǐng)人】廣東石油化工學(xué)院