日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

基于條件生成對抗網(wǎng)絡(luò)的平均場多智能體強化學(xué)習(xí)方法與流程

文檔序號:39710622發(fā)布日期:2024-10-22 12:56閱讀:2來源:國知局
基于條件生成對抗網(wǎng)絡(luò)的平均場多智能體強化學(xué)習(xí)方法與流程

本發(fā)明涉及人工智能,尤其涉及基于條件生成對抗網(wǎng)絡(luò)的平均場多智能體強化學(xué)習(xí)方法。


背景技術(shù):

1、近年來,多智能體強化學(xué)習(xí)(multi-agentreinforcementlearning,marl)作為人工智能領(lǐng)域的一個重要分支,因其可以很好的幫助含有多個智能體的集群在復(fù)雜的環(huán)境中進行決策以完成任務(wù)而受到越來越多的關(guān)注。目前,marl已經(jīng)在多個領(lǐng)域取得了顯著的成果,例如智能交通系統(tǒng)、無人機編隊控制、多智能體協(xié)作游戲等。盡管如此,marl仍然存在一些挑戰(zhàn)和局限性。這是因為隨著智能體數(shù)量增多,狀態(tài)空間和動作空間的維度急劇增加,進而導(dǎo)致了分析和計算上的復(fù)雜性提高。目前比較好的解決方案是可以借助平均場對其進行化簡。合作型多智能體強化學(xué)習(xí)在達到帕累托最優(yōu)狀態(tài)時,能由可學(xué)習(xí)的平均場控制(mean-fieldcontrol,mfc)近似。在mfc中,只需要關(guān)注一個代表智能體,而系統(tǒng)動態(tài)則通過所有智能體的狀態(tài)分布來描述。雖然mfc可以有效解決多智能體系統(tǒng)中的維度爆炸問題,但是仍然存在不少突出的問題。

2、首先,在強化學(xué)習(xí)訓(xùn)練的初始階段,需要對環(huán)境進行全面探索。這一過程中往往伴隨著大量無效動作的產(chǎn)生,這不僅會加劇系統(tǒng)資源的消耗。而且當(dāng)這種探索過程應(yīng)用于現(xiàn)實場景時,可能引發(fā)諸如碰撞、墜機等不可逆轉(zhuǎn)的嚴(yán)重后果。其次,為了減少潛在損失,通常會先在虛擬仿真環(huán)境中對模型進行充分的訓(xùn)練,直至其性能達到穩(wěn)定狀態(tài)。但是當(dāng)現(xiàn)實場景與虛擬訓(xùn)練環(huán)境之間存在顯著差異,或者訓(xùn)練的模型不夠精確存在較大誤差時,算法可能不再適用?;谀P偷膹娀瘜W(xué)習(xí)算法(model-based?reinforcement?learning,mbrl)可以有效解決上述問題。在mbrl中,智能體首先通過與環(huán)境的交互收集數(shù)據(jù),通過挖掘數(shù)據(jù)之間的內(nèi)在關(guān)系構(gòu)建出相應(yīng)的環(huán)境模型。隨后,智能體可以直接與學(xué)習(xí)到的環(huán)境模型交互產(chǎn)生虛擬樣本數(shù)據(jù),從而實現(xiàn)策略優(yōu)化或規(guī)劃。由此可見,一旦成功學(xué)習(xí)到了環(huán)境模型,智能體便能夠直接與其進行交互,實現(xiàn)對下一狀態(tài)的預(yù)測,從而避免了與真實環(huán)境直接交互所帶來的潛在風(fēng)險。這不僅能夠防止因策略不當(dāng)導(dǎo)致的不可逆后果,還顯著提高了樣本數(shù)據(jù)的利用效率。

3、此外,一個訓(xùn)練得當(dāng)?shù)沫h(huán)境模型通常擁有穩(wěn)定的內(nèi)部系統(tǒng)模型。當(dāng)應(yīng)用場景發(fā)生變化時,這一內(nèi)部模型能夠保持穩(wěn)定,意味著智能體無需重新收集大量樣本進行訓(xùn)練,即可快速適應(yīng)新的環(huán)境。這種特性顯著增強了算法的適應(yīng)性和效率,使其在多種應(yīng)用場景中展現(xiàn)出優(yōu)越的性能。

4、《efficientmodel-basedmulti-agentmean-fieldreinforcementlearning》一文中提到的基于平均場模型的多智能體強化學(xué)習(xí)算法(model-based?multi-agentmean-field?upper-confidence?rl?algorithm,m3-ucrl)將mfc與mbrl進行有效結(jié)合。在動態(tài)環(huán)境未知的情況下利用mfc簡化系統(tǒng)模型以解決維度爆炸問題;同時利用上置信邊界(upperconfidencebound,ucb)算法將環(huán)境模型作為一個附加策略與智能體的任務(wù)策略一起進行優(yōu)化,有效解決訓(xùn)練初期樣本利用率低的問題。但是該算法建立環(huán)境模型的方式不僅增加了分析的復(fù)雜度,而且給系統(tǒng)增加了額外的開銷。此外,在具體實現(xiàn)時依舊采用高斯過程或者神經(jīng)網(wǎng)絡(luò)對環(huán)境模型進行建模,精確度難以保障。隨著實際任務(wù)場景的日漸復(fù)雜,多智能系統(tǒng)中建立的環(huán)境動力學(xué)模型的精準(zhǔn)度也難以保證。

5、貝葉斯方法是在建立環(huán)境模型方法中發(fā)展比較成熟的。它通過引入先驗知識和后驗推理,構(gòu)建概率動力學(xué)模型來實現(xiàn)對模型中的不確定性進行量化和建模,從而提高其預(yù)測和決策的準(zhǔn)確性。應(yīng)用最廣泛的貝葉斯方法有基于核的高斯過程,其中deisenroth等人提出的學(xué)習(xí)控制的概率推理方法(pilco)是該領(lǐng)域最經(jīng)典的方法之一,但是在處理高維空間的場景問題時,就顯得力不從心了。為了克服這一問題,gal等人提出了貝葉斯網(wǎng)絡(luò),使得pilco方法也可以有效解決具有復(fù)雜高維空間的應(yīng)用問題。

6、另一方面,goodfellow在2014年提出了生成對抗網(wǎng)絡(luò)(generativeadversarialnetworks,gan),通過對現(xiàn)有的數(shù)據(jù)樣本進行學(xué)習(xí)并發(fā)現(xiàn)其內(nèi)部規(guī)律從而生成新的數(shù)據(jù)。該生成模型由生成器(generator,g)和判別器(discriminator,d)組成。生成器g旨在生成逼真的數(shù)據(jù)樣本,而判別器d則旨在區(qū)分生成器生成的假樣本和真實數(shù)據(jù)樣本。二者通過對抗訓(xùn)練相互競爭,逐漸達到納什均衡。最終,生成器可以生成非常逼真的數(shù)據(jù)樣本,而判別器也會變得更難以分辨真假。在此基礎(chǔ)上,為了讓網(wǎng)絡(luò)朝著特定方向改進,生成滿足某種條件的數(shù)據(jù)樣本,mehdimirza提出了生成對抗網(wǎng)絡(luò)的一種擴展形式:條件生成對抗網(wǎng)絡(luò)(conditional?generativeadversarialnetworks,cgan)。通過在生成器g和判別器d的輸入中增加額外的條件信息,cgan可以實現(xiàn)更加精細的控制,使得生成器g可以根據(jù)條件信息生成特定類別的樣本。在此模型中,判別器d不僅需要判斷輸入數(shù)據(jù)的真假,還要會判斷數(shù)據(jù)是否符合限定條件。cgan的訓(xùn)練目標(biāo)是最小化生成器g生成的假樣本被判別器d判定為假的概率,同時最大化判別器d正確判定真實樣本和生成樣本的概率。通過這種對抗訓(xùn)練方式,生成器g和判別器d可以相互競爭學(xué)習(xí),最終生成器g可以生成逼真的、符合條件信息的樣本。

7、本發(fā)明利用cgan在數(shù)據(jù)生成方面的優(yōu)勢提出一種基于條件生成對抗網(wǎng)絡(luò)的平均場多智能體強化學(xué)習(xí)方法(model-based?multi-agent?mean-field?reinforcementlearning?based?on?conditional?generation?adversarialnetwork,cgan-m3rl)。


技術(shù)實現(xiàn)思路

1、針對上述現(xiàn)有技術(shù)的缺陷和不足,本發(fā)明提出一種基于條件生成對抗網(wǎng)絡(luò)的平均場多智能體強化學(xué)習(xí)方法,采用cgan的對抗訓(xùn)練機制對多智能體系統(tǒng)的環(huán)境進行建模,從而提高建立環(huán)境模型的精確度。此外,一旦訓(xùn)練得到穩(wěn)定的環(huán)境模型,就可以讓智能體與該模型直接進行交互,從而可以獲得大量樣本數(shù)據(jù)用于后續(xù)策略的學(xué)習(xí),解決了環(huán)境中智能體數(shù)量過多、環(huán)境復(fù)雜多變而導(dǎo)致的環(huán)境動力學(xué)模型難以精準(zhǔn)捕捉造成狀態(tài)不穩(wěn)定的問題。

2、基于條件生成對抗網(wǎng)絡(luò)的平均場多智能體強化學(xué)習(xí)方法,包括如下步驟:

3、步驟1:對未知的動態(tài)環(huán)境進行建模,智能體采取回合制來執(zhí)行任務(wù),在每個訓(xùn)練回合t中,將智能體與真實環(huán)境交互的數(shù)據(jù)收集到數(shù)據(jù)集dt={((si,h,ai,h,μi,h),si,h+1)},h=0,1,...,h-1,i=1,2,...,t中;

4、步驟2:利用cgan對狀態(tài)轉(zhuǎn)移函數(shù)p(st+1|st,at,μt)建模,并用數(shù)據(jù)集dt中的數(shù)據(jù)對環(huán)境模型進行訓(xùn)練,直到環(huán)境模型收斂;

5、步驟3:讓mfc中的代表智能體直接與穩(wěn)定后的環(huán)境模型p(st+1|st,at,μt)進行交互,獲得大量的樣本序列;

6、步驟4:利用第三步中交互獲得的數(shù)據(jù)對策略參數(shù)進行優(yōu)化,直到學(xué)習(xí)到最優(yōu)策略π*。

7、進一步,所述步驟1的具體過程為:采用cgan創(chuàng)建環(huán)境模型,cgan是在生成器g與判別器d的輸入項中增加了一個約束條件變量y,y可以是類別標(biāo)簽、文本描述、圖像等。

8、cgan的目標(biāo)函數(shù)如下所示:

9、

10、式中,v(d,g)表示損失值;pdata代表真實數(shù)據(jù)的分布;x是對真實數(shù)據(jù)分布進行采樣后得到的變量;pz代表隨機噪聲的分布;z代表隨機噪聲變量;y是約束條件變量。

11、進一步,所述步驟2的具體過程為:已知在用mfc化簡的多智能體系統(tǒng)中,將環(huán)境模型表示為p(st+1|st,at,μt),它表示著智能體在當(dāng)前的狀態(tài)st與平均場狀態(tài)μt下,在當(dāng)前策略執(zhí)行動作at后進入下一狀態(tài)st+1的概率,可以將其看作為一個條件概率密度模型。而在cgan中,生成器g是對隨機變量z進行映射,同時在約束條件變量y的指導(dǎo)下生成偽造數(shù)據(jù)即偽造數(shù)據(jù)服從一個條件概率密度函數(shù)因此,可將兩者進行結(jié)合,即,在用mfc化簡的多智能體系統(tǒng)中,將當(dāng)前平均場μt中狀態(tài)為st并執(zhí)行動作at作為限定條件,用來指導(dǎo)cgan生成代表智能體的下一狀態(tài)st+1。最終cgan可以學(xué)習(xí)到強化學(xué)習(xí)中狀態(tài)轉(zhuǎn)移函數(shù)模型p(st+1|st,at,μt)。

12、進一步,所述步驟3的具體過程為:cgan中的生成器g負(fù)責(zé)捕捉真實數(shù)據(jù)的分布,學(xué)習(xí)環(huán)境模型,其輸入為隨機變量z與約束條件變量y,其中y由當(dāng)前平均場μt、狀態(tài)st、動作at組成;輸出是在當(dāng)前條件y下對下一狀態(tài)的預(yù)測判別器d負(fù)責(zé)判斷輸入的樣本是真實的數(shù)據(jù)st+1還是由g生成的數(shù)據(jù)同時判斷輸入樣本是否符合條件變量y;輸入為g生成的預(yù)測狀態(tài)與真實狀態(tài)st+1,以及與g相同的約束條件變量y;輸出是對輸入樣本真?zhèn)蔚母怕?。g與d通過對抗訓(xùn)練相互競爭,逐漸達到納什均衡。此時,智能體可直接與該模型進行交互生成大量軌跡,來用于后續(xù)的策略學(xué)習(xí)。其目標(biāo)函數(shù)表示如下:

13、

14、式中,g代表生成器,實質(zhì)上代表環(huán)境模型p(st+1|st,at,μt);d代表判別器;v(d,g)代表訓(xùn)練過程中的損失值;(st,at,μt)代表約束條件變量y;z代表隨機噪聲變量。

15、進一步,所述步驟4的具體過程為:將采用cgan訓(xùn)練穩(wěn)定后的環(huán)境模型記為fψ。在每個回合t,代表智能體根據(jù)當(dāng)前可行策略πt=(πt,0,πt,1,...,πt,h-1)直接與建立好的環(huán)境模型fψ交互,對狀態(tài)軌跡進行前向模擬;同時根據(jù)平均場流動特性對系統(tǒng)的平均場軌跡進行前向模擬。在此期間獲得虛擬樣本數(shù)據(jù)用來對策略進行學(xué)習(xí)。則在每個訓(xùn)練回合t,代表智能體對策略優(yōu)化可以表示如下:

16、

17、接下來采用基于梯度的方法求解上述優(yōu)化問題。求解過程包含三步:首先,將策略函數(shù)π(·)參數(shù)化為πθ;期望累積獎勵j(π)記為j(θ);然后,計算j(θ)相對于策略π的參數(shù)θ的梯度:最后,按照梯度的方向?qū)Σ呗缘膮?shù)進行優(yōu)化:

18、

19、式中,α表示策略參數(shù)的更新步長。

20、本發(fā)明的有益效果:

21、1、經(jīng)過仿真實驗對比驗證,本發(fā)明可以有效提高環(huán)境動力學(xué)模型的準(zhǔn)確度,同時生成的樣本數(shù)據(jù)能夠很好地用于策略學(xué)習(xí),使得智能體在任務(wù)中獲得更高的期望累積獎勵值。

22、2、本發(fā)明是在基于平均場的多智能體強化學(xué)習(xí)(m3-ucrl)算法的基礎(chǔ)上對其進行了改進。充分發(fā)揮了cgan在數(shù)據(jù)生成方面的優(yōu)勢,利用cgan對用mfc化簡的多智能體系統(tǒng)環(huán)境進行建模,提高了模型的準(zhǔn)確性。在訓(xùn)練過程中,一旦獲得穩(wěn)定的環(huán)境模型,就讓代表智能體直接與該模型進行交互,相當(dāng)于為智能體賦予了“想象力”,無需親力親為即可獲得一條軌跡。不僅節(jié)省了時間、降低了系統(tǒng)能耗,而且為智能體策略學(xué)習(xí)提供了豐富的樣本數(shù)據(jù),使得智能體可以獲得更多的累積獎勵,從而提升算法的整體性能。

23、3、利用cgan的數(shù)據(jù)生成優(yōu)勢,在集群合作場景下,對mfc化簡的多智能體環(huán)境進行精準(zhǔn)建模;并當(dāng)環(huán)境模型訓(xùn)練穩(wěn)定后,可以為策略的學(xué)習(xí)提供大量樣本數(shù)據(jù),幫助智能體獲得更高的累積獎勵,從而提高算法的整體性能。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1