本發(fā)明屬于智能駕駛領域,具體涉及一種基于魯棒強化學習的電動汽車編隊協(xié)同控制方法。
背景技術:
1、在網(wǎng)聯(lián)車隊的控制中,電動汽車編隊協(xié)同控制是一項核心技術,它涉及到車輛自動保持適當?shù)能嚲嘁约绊憫败囁俣茸兓哪芰?。傳統(tǒng)的控制方法,如pid控制和基于模型的預測控制,雖然在某些場景下表現(xiàn)可靠,但在面對復雜交通環(huán)境和多變路況時,它們的適應性和靈活性受到限制。近年來,深度強化學習(drl)作為一種先進的控制策略被引入,因其能夠通過與環(huán)境的交互學習最優(yōu)控制策略而備受關注。
2、然而,深度強化學習在應用于車輛編隊控制時,往往面臨模型過于依賴訓練數(shù)據(jù)分布的問題,導致在存在擾動的環(huán)境下性能下降,這限制了其在實際駕駛場景中的推廣。
技術實現(xiàn)思路
1、針對現(xiàn)有技術中存在的不足,對智能網(wǎng)聯(lián)電動汽車車輛編隊,本發(fā)明提出了一種基于魯棒強化學習的電動汽車編隊協(xié)同控制方法,該方法在drl的基礎上引入魯棒訓練機制,從而增強模型的泛化能力和魯棒性。通過在不同駕駛循環(huán)的模擬環(huán)境下訓練,模型被訓練以預測和適應多變環(huán)境,從而實現(xiàn)更加穩(wěn)定和可靠的車輛編隊控制,克服了傳統(tǒng)控制方法的局限性,旨在通過深度強化學習方法和魯棒訓練,提升智能網(wǎng)聯(lián)車隊在復雜道路環(huán)境中的整體性能。這種魯棒訓練的強化學習控制方法的設計不僅優(yōu)化了控制結構,還為智能交通系統(tǒng)的未來發(fā)展提供了重要的技術基礎。具體的設計按照以下步驟進行:
2、步驟1、建立車輛i的三階縱向動力學模型。
3、步驟2、基于步驟1所建立的三階縱向動力學模型,選擇控制目標:
4、t時刻車輛i與前車實際間距di(t)表示為:
5、di(t)=pi-1(t)-pi(t)-li
6、其中,li為車輛i的車長,pi(t)是車輛i的位置。為保證車輛安全,設置最小距離避免主車與前車發(fā)生碰撞;同時設置最大距離避免其他車輛插入隊列中。行車安全控制目標為:
7、
8、其中,vi(t)是車輛i的速度。
9、為實現(xiàn)車輛編隊的行車間距控制,計算間距偏差:
10、
11、其中,表示t時刻的期望間距,間距跟蹤目標為控制實際間距與期望間距差值最小化。
12、為實現(xiàn)駕駛舒適性,設置加速度最大值amax和加速度最小值amin,為t時刻的期望加速度。駕乘舒適性控制目標為:
13、
14、為實現(xiàn)電動汽車編隊協(xié)同控制,定義車輛i的狀態(tài)誤差為:
15、
16、其中,ai(t)是車輛i的加速度,表示主車與前車加速度偏差,表示主車與前車速度偏差,表示主車與領頭車速度偏差。車隊行駛跟隨高效性控制目標為:和最小化。
17、步驟3、根據(jù)控制目標,構建魯棒強化學習算法框架中的獎勵函數(shù)、狀態(tài)變量和控制變量。
18、在魯棒強化學習算法框架中,輸入為狀態(tài)變量包括t時刻車輛i與前車實際間距di(t)與期望間距ddes之間的偏差車輛i與前車的速度偏差車輛i與前車的加速度偏差車輛i與領頭車的速度偏差輸出動作為控制變量coni(t),也就是車輛i在t時刻的期望加速度
19、為了滿足上述控制目標,獎勵函數(shù)rewardi(si(t),coni(t))包括獎勵部分re和懲罰部分pe。
20、步驟4、基于狀態(tài)變量、控制變量以及獎勵函數(shù),構建對抗性樣本,使用強化學習算法ppo作為智能體車輛的控制器,完成車輛編隊協(xié)同控制。
21、基于步驟3設計的狀態(tài)變量、控制變量以及獎勵函數(shù),使用強化學習算法ppo作為智能體車輛的控制器。采用fast?gradient?sign?method(fgsm)快速梯度符號法,對訓練過程的樣本施加對抗性擾動,提升算法的魯棒性。在t時刻,環(huán)境傳遞給智能體i的輸入狀態(tài)為si(t),獎勵為rewardi,critic網(wǎng)絡計算當前網(wǎng)絡權重參數(shù)對于輸入狀態(tài)的梯度為:
22、
23、其中,ω表示當前critic網(wǎng)絡的網(wǎng)絡權重參數(shù),l是critic網(wǎng)絡的損失函數(shù)。擾動器接收critic網(wǎng)絡傳遞的梯度grad,利用fgsm方法,計算擾動:
24、δ=∈*sign(grad)
25、其中,∈是擾動系數(shù)。sign是符號函數(shù),取梯度的正負符號。擾動器將這個擾動加到當前狀態(tài)上,得到對抗性樣本:
26、s′i(t)=si(t)+δ
27、actor網(wǎng)絡接收擾動器傳遞的s′i(t),并根據(jù)actor網(wǎng)絡的權重參數(shù)輸出動作coni(t)。
28、步驟4、通過采用漸進式課程學習方法,在訓練階段起始于小規(guī)模車隊,逐步增大跟隨車輛數(shù)量,從而逐步提升多車環(huán)境下車隊編隊的縱向協(xié)同控制能力。
29、與現(xiàn)有技術相比,本發(fā)明的優(yōu)點如下:
30、1)利用fgsm方法,在車輛編隊縱向行駛的控制訓練過程中施加擾動樣本,提高算法對復雜環(huán)境下的魯棒性能。
31、2)采用課程學習的方式,通過逐步增加車隊規(guī)模,提升算法在多車協(xié)同控制中的控制效果。
1.一種基于魯棒強化學習的電動汽車編隊協(xié)同控制方法,其特征在于,包括以下步驟:
2.根據(jù)權利要求1所述的基于魯棒強化學習的電動汽車編隊協(xié)同控制方法,其特征在于,所述車輛i的三階縱向動力學模型為:
3.根據(jù)權利要求2所述的基于魯棒強化學習的電動汽車編隊協(xié)同控制方法,其特征在于,所述控制目標具體如下:
4.根據(jù)權利要求3所述的基于魯棒強化學習的電動汽車編隊協(xié)同控制方法,其特征在于,所述步驟3具體實現(xiàn)過程如下:
5.根據(jù)權利要求4所述的基于魯棒強化學習的電動汽車編隊協(xié)同控制方法,其特征在于,所述獎勵部分re設計為:
6.根據(jù)權利要求5所述的基于魯棒強化學習的電動汽車編隊協(xié)同控制方法,其特征在于,所述步驟4具體實現(xiàn)過程如下: