一種基于魯棒強化學習的電動汽車編隊協(xié)同控制方法

文檔序號：39329799發(fā)布日期：2024-09-10 11:36閱讀：16來源：國知局

本發(fā)明屬于智能駕駛領域，具體涉及一種基于魯棒強化學習的電動汽車編隊協(xié)同控制方法。

背景技術：

1、在網(wǎng)聯(lián)車隊的控制中，電動汽車編隊協(xié)同控制是一項核心技術，它涉及到車輛自動保持適當?shù)能嚲嘁约绊憫败囁俣茸兓哪芰?。傳統(tǒng)的控制方法，如pid控制和基于模型的預測控制，雖然在某些場景下表現(xiàn)可靠，但在面對復雜交通環(huán)境和多變路況時，它們的適應性和靈活性受到限制。近年來，深度強化學習(drl)作為一種先進的控制策略被引入，因其能夠通過與環(huán)境的交互學習最優(yōu)控制策略而備受關注。

2、然而，深度強化學習在應用于車輛編隊控制時，往往面臨模型過于依賴訓練數(shù)據(jù)分布的問題，導致在存在擾動的環(huán)境下性能下降，這限制了其在實際駕駛場景中的推廣。

技術實現(xiàn)思路

1、針對現(xiàn)有技術中存在的不足，對智能網(wǎng)聯(lián)電動汽車車輛編隊，本發(fā)明提出了一種基于魯棒強化學習的電動汽車編隊協(xié)同控制方法，該方法在drl的基礎上引入魯棒訓練機制，從而增強模型的泛化能力和魯棒性。通過在不同駕駛循環(huán)的模擬環(huán)境下訓練，模型被訓練以預測和適應多變環(huán)境，從而實現(xiàn)更加穩(wěn)定和可靠的車輛編隊控制，克服了傳統(tǒng)控制方法的局限性，旨在通過深度強化學習方法和魯棒訓練，提升智能網(wǎng)聯(lián)車隊在復雜道路環(huán)境中的整體性能。這種魯棒訓練的強化學習控制方法的設計不僅優(yōu)化了控制結構，還為智能交通系統(tǒng)的未來發(fā)展提供了重要的技術基礎。具體的設計按照以下步驟進行：

2、步驟1、建立車輛i的三階縱向動力學模型。

3、步驟2、基于步驟1所建立的三階縱向動力學模型，選擇控制目標：

4、t時刻車輛i與前車實際間距di(t)表示為：

5、di(t)＝pi-1(t)-pi(t)-li

6、其中，li為車輛i的車長，pi(t)是車輛i的位置。為保證車輛安全，設置最小距離避免主車與前車發(fā)生碰撞；同時設置最大距離避免其他車輛插入隊列中。行車安全控制目標為：

7、

8、其中，vi(t)是車輛i的速度。

9、為實現(xiàn)車輛編隊的行車間距控制，計算間距偏差：

10、

11、其中，表示t時刻的期望間距，間距跟蹤目標為控制實際間距與期望間距差值最小化。

12、為實現(xiàn)駕駛舒適性，設置加速度最大值amax和加速度最小值amin，為t時刻的期望加速度。駕乘舒適性控制目標為：

13、

14、為實現(xiàn)電動汽車編隊協(xié)同控制，定義車輛i的狀態(tài)誤差為：

15、

16、其中，ai(t)是車輛i的加速度，表示主車與前車加速度偏差，表示主車與前車速度偏差，表示主車與領頭車速度偏差。車隊行駛跟隨高效性控制目標為：和最小化。

17、步驟3、根據(jù)控制目標，構建魯棒強化學習算法框架中的獎勵函數(shù)、狀態(tài)變量和控制變量。

18、在魯棒強化學習算法框架中，輸入為狀態(tài)變量包括t時刻車輛i與前車實際間距di(t)與期望間距ddes之間的偏差車輛i與前車的速度偏差車輛i與前車的加速度偏差車輛i與領頭車的速度偏差輸出動作為控制變量coni(t)，也就是車輛i在t時刻的期望加速度

19、為了滿足上述控制目標，獎勵函數(shù)rewardi(si(t)，coni(t))包括獎勵部分re和懲罰部分pe。

20、步驟4、基于狀態(tài)變量、控制變量以及獎勵函數(shù)，構建對抗性樣本，使用強化學習算法ppo作為智能體車輛的控制器，完成車輛編隊協(xié)同控制。

21、基于步驟3設計的狀態(tài)變量、控制變量以及獎勵函數(shù)，使用強化學習算法ppo作為智能體車輛的控制器。采用fast?gradient?sign?method(fgsm)快速梯度符號法，對訓練過程的樣本施加對抗性擾動，提升算法的魯棒性。在t時刻，環(huán)境傳遞給智能體i的輸入狀態(tài)為si(t)，獎勵為rewardi，critic網(wǎng)絡計算當前網(wǎng)絡權重參數(shù)對于輸入狀態(tài)的梯度為：

22、

23、其中，ω表示當前critic網(wǎng)絡的網(wǎng)絡權重參數(shù)，l是critic網(wǎng)絡的損失函數(shù)。擾動器接收critic網(wǎng)絡傳遞的梯度grad，利用fgsm方法，計算擾動：

24、δ＝∈*sign(grad)

25、其中，∈是擾動系數(shù)。sign是符號函數(shù)，取梯度的正負符號。擾動器將這個擾動加到當前狀態(tài)上，得到對抗性樣本：

26、s′i(t)＝si(t)+δ

27、actor網(wǎng)絡接收擾動器傳遞的s′i(t)，并根據(jù)actor網(wǎng)絡的權重參數(shù)輸出動作coni(t)。

28、步驟4、通過采用漸進式課程學習方法，在訓練階段起始于小規(guī)模車隊，逐步增大跟隨車輛數(shù)量，從而逐步提升多車環(huán)境下車隊編隊的縱向協(xié)同控制能力。

29、與現(xiàn)有技術相比，本發(fā)明的優(yōu)點如下：

30、1)利用fgsm方法，在車輛編隊縱向行駛的控制訓練過程中施加擾動樣本，提高算法對復雜環(huán)境下的魯棒性能。

31、2)采用課程學習的方式，通過逐步增加車隊規(guī)模，提升算法在多車協(xié)同控制中的控制效果。

技術特征：

1.一種基于魯棒強化學習的電動汽車編隊協(xié)同控制方法，其特征在于，包括以下步驟：

2.根據(jù)權利要求1所述的基于魯棒強化學習的電動汽車編隊協(xié)同控制方法，其特征在于，所述車輛i的三階縱向動力學模型為：

3.根據(jù)權利要求2所述的基于魯棒強化學習的電動汽車編隊協(xié)同控制方法，其特征在于，所述控制目標具體如下：

4.根據(jù)權利要求3所述的基于魯棒強化學習的電動汽車編隊協(xié)同控制方法，其特征在于，所述步驟3具體實現(xiàn)過程如下：

5.根據(jù)權利要求4所述的基于魯棒強化學習的電動汽車編隊協(xié)同控制方法，其特征在于，所述獎勵部分re設計為：

6.根據(jù)權利要求5所述的基于魯棒強化學習的電動汽車編隊協(xié)同控制方法，其特征在于，所述步驟4具體實現(xiàn)過程如下：

技術總結
本發(fā)明公開了一種基于魯棒強化學習的電動汽車編隊協(xié)同控制方法，該方法首先建立車輛i的三階縱向動力學模型，并選擇控制目標。其次根據(jù)控制目標，構建魯棒強化學習算法框架中的獎勵函數(shù)、狀態(tài)變量和控制變量。然后基于狀態(tài)變量、控制變量以及獎勵函數(shù)，構建對抗性樣本，使用強化學習算法PPO作為智能體車輛的控制器，完成車輛編隊協(xié)同控制。最后通過采用漸進式課程學習方法，在訓練階段逐步增大跟隨車輛數(shù)量，逐步提升多車環(huán)境下車隊編隊的縱向協(xié)同控制能力。本發(fā)明提高算法對復雜環(huán)境下的魯棒性能，提升在多車協(xié)同控制中的控制效果。

技術研發(fā)人員：翟春杰,陳宏磊,李宇淵,王博,陳楚翹,尹克,詹一笑,顏成鋼
受保護的技術使用者：杭州電子科技大學
技術研發(fā)日：
技術公布日：2024/9/9

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：翟春杰,陳宏磊,李宇淵,王博,陳楚翹,尹克,詹一笑,顏成鋼
技術所有人：杭州電子科技大學
我是此專利的發(fā)明人

上一篇：石英砂天然堆場揚塵控制系統(tǒng)的制作方法
上一篇：一種大容量自動糾偏伺服傳動系統(tǒng)的制作方法

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、唐老師：1.高效節(jié)能裝備 2.流動穩(wěn)定性 3.汽車流場分析和淀粉糖工藝技術。
2、孫老師：1.振動信號時頻分析理論與測試系統(tǒng)設計 2.汽車檢測系統(tǒng)設計 3.汽車電子控制系統(tǒng)設計
3、王老師：電子信息處理、先進檢測方法和智能化儀表
4、周老師：1.智能電網(wǎng) 2.新能源利用 3.泛在電力物聯(lián)網(wǎng)
5、趙老師：檢測與控制技術、機器人技術、機電一體化技術
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

一種基于魯棒強化學習的電動汽車編隊協(xié)同控制方法