日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

基于分層強(qiáng)化學(xué)習(xí)的自動駕駛無信號交叉口決策生成方法

文檔序號:39723058發(fā)布日期:2024-10-22 13:17閱讀:1來源:國知局
基于分層強(qiáng)化學(xué)習(xí)的自動駕駛無信號交叉口決策生成方法

本發(fā)明屬于車輛駕駛決策,尤其涉及一種基于分層強(qiáng)化學(xué)習(xí)的自動駕駛無信號交叉口決策生成方法。


背景技術(shù):

1、本部分的陳述僅僅是提供了與本發(fā)明相關(guān)的背景技術(shù)信息,不必然構(gòu)成在先技術(shù)。

2、在眾多駕駛環(huán)境中,城市交叉口是自動駕駛研究的熱點(diǎn)與痛點(diǎn)之一,其作為典型的復(fù)雜動態(tài)時(shí)變場景,對其穿越行為的決策規(guī)劃研究有助于自動駕駛行為的落地。而無保護(hù)交叉口左轉(zhuǎn)作為一種特殊的交叉口通行行為,由于直行和左轉(zhuǎn)車輛共用一個(gè)通行區(qū)間以及缺少信號燈的特點(diǎn),是最為復(fù)雜的自動駕駛場景之一,左轉(zhuǎn)車輛穿越過程中與對向直行車間的交互作用會給決策規(guī)劃帶來困難。據(jù)統(tǒng)計(jì),超過80%的自動駕駛失效發(fā)生在交叉口,其中無保護(hù)左轉(zhuǎn)決策是核心挑戰(zhàn)之一。城市交叉口有人/無人駕駛混行帶來的交互沖突更為明顯,實(shí)現(xiàn)無保護(hù)交叉口決策規(guī)劃將面臨更加嚴(yán)峻的挑戰(zhàn)。

3、基于規(guī)則的決策方法雖然邏輯簡單,易于工作,且能夠直接借鑒人類的駕駛經(jīng)驗(yàn),但通常忽略了交通的復(fù)雜性,通常過于保守且泛化性弱。基于pomdp與博弈論的決策方法考慮了不確定性與交互,但求解較為困難,算法實(shí)時(shí)性較差。傳統(tǒng)的強(qiáng)化學(xué)習(xí)決策方法對真實(shí)駕駛數(shù)據(jù)利用率不高,加減速不及時(shí),轉(zhuǎn)彎路徑死板,難以生成類人的決策,導(dǎo)致通行效率低下。


技術(shù)實(shí)現(xiàn)思路

1、為了解決上述問題,本發(fā)明提出了一種基于分層強(qiáng)化學(xué)習(xí)的自動駕駛無信號交叉口決策生成方法,針對無信號交叉口左轉(zhuǎn)任務(wù),通過引入對向來車的多種意圖考慮了交通的復(fù)雜性,利用awac算法和d3qn算法提高計(jì)算效率,采用真實(shí)駕駛數(shù)據(jù),提高轉(zhuǎn)彎加減速的及時(shí)設(shè)置,更貼合人做出的決策。

2、為了實(shí)現(xiàn)上述目的,本發(fā)明采用如下技術(shù)方案:

3、第一方面,本發(fā)明提供一種基于分層強(qiáng)化學(xué)習(xí)的自動駕駛無信號交叉口決策生成方法,包括:

4、獲取自車和對向來車所在的真實(shí)駕駛環(huán)境;所述駕駛環(huán)境包括環(huán)境觀測值和動作空間;

5、將真實(shí)駕駛環(huán)境輸入路徑?jīng)Q策模塊,得到?jīng)Q策軌跡;將決策軌跡輸入速度決策模塊,得到?jīng)Q策速度;所述路徑?jīng)Q策模塊和速度決策模塊基于模擬駕駛環(huán)境、自車軌跡、結(jié)束條件和獎(jiǎng)勵(lì)函數(shù)進(jìn)行訓(xùn)練;

6、自車根據(jù)決策軌跡和決策速度執(zhí)行左轉(zhuǎn)任務(wù)。

7、優(yōu)選地,所述獲取自車和對向來車所在的真實(shí)駕駛環(huán)境的同時(shí)進(jìn)行坐標(biāo)轉(zhuǎn)換,將真實(shí)駕駛環(huán)境從世界坐標(biāo)系變換到自車坐標(biāo)系;

8、所述環(huán)境觀測值包括自車和對向來車的運(yùn)動參數(shù)、自車軌跡和對向來車軌跡的交叉點(diǎn)、自車速度行駛范圍。

9、優(yōu)選地,所述對向來車包括前車和后車,所述動作空間包括激進(jìn)動作、退讓動作和普通動作;

10、所述激進(jìn)動作為,前車向前行駛,后車跟隨前車執(zhí)行與前車相同的行為;自車不執(zhí)行左轉(zhuǎn)行為;

11、所述退讓動作為,前車在道路口減速至停止,后車跟隨前車執(zhí)行與前車相同的行為;自車執(zhí)行左轉(zhuǎn)行為通過路口,對向來車等待;

12、所述普通動作為,前車向前行駛,后車在道路口減速至停止;自車執(zhí)行左轉(zhuǎn)行為通過路口,后車等待。

13、優(yōu)選地,所述速度決策模塊的訓(xùn)練過程為:

14、獲取第一駕駛環(huán)境和自車預(yù)設(shè)軌跡,輸入速度決策模塊進(jìn)行訓(xùn)練;當(dāng)觸發(fā)第一結(jié)束條件時(shí)計(jì)算第一獎(jiǎng)勵(lì),若第一獎(jiǎng)勵(lì)數(shù)值達(dá)到設(shè)定閾值則速度決策模塊訓(xùn)練完成;

15、其中,所述第一駕駛環(huán)境包括第一環(huán)境觀測值和動作空間;所述第一環(huán)境觀測值包括自車和對向來車的運(yùn)動參數(shù)、自車軌跡和對向來車軌跡的交叉點(diǎn);所述第一結(jié)束條件包括穿越、碰撞和超時(shí)未通過;所述第一獎(jiǎng)勵(lì)包括第一無碰撞獎(jiǎng)勵(lì)、速度獎(jiǎng)勵(lì)和未超時(shí)獎(jiǎng)勵(lì)。

16、優(yōu)選地,所述路徑?jīng)Q策模塊的訓(xùn)練過程為:

17、獲取第二駕駛環(huán)境和自車可變軌跡,輸入路徑?jīng)Q策模塊進(jìn)行訓(xùn)練;當(dāng)觸發(fā)第二結(jié)束條件時(shí)計(jì)算第二獎(jiǎng)勵(lì),若第二獎(jiǎng)勵(lì)數(shù)值達(dá)到設(shè)定閾值則路徑?jīng)Q策模塊訓(xùn)練完成;

18、其中,所述第二駕駛環(huán)境包括第二環(huán)境觀測值和動作空間;所述第二環(huán)境觀測值包括自車和對向來車的運(yùn)動參數(shù)、自車軌跡和對向來車軌跡的交叉點(diǎn)和自車速度行駛范圍;所述第二結(jié)束條件包括穿越和碰撞;所述第二獎(jiǎng)勵(lì)包括第二無碰撞獎(jiǎng)勵(lì)、速度獎(jiǎng)勵(lì)、更改路徑獎(jiǎng)勵(lì)和結(jié)束獎(jiǎng)勵(lì)。

19、優(yōu)選地,所述速度決策模塊基于awac算法和td3算法進(jìn)行訓(xùn)練。

20、優(yōu)選地,所述路徑?jīng)Q策模塊基于d3qn算法進(jìn)行訓(xùn)練。

21、第二方面,本發(fā)明提供一種基于分層強(qiáng)化學(xué)習(xí)的自動駕駛無信號交叉口決策生成系統(tǒng),包括:

22、環(huán)境獲取單元,用于獲取自車和對向來車所在的真實(shí)駕駛環(huán)境;所述駕駛環(huán)境包括環(huán)境觀測值和動作空間;

23、決策獲取單元,用于將真實(shí)駕駛環(huán)境輸入路徑?jīng)Q策模塊,得到?jīng)Q策軌跡;將決策軌跡輸入速度決策模塊,得到?jīng)Q策速度;所述路徑?jīng)Q策模塊和速度決策模塊基于模擬駕駛環(huán)境、自車軌跡、結(jié)束條件和獎(jiǎng)勵(lì)函數(shù)進(jìn)行訓(xùn)練;

24、決策執(zhí)行單元,用于自車根據(jù)決策軌跡和決策速度執(zhí)行左轉(zhuǎn)任務(wù)。

25、第三方面,本發(fā)明提供一種計(jì)算機(jī)可讀存儲介質(zhì),其上存儲有計(jì)算機(jī)程序,該程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)第一方面所述的一種基于分層強(qiáng)化學(xué)習(xí)的自動駕駛無信號交叉口決策生成方法中的步驟。

26、第四方面,本發(fā)明提供一種計(jì)算機(jī)設(shè)備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)第一方面所述的一種基于分層強(qiáng)化學(xué)習(xí)的自動駕駛無信號交叉口決策生成方法中的步驟。

27、與現(xiàn)有技術(shù)相比,本公開的有益效果為:

28、本發(fā)明提供一種基于分層強(qiáng)化學(xué)習(xí)的自動駕駛無信號交叉口決策生成方法,所述方案針對無信號交叉口左轉(zhuǎn)場景,將無信號交叉口左轉(zhuǎn)決策任務(wù)分解為橫向決策與縱向決策兩個(gè)部分。其中,縱向決策的目標(biāo)是為左轉(zhuǎn)任務(wù)提供合適的加速度,橫向決策的目標(biāo)則是為左轉(zhuǎn)任務(wù)選擇合適的左轉(zhuǎn)半徑。上層路徑?jīng)Q策模塊通過d3qn算法實(shí)現(xiàn),下層速度決策模塊通過awac算法實(shí)現(xiàn)??梢栽跓o信號交叉口左轉(zhuǎn)任務(wù)中實(shí)現(xiàn)更為高效且更為類人的通行。

29、本發(fā)明附加方面的優(yōu)點(diǎn)將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本發(fā)明的實(shí)踐了解到。



技術(shù)特征:

1.一種基于分層強(qiáng)化學(xué)習(xí)的自動駕駛無信號交叉口決策生成方法,其特征在于,包括:

2.如權(quán)利要求1所述的一種基于分層強(qiáng)化學(xué)習(xí)的自動駕駛無信號交叉口決策生成方法,其特征在于,所述獲取自車和對向來車所在的真實(shí)駕駛環(huán)境的同時(shí)進(jìn)行坐標(biāo)轉(zhuǎn)換,將真實(shí)駕駛環(huán)境從世界坐標(biāo)系變換到自車坐標(biāo)系;

3.如權(quán)利要求1所述的一種基于分層強(qiáng)化學(xué)習(xí)的自動駕駛無信號交叉口決策生成方法,其特征在于,所述對向來車包括前車和后車,所述動作空間包括激進(jìn)動作、退讓動作和普通動作;

4.如權(quán)利要求1所述的一種基于分層強(qiáng)化學(xué)習(xí)的自動駕駛無信號交叉口決策生成方法,其特征在于,所述速度決策模塊的訓(xùn)練過程為:

5.如權(quán)利要求1所述的一種基于分層強(qiáng)化學(xué)習(xí)的自動駕駛無信號交叉口決策生成方法,其特征在于,所述路徑?jīng)Q策模塊的訓(xùn)練過程為:

6.如權(quán)利要求1所述的一種基于分層強(qiáng)化學(xué)習(xí)的自動駕駛無信號交叉口決策生成方法,其特征在于,所述速度決策模塊基于awac算法和td3算法進(jìn)行訓(xùn)練。

7.如權(quán)利要求1所述的一種基于分層強(qiáng)化學(xué)習(xí)的自動駕駛無信號交叉口決策生成方法,其特征在于,所述路徑?jīng)Q策模塊基于d3qn算法進(jìn)行訓(xùn)練。

8.一種基于分層強(qiáng)化學(xué)習(xí)的自動駕駛無信號交叉口決策生成系統(tǒng),其特征在于,包括:

9.一種計(jì)算機(jī)可讀存儲介質(zhì),其上存儲有計(jì)算機(jī)程序,其特征在于,所述程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1-7中任一項(xiàng)所述的一種基于分層強(qiáng)化學(xué)習(xí)的自動駕駛無信號交叉口決策生成方法中的步驟。

10.一種計(jì)算機(jī)設(shè)備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,其特征在于,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)如權(quán)利要求1-7中任一項(xiàng)所述的一種基于分層強(qiáng)化學(xué)習(xí)的自動駕駛無信號交叉口決策生成方法中的步驟。


技術(shù)總結(jié)
本公開提出一種基于分層強(qiáng)化學(xué)習(xí)的自動駕駛無信號交叉口決策生成方法,涉及車輛駕駛決策技術(shù)領(lǐng)域。方法包括:獲取自車和對向來車所在的真實(shí)駕駛環(huán)境;所述駕駛環(huán)境包括環(huán)境觀測值和動作空間;將真實(shí)駕駛環(huán)境輸入路徑?jīng)Q策模塊,得到?jīng)Q策軌跡;將決策軌跡輸入速度決策模塊,得到?jīng)Q策速度;所述路徑?jīng)Q策模塊和速度決策模塊基于模擬駕駛環(huán)境、自車軌跡、結(jié)束條件和獎(jiǎng)勵(lì)函數(shù)進(jìn)行訓(xùn)練;自車根據(jù)決策軌跡和決策速度執(zhí)行左轉(zhuǎn)任務(wù)。將速度決策和路徑?jīng)Q策分別訓(xùn)練,可使速度決策模型專注于學(xué)習(xí)如何根據(jù)當(dāng)前環(huán)境和其他因素選擇最佳左轉(zhuǎn)加速度,而路徑?jīng)Q策模型則專注于找到可完成穿越的合適半徑,提高模型性能以及生成決策的準(zhǔn)確性。

技術(shù)研發(fā)人員:陳雪梅,湯云浩,郝佳琛,劉躍澤,田奕宏,肖龍,董憲元,趙小萱,姚誠達(dá),高叢政
受保護(hù)的技術(shù)使用者:北京理工大學(xué)前沿技術(shù)研究院
技術(shù)研發(fā)日:
技術(shù)公布日:2024/10/21
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1