日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

基于生成式世界大模型和多步強化學習的自動駕駛決策方法及系統(tǒng)

文檔序號:39724717發(fā)布日期:2024-10-22 13:21閱讀:2來源:國知局
基于生成式世界大模型和多步強化學習的自動駕駛決策方法及系統(tǒng)

本發(fā)明涉及汽車智能駕駛領(lǐng)域,尤其是涉及一種基于生成式世界大模型和多步強化學習的自動駕駛決策方法及系統(tǒng)。


背景技術(shù):

1、自動駕駛汽車的目標是使道路運輸更安全、高效。自動駕駛決策系統(tǒng)作為自動駕駛汽車的關(guān)鍵模塊之一,可以使自動駕駛汽車在各種駕駛場景下選擇合適的駕駛動作。

2、在汽車智能化的背景下,自動駕駛決策方法已發(fā)展為兩大類:1)基于規(guī)則的方法,如有限狀態(tài)機,依靠人類駕駛經(jīng)驗和知識手動設(shè)計駕駛規(guī)則,但隨著駕駛場景復雜程度的提高,狀態(tài)數(shù)量和狀態(tài)轉(zhuǎn)換參數(shù)將呈指數(shù)式增長,難以保障其可靠性。2)基于學習的方法,分為基于深度學習和基于強化學習的兩類方法。①基于深度學習的方法,利用深度神經(jīng)網(wǎng)絡(luò)學習駕駛數(shù)據(jù)樣本以實現(xiàn)車輛的合理決策。該方法針對特定場景的決策精準度高,但由于其依賴高質(zhì)量的數(shù)據(jù)集,因此在動態(tài)場景下的普適性較差。②基于強化學習的方法,其無需樣本數(shù)據(jù)集,通過與環(huán)境的不斷交互試錯來學習最優(yōu)策略,能輕松應(yīng)對復雜多變的交通場景。

3、現(xiàn)實交通具有高度復雜性和不確定性,預測周圍交通參與者未來行為軌跡能夠輔助決策系統(tǒng)輸出更安全高效的駕駛指令。生成式世界大模型是近年來涌現(xiàn)出的處理自動駕駛軌跡預測的有效手段。生成式世界大模型學習真實世界的一般表示和底層運行規(guī)律,由一系列駕駛動作產(chǎn)生的未來世界狀態(tài),在駕駛場景中生成高保真的多視圖視頻。mile采用了基于模型的模仿學習方法來學習carla中的動態(tài)模型和駕駛行為,驗證了生成式世界大模型在預測未來狀態(tài)與動作方面的合理性和多樣性。然而在動態(tài)復雜的交通環(huán)境中,其預測精度和可靠性仍然受到限制,可能無法準確預見所有潛在風險和情況。此外,現(xiàn)有生成式世界大模型在面對突發(fā)交通狀況時可能無法做出合理魯棒的決策,導致自動駕駛系統(tǒng)在實際操作中表現(xiàn)不穩(wěn)定。綜上,現(xiàn)有生成式世界大模型應(yīng)用在自動駕駛決策中依然存在預測精度受限和決策穩(wěn)定性不足的問題。


技術(shù)實現(xiàn)思路

1、本發(fā)明的目的是為了實現(xiàn)交互場景下自動駕駛決策系統(tǒng),緩解傳統(tǒng)決策系統(tǒng)中周圍車輛交通意圖不明確而導致的系統(tǒng)建模困難等問題,提供一種基于生成式世界大模型和多步強化學習的自動駕駛決策方法及系統(tǒng),通過生成式世界大模型預測周圍交通參與者軌跡,將周圍交通參與者的不確定行為轉(zhuǎn)變?yōu)榇_定行為;再通過多步強化學習引導自動駕駛決策系統(tǒng)向著安全高效的決策方向?qū)W習,最終得到高精度行為預測的自動駕駛決策網(wǎng)絡(luò),對于實現(xiàn)自動駕駛精準決策具有重大意義,并且可以泛化到多種自動駕駛交互決策場景應(yīng)用中,有效提高自動駕駛道路通過效率和安全性。

2、本發(fā)明的目的可以通過以下技術(shù)方案來實現(xiàn):

3、一種基于生成式世界大模型和多步強化學習的自動駕駛決策方法,包括以下步驟:

4、步驟1:建立基于生成式世界大模型的駕駛場景推理模型,預測周圍交通參與者的行為,輸出未來駕駛場景信息;

5、步驟2:基于未來駕駛場景信息,利用強化學習算法對智能體進行多步前瞻離線訓練,得到最優(yōu)價值策略網(wǎng)絡(luò);

6、步驟3:基于未來駕駛場景信息和最優(yōu)價值策略網(wǎng)絡(luò),利用蒙特卡洛樹搜索在線求解最優(yōu)決策序列并滾動優(yōu)化;

7、步驟4:建立智能網(wǎng)聯(lián)電動汽車軌跡跟蹤控制器,基于最優(yōu)決策序列控制自動駕駛汽車進行實時軌跡跟蹤。

8、所述駕駛場景推理模型采用統(tǒng)一的輸入接口集成多個異構(gòu)輸入,所述接口支持的輸入條件包括:

9、1、圖像輸入:圖像輸入和視頻輸入共用同一接口,接口處理初始上下文框架和參考視圖作為圖像輸入數(shù)據(jù),將給定的圖像條件編碼并展平為d維嵌入序列,使用convexnet作為編碼器,在編碼器中提取來自不同圖像的嵌入信息并在n維特征向量中連接;

10、2、布局輸入:所述布局輸入包括3d框、高清地圖和bev分割,將3d框和高清地圖投影到2d透視圖中,利用與圖像條件編碼相同的策略編碼布局條件,產(chǎn)生嵌入序列;

11、3、文本輸入:遵循擴散模型的慣例,采用預訓練的clip作為文本編碼器,得到文本輸入的嵌入信息;

12、4、動作輸入:將時間步中的動作定義為(x,y,v),表示自我車輛在未來時間步長內(nèi)的移動軌跡,其中,x,y是自我車輛在笛卡爾坐標系下的位置信息,v是自我車輛的速度信息,使用多層感知機將動作映射到d維嵌入。

13、所述駕駛場景推理模型引入時間層編碼層將預訓練的圖像擴散模型提升為時間模型,以逐幀的方式對潛在進行編碼,重新排列潛在的時間維度,并引入空間編碼層將單視點時態(tài)模型提升為多視點時態(tài)模型,并將潛在空間重新排列以保持視圖維度,提取時空間上駕駛場景的潛在信息,并使用來自3d檢測和分割任務(wù)的輔助監(jiān)督輸出視角不變表示來處理感知的部分可觀察性,預測周圍交通參與者未來的運動軌跡,輸出包含時空信息的圖像塊。

14、所述步驟2中,利用生成式世界大模型推理出的駕駛場景信息作為輸入狀態(tài),定義駕駛決策的狀態(tài)空間,即描述駕駛場景內(nèi)交通參與者的狀態(tài),并定義動作空間,即可供自動駕駛系統(tǒng)采取的各種行動,利用采集的駕駛數(shù)據(jù),采用多步強化學習算法進行離線訓練;其中,智能體在訓練過程中,根據(jù)當前狀態(tài)選擇行動,與環(huán)境交互并觀察獎勵,更新策略以最大化長期累積獎勵;在多步前瞻的框架下,智能體考慮未來多個時刻的行動序列,預測未來n步內(nèi)所有動作及狀態(tài)轉(zhuǎn)移并計算期望回報獎勵,不斷計算環(huán)境狀態(tài)轉(zhuǎn)移和動作價值概率分布,最終得到收斂后的價值策略網(wǎng)絡(luò)。

15、所述生成式世界大模型采用transformer作為模型的主體,將最后t時間步輸入transformer,總共3*t狀態(tài)標記,其中,每個時間步包含三個標記:期望回報、狀態(tài)和動作;對于非圖像輸入,學習一個線性層,將原始輸入投影到嵌入維度,然后進行層歸一化,獲得標記嵌入;對于圖像輸入,狀態(tài)被送入卷積編碼器,以獲得嵌入;學習每個時間步長的嵌入并將其添加到每個標記中,由transformer模型處理token,通過自回歸建模預測未來的動作價值。

16、所述步驟3中,駕駛決策的集成涉及樹結(jié)構(gòu)的構(gòu)建和遍歷,樹結(jié)構(gòu)表示自我車輛可采取的可能動作序列以及相關(guān)成本;所述樹結(jié)構(gòu)由節(jié)點和邊組成,每個節(jié)點表示環(huán)境的特定狀態(tài),每個邊表示自我車輛所采取的動作,其中,所述節(jié)點包括根節(jié)點和子節(jié)點,根節(jié)點表示環(huán)境的當前狀態(tài),包括本地路線、自我車輛的狀態(tài)以及附近其它車輛的狀態(tài);通過考慮自我車輛從當前狀態(tài)可進行的可能的縱向和橫向運動生成子節(jié)點,縱向運動包括速度加速、不同加速度的減速和當前速度保持,橫向運動包括車道保持、左車道變換和右車道變換;通過迭代地選擇動作并轉(zhuǎn)換到對應(yīng)的子節(jié)點來遍歷樹,直到到達終端狀態(tài)。

17、所述步驟3中,動作的選擇由置信上限值指導,所述置信上限值的計算方法為:

18、

19、其中,q(v′)由步驟2強化學習訓練得到的狀態(tài)動作價值函數(shù)給出,n(v′)是子節(jié)點v′被訪問的次數(shù),n是父節(jié)點vi已被訪問的總次數(shù),const是常數(shù),c(v′)是與子節(jié)點v′相關(guān)聯(lián)的總成本,即動作的當前價值的相反數(shù):

20、

21、其中,cs(t)、cc(t)、cp(t)和co(t)分別是時間t時的安全性、舒適性、被動性和其他因素成本;ωs、ωc、ωp和ωo分別是與安全性、舒適性、被動性和其他因素相關(guān)的權(quán)重;t是總時間范圍。

22、所述蒙特卡洛樹搜索包括以下過程:

23、1)前瞻過程:自我車輛前瞻預設(shè)步數(shù),其中每一步對應(yīng)于固定的時間間隔t1,在每一步中,蒙特卡洛樹搜索算法從當前節(jié)點的可能動作集中選擇一個動作,并過渡到相應(yīng)的子節(jié)點;

24、2)卷展過程:自我車輛的行為以給定的移動概率隨機生成,執(zhí)行卷展過程,直到達到終端狀態(tài);

25、3)終端狀態(tài):在終端狀態(tài)下,計算與自我車輛采取的動作序列相關(guān)聯(lián)的總成本;

26、4)反向傳播:在模擬到達終端狀態(tài)并計算出總成本后,將總成本通過搜索樹反向傳播,從葉節(jié)點開始并追溯到根節(jié)點,更新在該模擬期間遇到的每個節(jié)點的累積成本和訪問計數(shù);

27、5)重復執(zhí)行過程1)-4),直至達到終止條件。

28、所述步驟4包括以下步驟:

29、步驟41:建立車輛的動力學模型,以描述車輛在不同速度、加速度下的運動特性;

30、步驟42:定義狀態(tài)量為實際軌跡與參考軌跡的誤差值,建立對軌跡跟蹤的二次規(guī)劃問題,并結(jié)合控制李雅普諾夫函數(shù)使得軌跡跟蹤誤差之和趨近于0,結(jié)合控制障礙函數(shù)保證車輛狀態(tài)誤差始終保持在一定范圍內(nèi);

31、步驟43:求解二次規(guī)劃問題,得到車輛控制量,實現(xiàn)自動駕駛軌跡跟蹤。

32、一種基于生成式世界大模型和多步強化學習的自動駕駛決策系統(tǒng),用于實現(xiàn)如上述所述的方法,該系統(tǒng)包括:

33、駕駛場景推理模塊:用于建立基于生成式世界大模型的駕駛場景推理模型,預測周圍交通參與者的行為,輸出未來駕駛場景信息;

34、強化學習訓練模塊:用于基于未來駕駛場景信息,利用強化學習算法對智能體進行多步前瞻離線訓練,得到最優(yōu)價值策略網(wǎng)絡(luò);

35、最優(yōu)決策序列求解模塊:用于基于未來駕駛場景信息和最優(yōu)價值策略網(wǎng)絡(luò),利用蒙特卡洛樹搜索在線求解最優(yōu)決策序列并滾動優(yōu)化;

36、軌跡跟蹤控制模塊:用于建立智能網(wǎng)聯(lián)電動汽車軌跡跟蹤控制器,基于最優(yōu)決策序列控制自動駕駛汽車進行實時軌跡跟蹤。

37、與現(xiàn)有技術(shù)相比,本發(fā)明具有以下有益效果:

38、1、增強預測精度和可靠性:本技術(shù)采用生成式世界大模型,能夠?qū)W習和模擬復雜駕駛場景的變化,從而提供精確的場景預測,為決策系統(tǒng)提供可靠的輸入數(shù)據(jù)。并且與現(xiàn)有方法相比,本技術(shù)提出的自動駕駛系統(tǒng)結(jié)合生成式世界大模型的預測結(jié)果,通過多步前瞻的能力可以對未來多個時刻進行預判,從而更準確地預測潛在風險和情況,提高預測的精度和可靠性。

39、2、提高決策的穩(wěn)定性和魯棒性:本技術(shù)采用滾動優(yōu)化策略,通過實時調(diào)整和優(yōu)化決策策略,系統(tǒng)能夠在面對突發(fā)情況和不確定環(huán)境時,依然保持穩(wěn)定的決策性能,提高系統(tǒng)的魯棒性。此外,本技術(shù)結(jié)合反饋控制機制設(shè)計了智能網(wǎng)聯(lián)電動汽車動力學控制器,提供實時反饋和調(diào)節(jié)機制,確保車輛在實際行駛中的穩(wěn)定性和安全性。

40、3、計算資源利用效率提升:本技術(shù)在車端部署自動駕駛算法過程中優(yōu)化計算資源分配,通過將復雜的訓練過程轉(zhuǎn)移到離線階段,減少了在線階段的計算資源需求,提高了系統(tǒng)運行的資源利用效率。由于系統(tǒng)在實際運行時計算負擔較輕,硬件設(shè)備的要求相對降低,能夠節(jié)省自動駕駛車輛的總體開發(fā)成本。

當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1