本發(fā)明屬于人工智能領域,尤其涉及一種基于深度強化學習算法研究無人機輔助車隊數(shù)字孿生的功率資源分配和車隊控制聯(lián)合優(yōu)化問題。
背景技術:
1、隨著智能網(wǎng)聯(lián)汽車的發(fā)展及普及,車輛編隊行駛將成為未來智能交通系統(tǒng)的重要行駛方式之一。一般來說,車隊由一輛頭車和一組成員車輛組成。每輛編隊車輛與前車保持安全的間距,以相同的速度朝同一方向行駛。車輛編隊行駛方案可以帶來許多好處:1)編隊車輛的緊密行駛可以增加道路的交通容量。2)較小的車輛間隙可以減少編隊車輛的空氣阻力,從而減少能源消耗和廢氣車隊放。3)在車聯(lián)網(wǎng)技術加持下,編隊車輛的行駛更加安全和舒適。一種經(jīng)典的編隊車輛控制技術為自適應巡航控制(acc)。如圖1(a)所示,該技術通過傳感器檢測前面車輛的動力學參數(shù)來調(diào)整自己的行駛狀態(tài),從而維持較為安全的速度和間距。然而,當頭車(pl)行駛狀態(tài)發(fā)生改變時,這種擾動會隨著車隊向后傳播逐漸放大。因此,串的穩(wěn)定性要求車輛在前車的加速度發(fā)生變化時,能夠在短時間內(nèi)恢復與前車的固定距離或時間間隔。車對車(v2v)通信能夠增大的車輛的感知距離,由該通信技術支持的下的經(jīng)典車隊控制技術是協(xié)作式自適應巡航控制(cacc)。這種控制技術的通信拓撲如圖1(b)所示,每輛成員車輛根據(jù)頭車和前車的動力學特征來調(diào)整自身的運動狀態(tài),可以有效解決頭車運動變化孫帶來的車隊串誤差放大問題。v2v通信允許編隊車輛實時共享車輛狀態(tài)信息(位置、速度、加速度等),使車輛能夠動態(tài)調(diào)整其控制策略,這些全面、準確、及時的信息是維持車隊安全行駛的重要基礎。因此,車隊的安全性和穩(wěn)定性取決于與車輛相關信息的實時性。
2、數(shù)字孿生(dt)是一項數(shù)字化物理實體的技術,可以提供物理實體準確的狀態(tài)信息。具體來說,dt與物理系統(tǒng)(ps)通過無線通信定期交互數(shù)據(jù)(例如ps的歷史數(shù)據(jù),當前狀態(tài)數(shù)據(jù)),使得dt能夠?qū)s的各種現(xiàn)實狀態(tài)和應用功能動態(tài)地復制到數(shù)字世界中,實現(xiàn)對ps實時模擬、監(jiān)控和預警。將該技術引入車隊中建立車隊數(shù)字孿生(pdt)能實現(xiàn)眾多好處:1)頭車可以根據(jù)pdt的實時監(jiān)控和預警信息,高效地管理車隊的運行;2)車隊可以根據(jù)pdt的實時模擬動態(tài)優(yōu)化車隊的各類型資源;3)pdt可以代表車隊物理系統(tǒng)(pps)與外部訪問應用進程進行交互。例如,當交通控制中心需要從pps獲取相關信息時,pdt可以代替pps反饋相應處理后的數(shù)據(jù),從而簡化了傳統(tǒng)的頻繁而復雜的通信方式??梢钥闯觯瑪?shù)字孿生技術有助于提高車隊的管理效率,從而實現(xiàn)車隊的串穩(wěn)定性以及提高行駛安全性??梢钥闯?,數(shù)字孿生賦能車隊能實現(xiàn)高效的車隊管理和安全行駛。然而,維護一個低延遲的pdt的關鍵問題是如何實現(xiàn)車隊數(shù)字孿生與車隊物理實體之間的實時同步。信息年齡(aoi)是衡量信息時效性的重要指標,定義為從最新數(shù)據(jù)生成到到達其目標接受節(jié)點所經(jīng)過的時間。目前,aoi已被證明是衡量物聯(lián)網(wǎng)(iot)信息新鮮度的有效指標,常用于分析無線網(wǎng)絡的性能。因此,本發(fā)明將aoi引入車隊系統(tǒng)中來衡量車隊數(shù)字孿生的實時性:pdt自上一次與pps同步后所經(jīng)過的延遲時間。
3、一般來說,pl負責車隊的管理,在pl中托管車隊數(shù)字孿生是一種解決方案。然而,該方案在一些特殊情況下存在問題:1)在車隊行駛過程中,一些通信干擾,例如樹木、交通信號牌、信號陰影等物理障礙物,會不同程度地影響車輛之間的通信鏈路。2)在較大規(guī)模的隊列中,由于通信距離和有限通信資源的限制,頭車與車隊較為末尾車輛的通信質(zhì)量低。3)編隊車輛的不同外形也會影響v2v的通信鏈路。無人機具有高機動性、網(wǎng)絡覆蓋范圍大、部署成本低等優(yōu)勢,可以為車輛提供中繼、緩存和計算等服務。此外,無人機與車輛的視距信道特點可以減少信道中復雜衰落或中斷的可能性,從而提高通信鏈路質(zhì)量。因此,使用無人機作為邊緣服務節(jié)點托管pdt是一種有效的解決方案。
4、然而,基于無人機輔助的車隊數(shù)字孿生維護方案還存在一些挑戰(zhàn):1)無人機和編隊車輛的高移動性將導致高度動態(tài)的信道特征。2)pdt與pps之間的同步需要頻繁的無線通信,動態(tài)的信道條件會影響通信鏈路的穩(wěn)定性。3)維護較低aoi的pdt需要多類型資源的加持,多類型資源在動態(tài)網(wǎng)絡中的聯(lián)合分配也是車聯(lián)網(wǎng)中面臨的重點難題之一。此外,目前還沒有關于pdt網(wǎng)絡中多類型資源分配的建模和優(yōu)化以及pdt與車隊控制之間的交互機制的發(fā)明研究。
技術實現(xiàn)思路
1、針對上述各種問題,本發(fā)明提供一種無人機輔助的車隊數(shù)字孿生資源分配和車隊控制優(yōu)化方法。
2、本發(fā)明的一種無人機輔助的車隊數(shù)字孿生資源分配和車隊控制優(yōu)化方法,包括以下步驟:
3、步驟1:無人機輔助的車隊數(shù)字孿生網(wǎng)絡模型。
4、模型由車隊物理系統(tǒng)pps、無人機和車隊數(shù)字孿生pdt組成;pps由一個頭車pl和一組成員車輛pm組成,以{1,2,...,n,...,n}為索引,其中n=1表示pl,n是列隊車輛的總數(shù)。每輛車都配備了車載傳感器收集有關周圍環(huán)境的狀態(tài)數(shù)據(jù)和信息;狀態(tài)數(shù)據(jù)用于更新車輛的dt。忽略傳感器的數(shù)據(jù)收集時間,所有列隊車輛都將收集到的狀態(tài)數(shù)據(jù)傳輸?shù)酵泄躳dt的無人機;車輛n的dt定義為:
5、
6、其中,dn表示車輛狀態(tài)數(shù)據(jù),an表示信息年齡aoi。
7、步驟2:建立系統(tǒng)動力學模型。
8、(1)車輛動態(tài)模型:
9、車輛n在第t個up中的縱向車頭位置和速度分別表示xn(t)和vn(t);假設同一up中xn(t)的變化足夠小,車輛n與前方車輛n-1之間的間隙距離為:
10、dn(t)=xn-1(t)-xn(t)-dveh????(2)
11、其中,dveh是車輛的長度;同步的pdt將信息反饋給每個pm,以調(diào)整與pl一致的pm的行駛狀態(tài)。在這種情況下,車隊采用領導者跟隨控制策略;車輛n的加速度是pl速度和間隙距離的函數(shù),寫成:
12、
13、其中,α和β是車輛控制參數(shù),v(·)是空間距離的函數(shù):
14、
15、其中,dmin和dmax分別是最小和最大車輛間隙距離,vmax是最大速度。如果pdt同步失敗,則每個pm采用前車跟隨控制策略跟隨其前車,在該條件下,使用智能駕駛員模型idm來構(gòu)建車輛的動態(tài)模型,第t個up中車輛n的加速度為:
16、
17、其中,amax是最大加速度,δvn(t)=vn(t)-vn-1(t)是相對速度,δ1∈[1,5]是駕駛員靈敏度特征。fδ(·)是一個通過以下公式計算的函數(shù):
18、
19、其中,tmin是最小時間前進距離,amin是最小加速度。因此,車輛n在第t個up中的加速度、速度和位置為:
20、
21、vn(t)=vn(t-1)+an(t-1)τ??????(8)
22、
23、為了保證列隊車輛的安全行駛,對車輛空間距離、速度和加速度的限制如下:
24、
25、(2)無人機動態(tài)模型:
26、假設無人機在第t個up中的位置、速度和加速度分別為x0(t)、vd(t)和a0(t)。無人機在第t個up中的飛行速度和位置為:
27、v0(t)=v0(t-1)+a0(t-1)τ???????(11)
28、
29、為了無人機飛行的安全,對飛行速度和加速度的限制如下:
30、
31、步驟3:建立通信模型和計算模型。
32、將車輛n在第t個up開始時收集的狀態(tài)數(shù)據(jù)的大小定義為dn(t)比特。
33、(1)通信模型:
34、在通信網(wǎng)絡中,采用正交頻分多址ofdma通信技術,假設無人機與列隊車輛之間的無線通信信道以視線距離los為主,則第t個up中車輛n與無人機之間的信道增益為:
35、
36、其中,g0是一米通信距離的信道功率增益,δ2是路徑損耗指數(shù),是車輛n與無人機之間的通信距離。在給定的通信帶寬b下,根據(jù)香農(nóng)公式,第t個up中車輛n的數(shù)據(jù)傳輸速率為:
37、
38、其中,σ2是背景白高斯噪聲的功率,是傳輸功率,是最大傳輸功率。因此第t個up中車輛n的狀態(tài)數(shù)據(jù)傳輸時間為:
39、
40、在第t個up中傳輸車輛n狀態(tài)數(shù)據(jù)所消耗的能量為:
41、
42、(2)計算模型:
43、狀態(tài)數(shù)據(jù)到達無人機后,邊緣服務器對狀態(tài)數(shù)據(jù)進行分析計算來更新dt;假設邊緣服務器配備了高性能處理器,可并行處理所有列隊車輛傳輸?shù)臓顟B(tài)數(shù)據(jù)。無人機在第t個up中處理車輛n狀態(tài)數(shù)據(jù)的時間為:
44、
45、其中,l0是執(zhí)行1個比特狀態(tài)數(shù)據(jù)所需的cpu周期,表示分配的cpu容量,是分配的計算能力,是最大計算能力,κ是無人機處理器的有效開關電容。無人機計算第t個up中車輛n狀態(tài)數(shù)據(jù)所消耗的能量為:
46、
47、步驟4:信息年齡aoi模型。
48、使用aoi來表示dt的延遲,處理第t-1個up初始時刻生成的狀態(tài)數(shù)據(jù)所用時間為來更新dt?n;因此,dt?n在那一刻的aoi等于狀態(tài)數(shù)據(jù)的處理時間;dt?n的aoi持續(xù)增加,直到dt?n再次更新;在第t個up中,經(jīng)過時間處理新的狀態(tài)數(shù)據(jù)以更新dt?n;此時,dt?n的aoi下降到an(t)是dt?n在第t個up中的峰值aoi,通過以下公式計算:
49、
50、由于每個up中車輛dt的更新時間存在差異,假設只有在所有車輛dt的更新過程完成后,pdt才會更新;因此,pdt的更新時間取決于所有車輛dt的最大更新時間,pdt的峰值aoi為:
51、
52、設當每個up中的apdt(t)不超過時,pdt與pps成功同步:
53、
54、步驟5:系統(tǒng)模型問題建模。
55、整個系統(tǒng)在第t個up中的平均能耗為:
56、
57、系統(tǒng)模型目標是通過聯(lián)合優(yōu)化車隊系統(tǒng)的傳輸功率和計算功率分配,使pdt的平均峰值aoi與長期平均能耗的加權(quán)和最小化:
58、
59、s.t.
60、公式(10)、(13)、(22)
61、
62、
63、其中,ω1∈[0,1]和ω2∈[0,1]是加權(quán)系數(shù),滿足ω1+ω2=1;ω和ωω2的不同組合表示不同性能指標之間的平衡;約束條件(10)和(13)確保車隊和無人機的安全運行;約束條件(22)限制了pdt的最大延遲;約束條件(25)和(26)分別限制了最大傳輸功率和計算功率。
64、步驟6:模型求解;
65、首先將該動態(tài)資源優(yōu)化問題表述為馬爾可夫決策過程mdp模型。
66、(1)mdp模型;
67、將整個系統(tǒng)視為環(huán)境狀態(tài)s,環(huán)境狀態(tài)由每輛編隊車輛的局部狀態(tài)組成,在每個時隙的初始時刻,智能體根據(jù)系統(tǒng)的狀態(tài)做出動作a,該動作包括每個車輛的發(fā)射功率以及無人機為每輛車分配的計算功率;在做出動作之后,智能體會立即從環(huán)境中獲得即時獎勵r,該獎勵由整個系統(tǒng)的平均能耗和pdt的peak?aoi組成。mdp中狀態(tài)、動作、即時獎勵函數(shù)定義如下:
68、1)狀態(tài)s:
69、車輛n在第t個up中的狀態(tài)由狀態(tài)數(shù)據(jù)的大小、與無人機的信道增益以及pdt的peak?aoi組成。所有車輛的狀態(tài)組成整個系統(tǒng)的狀態(tài),因此,系統(tǒng)的狀態(tài)定義為:
70、
71、其中,sn(t)=[dn(t),gn(t),apdt(t-1)]。
72、2)動作a:
73、智能體在每個up開始時的動作是所有車輛的傳輸能力和計算能力:
74、
75、其中,
76、3)即時獎勵函數(shù)r:
77、在每個up中,智能體的直接獎勵包括系統(tǒng)平均能耗的加權(quán)總和、pdt的峰值aoi和懲罰函數(shù):
78、
79、其中,和分別是能耗因子和aoi因子,旨在使pdt的平均能耗和峰值aoi保持在同一數(shù)量級;z(t)·p是一個懲罰函數(shù),其中p是一個大常數(shù),當apdt(t)超過閾值時,z(t)為1,否則為0。
80、(2)基于ddpg算法和dirichlet分布的d3pgra方法優(yōu)化求解。
81、ddpg算法基于actor-critic結(jié)構(gòu),actor網(wǎng)絡用于學習生成動作的策略函數(shù),critic網(wǎng)絡用于學習評價輸出動作策略的價值函數(shù);其中,actor網(wǎng)絡的輸入為環(huán)境狀態(tài),輸出為連續(xù)的確定性動作;critic網(wǎng)絡的輸入為環(huán)境狀態(tài)和動作,輸出為q值。
82、為了捕獲系統(tǒng)狀態(tài)中信道增益的時序特征,重新設計actor網(wǎng)絡,該網(wǎng)絡由多頭自注意力mhsa層、長短期記憶網(wǎng)絡lstm層和全連接fc層組成;在actor在線網(wǎng)絡輸出動作后加入ou隨機噪聲。
83、使用給定的dirichlet抽樣的隨機過程來使智能體探索狀態(tài)空間,同時使用dirichlet分布來生成最終的輸出動作;全連接神經(jīng)網(wǎng)絡的輸出層大小為2n,前n個輸出通過dirichlet采樣得到發(fā)射功率動作,后n個輸出通過dirichlet采樣得到計算功率動作;傳輸功率作用和計算功率作用服從狄利克雷分布,即pt~dir(o)和pc~dir(o);dirichlet分布的概率密度函數(shù)為:
84、
85、
86、其中,p={p1,...,pi,...pn}是功率分配比,o={o1,...,oi,...,on}是計算出的網(wǎng)絡輸出;為了滿足oi>0,計算每個網(wǎng)絡輸出:其中outi是網(wǎng)絡輸出,ε是一個非常小的非負常數(shù)。
87、critic在線網(wǎng)絡的參數(shù)使用隨機梯度下降sgd方法進行更新:
88、
89、
90、其中,αθ是critic在線網(wǎng)絡的學習率;yt是目標q值,由critic目標網(wǎng)絡計算得出:
91、
92、其中γ是折扣系數(shù);是從actor目標網(wǎng)絡輸出的目標動作;actor在線網(wǎng)絡使用dpg方法更新神經(jīng)網(wǎng)絡參數(shù):
93、
94、
95、其中,αμ是actor在線網(wǎng)絡的學習率;兩個目標網(wǎng)絡參數(shù)的更新計算如下:
96、θ-←τ0·θ+(1-τ0)·θ-???????(37)
97、μ-←τ0·μ+(1-τ0)·μ-??????(38)
98、其中τ0是一個非常小的非負常數(shù)。
99、本發(fā)明的有益技術效果為:
100、本發(fā)明創(chuàng)新性地提出了無人機輔助托管車隊數(shù)字孿生的解決方案,提出地解決方案同時考慮了數(shù)字孿生地同步時延和車隊地控制策略??梢酝瑫r優(yōu)化車隊數(shù)字孿生的信息年齡和車隊的控制策略,能有效解決車隊功率分配和車隊控制聯(lián)合優(yōu)化問題。