日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

一種基于深度強化學習算法的無人帆船控制方法與流程

文檔序號:39729424發(fā)布日期:2024-10-22 13:34閱讀:8來源:國知局
一種基于深度強化學習算法的無人帆船控制方法與流程

本發(fā)明涉及無人帆船控制,具體涉及一種基于深度強化學習算法的無人帆船控制方法。


背景技術:

1、機器人技術和人工智能技術的發(fā)展將海洋探測逐步導向無人化、智能化的層面。無人帆船是一種以海洋可再生能源為驅(qū)動的新型長續(xù)航力海洋機器人,突破了傳統(tǒng)能源供給受限的瓶頸。在海氣界面大范圍環(huán)境要素觀測需求逐步增長的背景下,無人帆船能夠更好地解決中尺度和亞中尺度的觀測數(shù)據(jù)稀缺性問題。

2、目前使用人工智能技術(主要是深度強化學習技術)實現(xiàn)無人帆船控制決策的方法基本上依賴速度預測程序(vpp)。vpp最初的設計和應用是幫助船員更好地駕駛帆船,通過建立船體與風帆的力學模型(包括流體力學模型、空氣動力學模型),生成一套確保穩(wěn)定航行的速度極圖。在獲得真實風向和真實風速的情況下,船員能夠通過極圖找到對應的最大平穩(wěn)航行速度,進而做出決策。?在深度強化學習的應用中,vpp為智能體(agent)提供下一個時間步內(nèi)的可能存在的動作選擇,深度強化學習通過馬爾科夫決策過程將整個運動過程的動作選擇進行優(yōu)化,從而獲得從起點到終點最優(yōu)的航行決策。這種方法為無人帆船的航行競速提供了很大的幫助,但是,vpp對輸入的真實風向和真實風速存在著準確性的要求,而實際的測量往往存在著誤差,因此還需要人為的設計一套用于修正或預測風速風向的程序,一定程度上增加了整套控制系統(tǒng)的復雜度。

3、另外,一些傳統(tǒng)的控制方法也需要檢測風速風向來作為必要的參數(shù)。例如人們通過使用模糊控制來提升無人帆船在復雜未知環(huán)境下的自主航行適應能力,無人帆船能夠通過人為設定的一個風場域值來選擇輸出帆角和舵角,相比于數(shù)值計算動力學部分,風向風速與帆角舵角準確的對應關系,模糊控制幫助無人帆船能夠像“有人駕駛”一樣行駛。但是,模糊控制中對于域的劃分往往需要大量的“專家經(jīng)驗”,制定一套能夠滿足所有情況的模糊控制集是繁瑣的。


技術實現(xiàn)思路

1、本發(fā)明的目的是針對現(xiàn)有技術存在的不足,提供一種基于深度強化學習算法的無人帆船控制方法。

2、為實現(xiàn)上述目的,本發(fā)明提供了一種基于深度強化學習算法的無人帆船控制方法,包括:

3、采集無人帆船的位置坐標信息,其中,為無人帆船的橫坐標,為無人帆船的縱坐標,為無人帆船的速度,為無人帆船的偏航角;

4、基于無人帆船的位置坐標信息計算無人帆船坐標系的速度為:

5、

6、其中,為無人帆船沿前后方向的移動速度,為無人帆船沿橫向的移動速度;

7、采集無人帆船的三軸的線加速度和三軸角速度,其中,和分別表示無人帆船在x軸方向的線加速度和角速度,和分別表示無人帆船在y軸方向的線加速度和角速度,和分別表示無人帆船在z軸方向的線加速度和角速度;并令,,同時計算無人帆船的橫搖角;

8、將所述、、、、、、、作為當前的狀態(tài)量,并將當前的舵角和帆角作為當前的動作量輸入至訓練合格的神經(jīng)網(wǎng)絡模型,所述神經(jīng)網(wǎng)絡模型根據(jù)當前的狀態(tài)量和動作量預測下一時刻的舵角和帆角;

9、控制無人帆船的風帆舵機與船舵舵機根據(jù)神經(jīng)網(wǎng)絡模型預測的舵角和帆角工作。

10、進一步的,所述神經(jīng)網(wǎng)絡模型包括第一critic網(wǎng)絡、第二critic網(wǎng)絡和actor網(wǎng)絡,所述第一critic網(wǎng)絡和第二critic網(wǎng)絡用以分別根據(jù)當前的狀態(tài)量和動作量輸出一個q值,所述q值用于對actor網(wǎng)絡的決策產(chǎn)生影響,所述actor網(wǎng)絡用以根據(jù)當前的狀態(tài)量、所述q值輸出舵角和帆角的均值及標準差。

11、進一步的,所述第一critic網(wǎng)絡包括第一輸入模塊和第二輸入模塊,所述第一輸入模塊和第二輸入模塊分別用以接收輸入的當前的狀態(tài)量和動作量,所述第一輸入模塊和第二輸入模塊分別與第一全連接模塊和第二全連接模塊連接,所述第一全連接模塊和第二全連接模塊均使用256個神經(jīng)元分別與狀態(tài)量和動作量全連接,以分別生成256個特征,所述第一全連接模塊和第二全連接模塊均與拼接模塊連接,所述拼接模塊用以將狀態(tài)量和動作量的特征進行串聯(lián),以形成512個特征組合,且其與第一激活模塊、第三全連接模塊、第二激活模塊和第四全連接模塊依次串聯(lián)連接,所述第一激活模塊用以對串聯(lián)后的特征進行激活,以產(chǎn)生512個非負特征并傳入第三全連接模塊,所述第三全連接模塊用以采用256個神經(jīng)元與512個特征全連接,以獲得256個高級特征表示狀態(tài)量特征與動作量特征之間的高級特征關系,所述第二激活模塊用以對第三全連接模塊輸出的高級特征進行激活,以根據(jù)256個高級特征產(chǎn)生256個非負特征,所述第四全連接模塊用以根據(jù)第二激活模塊產(chǎn)生的256個非負特征計算獲得q值。

12、進一步的,所述第二critic網(wǎng)絡與第一critic網(wǎng)絡的結(jié)構(gòu)相同,但其第一全連接模塊和第二全連接模塊均使用128個神經(jīng)元生成相應的特征。

13、進一步的,所述actor網(wǎng)絡包括第三輸入模塊,所述第三輸入模塊用以接收輸入的當前的狀態(tài)量,且其與第五全連接模塊連接,所述第五全連接模塊使用256個神經(jīng)元與狀態(tài)量全連接,以生成256個特征,且其與第三激活模塊連接,所述第三激活模塊用以對第五全連接模塊輸出的特征進行激活,以產(chǎn)生256個非負特征并分別傳入第六全連接模塊和第七全連接模塊;

14、所述第六全連接模塊使用256個神經(jīng)元與第三激活模塊輸出的非負特征全連接,以生成動作量均值的256個初級特征,所述第六全連接模塊與第四激活模塊、第八全連接模塊、第五激活模塊和第九全連接模塊依次串聯(lián)連接,所述第四激活模塊用以對動作量均值的256個初級特征進行激活,所述第八全連接模塊使用128個神經(jīng)元與第四激活模塊激活后的初級特征全連接,以生成動作量均值的128個高級特征,所述第五激活模塊用以對動作量均值的128個高級特征進行激活,所述第九全連接模塊使用2個神經(jīng)元與第五激活模塊激活后的動作量均值的128個高級特征進行全連接,獲得舵角和帆角的均值,并作為預測出的下一時刻的舵角和帆角輸出;

15、所述第七全連接模塊使用256個神經(jīng)元與第三激活模塊輸出的256個非負特征全連接,以生成動作量標準差的256個初級特征,所述第七全連接模塊與第六激活模塊、第十全連接模塊、第七激活模塊、第十一全連接模塊和第八激活模塊依次串聯(lián)連接,所述第六激活模塊用以對動作量標準差的256個初級特征進行激活,所述第十全連接模塊使用128個神經(jīng)元與動作量標準差的256個初級特征全連接,形成動作量標準差的128個高級特征,所述第七激活模塊用以對動作量標準差的128個高級特征進行激活,所述第十一全連接模塊使用2個神經(jīng)元與激活后的動作量標準差的128個高級特征全連接,獲得舵角和帆角的標準差,所述第八激活模塊用以對舵角和帆角的標準差進行激活,獲得非負的舵角和帆角的標準差。

16、進一步的,還包括:基于狀態(tài)誤差卡爾曼濾波算法實現(xiàn)對系統(tǒng)狀態(tài)的動態(tài)估計和修正。

17、進一步的,所述神經(jīng)網(wǎng)絡模型通過以下方式訓練:

18、通過航行器在目標海域采集相對風速和相對風向數(shù)據(jù),并將相對風速和相對風向轉(zhuǎn)化為絕對風速和絕對風向;

19、根據(jù)所述絕對風速和絕對風向設計模擬風速函數(shù)和模擬風向函數(shù);

20、設計獎勵函數(shù)來優(yōu)化學習效果,所述獎勵函數(shù)被設計為:

21、

22、

23、其中,為計算出的獎勵值,為無人帆船目標終點的坐標,為根據(jù)當前狀態(tài)計算得到的距離終點的預測值,為到達終點的巨大獎勵,t是單次仿真下的實時仿真時間,中包含了對帆角變化過大的懲罰和保持帆角不變的獎勵,中包含了對舵角變化過大的懲罰和保持舵角不變的獎勵;

24、基于所述模擬風速函數(shù)、模擬風向函數(shù)和獎勵函數(shù)對神經(jīng)網(wǎng)絡模型進行訓練。

25、進一步的,所述模擬風速函數(shù)和模擬風向函數(shù)分別為:

26、

27、

28、其中,為一次采樣時間的模擬風速,為給定的風速中值,為上一個采樣時間風速,為標準正態(tài)分布函數(shù),為一次采樣時間的模擬風向,為給定的風向中值,為上一個采樣時間風速。

29、有益效果:1、本發(fā)明只需要采集當前的帆角、舵角和狀態(tài)數(shù)據(jù),就能夠進行后續(xù)控帆、控舵決策的強化學習方法,不需要對風速、風向進行實時監(jiān)測;

30、2、本發(fā)明提出一種分段漸進式的獎勵函數(shù)優(yōu)化思路,在保證訓練效果的前提下,提升訓練結(jié)果中航行效率與航行所需能源的平衡性;

31、3、本發(fā)明能夠有效抵抗隨機風場波動的外部干擾;

32、4、本發(fā)明對于無人帆船而言可以省去風速風向儀的裝配,降低環(huán)境變化對依賴風速風向控制算法的影響,同時提升帆船整體的集成性。

當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1