本發(fā)明涉及計(jì)算機(jī),尤其涉及一種基于圖強(qiáng)化學(xué)習(xí)的移動(dòng)機(jī)械臂可達(dá)性地圖計(jì)算方法。
背景技術(shù):
1、具身智能是一種基于物理身體進(jìn)行感知或行動(dòng)的智能系統(tǒng)。通過(guò)與環(huán)境的監(jiān)護(hù)獲取信息,理解問(wèn)題,做出決策并實(shí)現(xiàn)行動(dòng),從而產(chǎn)生智能行為和適應(yīng)性。具身智能研究的一個(gè)前沿領(lǐng)域是智能體與環(huán)境之間的交互和聯(lián)系,任務(wù)要求智能積極的與環(huán)境進(jìn)行交互以完成目標(biāo)任務(wù)。移動(dòng)操作機(jī)器人(mobile?manipulation,?mm)是具身智能應(yīng)用的典型例子,由于其移動(dòng)性和靈活等等多種優(yōu)勢(shì)被廣泛應(yīng)用于家庭室內(nèi)場(chǎng)景中,以完成各種導(dǎo)航與交互任務(wù)。近年來(lái),該領(lǐng)域的相關(guān)研究正在迅速增長(zhǎng),許多挑戰(zhàn)賽如habitat?rearrangement、thethreedworld和ai2-thor等挑戰(zhàn)被提出。
2、在機(jī)器人執(zhí)行移動(dòng)操作任務(wù)時(shí),同時(shí)需要依賴機(jī)器人的底盤和機(jī)械臂,而機(jī)械臂操作是否能夠成功執(zhí)行很大程度上依賴于好的基座定位。然而,如何確定好的底盤位置仍然具有挑戰(zhàn)性。在室內(nèi)環(huán)境中存在多種復(fù)雜物品,如地面上的障礙物和桌面上的障礙物對(duì)于機(jī)器人而言是兩種不同類型的障礙物信息,如何能夠更好的對(duì)環(huán)境進(jìn)行建模使機(jī)器人能夠理解環(huán)境中物品之間的關(guān)系是目前亟需解決的問(wèn)題。此外,在室內(nèi)環(huán)境中機(jī)器人需要在不同的場(chǎng)景中進(jìn)行切換。如對(duì)于在桌子和抽屜中執(zhí)行任務(wù)時(shí),機(jī)器人需要選擇不同的基座位置,因此機(jī)器人需要學(xué)會(huì)策略間的快速遷移以快速適應(yīng)場(chǎng)景的變換。目前雖然對(duì)長(zhǎng)時(shí)復(fù)雜操作任務(wù)有了大量的研究,但少有研究如何將可達(dá)性地圖用于解決技能之間的hand-off問(wèn)題,如導(dǎo)航和抓取,或者導(dǎo)航和放置之間的切換問(wèn)題。
3、目前針對(duì)如何對(duì)室內(nèi)場(chǎng)景進(jìn)行建模不同的學(xué)者提出了許多方法,在object?goalnavigation中常采用3d點(diǎn)云建模,但該方法需要消耗大量運(yùn)算資源而我們的移動(dòng)操作平臺(tái)計(jì)算資源有限,且針對(duì)可達(dá)性地圖生成任務(wù)不需要過(guò)于細(xì)致的建模,而僅僅需要幫助機(jī)器人理解物品的空間關(guān)系。此外,如何獲取室內(nèi)場(chǎng)景中移動(dòng)操作機(jī)器人可達(dá)性數(shù)據(jù)前人也進(jìn)行了大量的研究。在經(jīng)典的方法中,通過(guò)在每個(gè)基座位置多次進(jìn)行逆運(yùn)動(dòng)學(xué)求解獲取逆可達(dá)性地圖,但該方法的計(jì)算量過(guò)大需要頻繁的計(jì)算更新地圖并計(jì)算逆可達(dá)性;基于強(qiáng)化學(xué)習(xí)的方法,需要針對(duì)每個(gè)場(chǎng)景進(jìn)行訓(xùn)練,對(duì)實(shí)際環(huán)境中環(huán)境發(fā)生動(dòng)態(tài)變換的擴(kuò)展和遷移能力較差。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的在于提供一種基于圖強(qiáng)化學(xué)習(xí)的移動(dòng)機(jī)械臂可達(dá)性地圖計(jì)算方法。
2、為實(shí)現(xiàn)上述發(fā)明目的,本發(fā)明提供一種基于圖強(qiáng)化學(xué)習(xí)的移動(dòng)機(jī)械臂可達(dá)性地圖計(jì)算方法,包括:
3、s1.基于圖注意力網(wǎng)絡(luò)捕捉目標(biāo)環(huán)境中移動(dòng)機(jī)械臂與周圍物體之間的相對(duì)位置關(guān)系,以對(duì)所述目標(biāo)環(huán)境進(jìn)行建模并生成關(guān)于所述目標(biāo)環(huán)境的異構(gòu)節(jié)點(diǎn)圖和與所述異構(gòu)節(jié)點(diǎn)圖相對(duì)應(yīng)的特征向量;
4、s2.構(gòu)建所述移動(dòng)機(jī)械臂的移動(dòng)操作模型;
5、s3.獲取所述異構(gòu)節(jié)點(diǎn)圖、所述特征向量和所述移動(dòng)操作模型并采用圖強(qiáng)化學(xué)習(xí)生成供所述移動(dòng)機(jī)械臂移動(dòng)操作的可達(dá)性地圖;其中,所述可達(dá)性地圖包括:所述移動(dòng)機(jī)械臂作用于節(jié)點(diǎn)的狀態(tài)-動(dòng)作對(duì);
6、s4.選擇所述可達(dá)性地圖中的狀態(tài)-動(dòng)作對(duì)并輸入評(píng)論家網(wǎng)絡(luò),以評(píng)價(jià)所述移動(dòng)機(jī)械臂作用于節(jié)點(diǎn)的狀態(tài)-動(dòng)作對(duì)的 q值,以完成所述可達(dá)性地圖的計(jì)算。
7、根據(jù)本發(fā)明的一個(gè)方面,步驟s1中,所述異構(gòu)節(jié)點(diǎn)圖表示為:
8、;
9、其中,表示所述異構(gòu)節(jié)點(diǎn)圖中的節(jié)點(diǎn),表示所述異構(gòu)節(jié)點(diǎn)圖中用于連接所述節(jié)點(diǎn)的有向邊;
10、所述異構(gòu)節(jié)點(diǎn)圖中的節(jié)點(diǎn)分別為:目標(biāo)物體節(jié)點(diǎn)、容器節(jié)點(diǎn)、地面障礙節(jié)點(diǎn)和桌面障礙物節(jié)點(diǎn);
11、所述節(jié)點(diǎn)的有向邊分別為:所述容器節(jié)點(diǎn)、所述地面障礙節(jié)點(diǎn)和所述桌面障礙物節(jié)點(diǎn)分別與所述目標(biāo)物體節(jié)點(diǎn)的有向邊。
12、根據(jù)本發(fā)明的一個(gè)方面,步驟s1中,基于圖注意力網(wǎng)絡(luò)捕捉目標(biāo)環(huán)境中移動(dòng)機(jī)械臂與周圍物體之間的相對(duì)位置關(guān)系,以對(duì)所述目標(biāo)環(huán)境進(jìn)行建模并生成關(guān)于所述目標(biāo)環(huán)境的異構(gòu)節(jié)點(diǎn)圖和與所述異構(gòu)節(jié)點(diǎn)圖相對(duì)應(yīng)的特征向量的步驟中,包括:
13、s11.基于機(jī)器人本體視覺或者已知環(huán)境信息獲取目標(biāo)環(huán)境中所述移動(dòng)機(jī)械臂周圍的物體;其中,所述物體分別為:目標(biāo)、容器、地面障礙物和桌面障礙物;
14、s12.獲取所述移動(dòng)機(jī)械臂與周圍的所述物體之間的空間位置關(guān)系,并獲取各物體之間的同構(gòu)節(jié)點(diǎn)圖;其中,在所述同構(gòu)節(jié)點(diǎn)圖中,與所述容器相對(duì)應(yīng)的容器節(jié)點(diǎn),與所述地面障礙物相對(duì)應(yīng)的地面障礙節(jié)點(diǎn),與所述桌面障礙物相對(duì)應(yīng)的桌面障礙物節(jié)點(diǎn)分別在與所述目標(biāo)相對(duì)應(yīng)的目標(biāo)節(jié)點(diǎn)的周圍;
15、s13.基于所述物體的空間分布,采用獨(dú)熱編碼方式對(duì)所述同構(gòu)節(jié)點(diǎn)圖的各個(gè)所述節(jié)點(diǎn)添加維度信息,以生成所述異構(gòu)節(jié)點(diǎn)圖和所述特征向量。
16、根據(jù)本發(fā)明的一個(gè)方面,與所述異構(gòu)節(jié)點(diǎn)圖相對(duì)應(yīng)的特征向量表示為:
17、;
18、其中,表示節(jié)點(diǎn)的特征,表示節(jié)點(diǎn)在第0層隱藏層的輸出,表示類別信息,是四種類型節(jié)點(diǎn)維度的總和,表示節(jié)點(diǎn)的初始特征向量,上標(biāo)用于區(qū)分不同的隱藏層,以用于區(qū)分不同層的隱藏層,表示節(jié)點(diǎn)在第層隱藏層的特征表示,表示帶有權(quán)重的多層感知器mlp網(wǎng)絡(luò),表示節(jié)點(diǎn)在第層隱藏層的輸出,表示節(jié)點(diǎn)在第1層隱藏層的輸出,表示線性變換矩陣,表示節(jié)點(diǎn)在隱藏層的特征表示,表示節(jié)點(diǎn)的鄰接節(jié)點(diǎn)集,表示有向邊的歸一化注意力權(quán)重,表示有向邊在隱藏層的歸一化注意力權(quán)重,表示目標(biāo)環(huán)境的最終表示,表示第一層的輸出,表示觀測(cè),是一個(gè)激活函數(shù)。
19、根據(jù)本發(fā)明的一個(gè)方面,步驟s2中,構(gòu)建所述移動(dòng)機(jī)械臂的移動(dòng)操作模型的步驟中,所述移動(dòng)操作模型基于馬爾可夫決策過(guò)程的行動(dòng)者網(wǎng)絡(luò)所構(gòu)建;其中,所述移動(dòng)操作模型由元組定義,且表示為:
20、;
21、其中,和分別表示狀態(tài)和動(dòng)作空間,表示狀態(tài)轉(zhuǎn)移函數(shù),表示獎(jiǎng)勵(lì)函數(shù),表示是折扣因子,表示初始狀態(tài)分布。
22、根據(jù)本發(fā)明的一個(gè)方面,步驟s3中,獲取所述異構(gòu)節(jié)點(diǎn)圖、所述特征向量和所述移動(dòng)操作模型并采用圖強(qiáng)化學(xué)習(xí)生成供所述移動(dòng)機(jī)械臂移動(dòng)操作的可達(dá)性地圖的步驟中,包括:
23、s31.構(gòu)建所述移動(dòng)機(jī)械臂移動(dòng)操作的策略,其中,策略表示為:
24、;
25、其中,表示所述移動(dòng)機(jī)械臂移動(dòng)操作的狀態(tài),表示在狀態(tài)下所采取的動(dòng)作;
26、s32.基于所述異構(gòu)節(jié)點(diǎn)圖、所述特征向量和所述移動(dòng)操作模型構(gòu)建所述移動(dòng)機(jī)械臂移動(dòng)操作的混合動(dòng)作空間,其中,所述混合動(dòng)作空間表示為:
27、;
28、;
29、其中,表示離散動(dòng)作空間,其中,離散動(dòng)作表示移動(dòng)機(jī)械臂的操作動(dòng)作,表示連續(xù)動(dòng)作空間,其中,連續(xù)動(dòng)作表示移動(dòng)機(jī)械臂的底座移動(dòng)動(dòng)作,和分別表示極坐標(biāo)中的半徑和角度坐標(biāo),表示移動(dòng)機(jī)械臂的當(dāng)前方位,表示在離散動(dòng)作空間中定義,表示移動(dòng)機(jī)械臂的開始/停止信號(hào),當(dāng)時(shí),移動(dòng)機(jī)械臂執(zhí)行抓取動(dòng)作;否則,移動(dòng)機(jī)械臂保持不動(dòng);
30、s33.基于獲得的所述混合動(dòng)作空間進(jìn)行圖強(qiáng)化學(xué)習(xí),以生成所述可達(dá)性地圖;其中,所述可達(dá)性地圖中的狀態(tài)-動(dòng)作對(duì)表示為:。
31、根據(jù)本發(fā)明的一個(gè)方面,步驟s4中,選擇所述可達(dá)性地圖中的狀態(tài)-動(dòng)作對(duì)并輸入評(píng)論家網(wǎng)絡(luò),以評(píng)價(jià)所述移動(dòng)機(jī)械臂作用于節(jié)點(diǎn)的狀態(tài)-動(dòng)作對(duì)的 q值,以完成所述可達(dá)性地圖的計(jì)算的步驟中,包括:
32、s41.確定所述異構(gòu)節(jié)點(diǎn)圖中用于評(píng)估可達(dá)性的區(qū)域;
33、s42.確定所述移動(dòng)機(jī)械臂在所述區(qū)域中的位置坐標(biāo),并獲取關(guān)于所述位置坐標(biāo)的變換矩陣;
34、s43.基于所述變換矩陣將所述區(qū)域中的目標(biāo)物體節(jié)點(diǎn)、容器節(jié)點(diǎn)、地面障礙節(jié)點(diǎn)和桌面障礙物節(jié)點(diǎn)的坐標(biāo)從全局坐標(biāo)系轉(zhuǎn)換到所述移動(dòng)機(jī)械臂的坐標(biāo)系中;
35、s44.以所述移動(dòng)機(jī)械臂面向目標(biāo)物體的方向作為中心,并確定以為中心的180度范圍,其中,在該范圍內(nèi)每隔10度取一個(gè)點(diǎn)共取19個(gè)點(diǎn);
36、s45.構(gòu)建所述移動(dòng)機(jī)械臂移動(dòng)操作的混合動(dòng)作空間的動(dòng)作值,以及確定出狀態(tài)值,以獲得相應(yīng)的狀態(tài)-動(dòng)作對(duì);
37、s46.將獲得的所述狀態(tài)-動(dòng)作對(duì)輸入至所述評(píng)論家網(wǎng)絡(luò),以完成對(duì)狀態(tài)-動(dòng)作對(duì)的 q值的求解,完成所述可達(dá)性地圖的計(jì)算。
38、根據(jù)本發(fā)明的一種方案,本發(fā)明采用圖注意力網(wǎng)絡(luò)對(duì)目標(biāo)場(chǎng)景建模的方法,能夠有效的對(duì)目標(biāo)場(chǎng)景的空間關(guān)系進(jìn)行建模,且針對(duì)室內(nèi)flexibel場(chǎng)景的變換,使得本發(fā)明具有良好的返回性能。
39、根據(jù)本發(fā)明的一種方案,本發(fā)明通過(guò)將目標(biāo)場(chǎng)景中物體進(jìn)行四種類型分類的方式,使得本發(fā)明對(duì)建模過(guò)程的計(jì)算量被有效降低,可充分的提高本發(fā)明的生成效率。
40、根據(jù)本發(fā)明的一種方案,本發(fā)明通過(guò)采用異構(gòu)圖對(duì)場(chǎng)景建模簡(jiǎn)化的方式,可以進(jìn)一步基于圖注意力網(wǎng)絡(luò)與混合動(dòng)作空間實(shí)現(xiàn)圖強(qiáng)化學(xué)習(xí),以實(shí)現(xiàn)了針對(duì)復(fù)雜場(chǎng)景中移動(dòng)機(jī)械臂無(wú)碰撞且成功的抓取可達(dá)性地圖的精確生成。
41、根據(jù)本發(fā)明的一種方案,本發(fā)明通過(guò)基于圖強(qiáng)化學(xué)習(xí)的方式獲取桌面附近的可達(dá)性,能夠快速的對(duì)場(chǎng)景中的空間關(guān)系進(jìn)行分析,獲取可達(dá)性數(shù)據(jù),使本發(fā)明能夠在實(shí)際的應(yīng)用中保持較好的時(shí)效性。
42、根據(jù)本發(fā)明的一種方案,本發(fā)明能夠?qū)τ谌萜鞲浇目蛇_(dá)性進(jìn)行評(píng)估,將可達(dá)性區(qū)域劃分為五個(gè)等級(jí),從而幫助機(jī)器人在固定基座的情況下,使本發(fā)明能夠在實(shí)際應(yīng)用場(chǎng)景中實(shí)現(xiàn)更高的成功率。