本發(fā)明涉及機(jī)械臂控制,尤其是涉及一種基于多模態(tài)大模型的人機(jī)共融機(jī)械臂自適應(yīng)抓取方法及系統(tǒng)。
背景技術(shù):
1、最初,機(jī)械臂被廣泛應(yīng)用于工業(yè)生產(chǎn)線,用于執(zhí)行簡(jiǎn)單且重復(fù)的抓取任務(wù),例如汽車組裝和電子元件裝配,這些通常在結(jié)構(gòu)化的環(huán)境中進(jìn)行。隨著傳感器技術(shù)的發(fā)展,現(xiàn)代工業(yè)機(jī)械臂開始集成更高級(jí)的視覺和觸覺傳感器,以應(yīng)對(duì)更復(fù)雜的抓取任務(wù),機(jī)械臂的應(yīng)用領(lǐng)域也擴(kuò)展到家庭服務(wù)、災(zāi)害響應(yīng)和空間探索等領(lǐng)域。在這些非標(biāo)準(zhǔn)化環(huán)境中,抓取任務(wù)涉及形狀、大小、質(zhì)地各異的物體,而現(xiàn)有的方法中,依賴單模態(tài)數(shù)據(jù)的機(jī)械臂難以根據(jù)實(shí)時(shí)反饋迅速調(diào)整抓取策略,難以適應(yīng)環(huán)境變化和動(dòng)態(tài)的任務(wù)需求。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的是為了提供一種基于多模態(tài)大模型的人機(jī)共融機(jī)械臂自適應(yīng)抓取方法及系統(tǒng),解決現(xiàn)有技術(shù)中多模態(tài)數(shù)據(jù)融合的困難,同時(shí)整合人類先驗(yàn)知識(shí)和實(shí)時(shí)反饋,自適應(yīng)調(diào)節(jié)抓取策略,顯著提高了機(jī)械臂在非結(jié)構(gòu)化環(huán)境中的操作靈活性和效率。
2、本發(fā)明的目的可以通過以下技術(shù)方案來實(shí)現(xiàn):
3、一種基于多模態(tài)大模型的人機(jī)共融機(jī)械臂自適應(yīng)抓取方法,包括以下步驟:
4、s1,獲取任務(wù)區(qū)域的多模態(tài)傳感數(shù)據(jù),所述多模態(tài)傳感數(shù)據(jù)包括視覺數(shù)據(jù)、觸覺數(shù)據(jù)和描述任務(wù)的語言指令,其中,所述視覺數(shù)據(jù)包括rgb信息和深度信息;
5、s2,將多模態(tài)傳感數(shù)據(jù)轉(zhuǎn)換為描述文本;
6、s3,將描述文本輸入大模型,由大模型進(jìn)行語義規(guī)劃,生成機(jī)械臂動(dòng)作策略,所述機(jī)械臂動(dòng)作策略包括路徑規(guī)劃策略和抓取策略;
7、s4,基于運(yùn)動(dòng)規(guī)劃器控制機(jī)械臂按照機(jī)械臂動(dòng)作策略進(jìn)行動(dòng)作,并通過人類反饋調(diào)整抓取策略,完成抓取任務(wù)。
8、所述描述任務(wù)的語言指令為直接通過鍵盤輸入獲取的文本數(shù)據(jù)或通過語音輸入的語音數(shù)據(jù),其中,若為語音數(shù)據(jù),則在步驟s2中通過語音轉(zhuǎn)文字系統(tǒng)轉(zhuǎn)換為描述文本。
9、所述觸覺信息通過觸覺特征編碼器轉(zhuǎn)換為描述文本,所述觸覺特征編碼器將觸覺傳感器采集的觸覺信息通過觸摸嵌入對(duì)齊到一個(gè)共享的多模態(tài)嵌入空間,并針對(duì)硬度、粗糙度進(jìn)行標(biāo)注。
10、所述步驟s3中,基于所獲取的rgb信息與深度信息,采用預(yù)訓(xùn)練的sam模型進(jìn)行待抓取物體的精確定位和分類。
11、所述步驟s3中,利用qlora技術(shù)對(duì)sam模型進(jìn)行量化和低秩優(yōu)化,并在特定任務(wù)的數(shù)據(jù)集上進(jìn)行微調(diào)。
12、所述步驟s3中,大模型的規(guī)劃器結(jié)合描述任務(wù)的語言指令、視覺數(shù)據(jù)和觸覺數(shù)據(jù),將指令轉(zhuǎn)化為結(jié)構(gòu)化的任務(wù)描述,并按照標(biāo)準(zhǔn)化格式輸出;將標(biāo)準(zhǔn)化的任務(wù)描述轉(zhuǎn)換為api函數(shù)調(diào)用,具體化為機(jī)械臂可執(zhí)行的操作代碼,進(jìn)行機(jī)械臂的運(yùn)動(dòng)路徑規(guī)劃、動(dòng)作時(shí)序控制和抓取力度調(diào)節(jié)。
13、所述將標(biāo)準(zhǔn)化的任務(wù)描述轉(zhuǎn)換為api函數(shù)調(diào)用的轉(zhuǎn)換過程中,評(píng)估生成的動(dòng)作策略在動(dòng)力學(xué)和操作約束條件下是否可行,包括評(píng)估動(dòng)作是否可能導(dǎo)致機(jī)械碰撞、動(dòng)作是否超出機(jī)械臂的操作范圍以及動(dòng)作序列是否滿足邏輯上的連貫性和合理性;若動(dòng)作策略不可行則重新調(diào)整動(dòng)作策略。
14、所述步驟s4中,在完成抓取任務(wù)后,通過觸覺觸感器獲取的圖片,分析抓握是否穩(wěn)定、是否會(huì)產(chǎn)生滑移、抓取結(jié)果是否滿足預(yù)期,以判斷抓取任務(wù)是否成功;如果判斷抓取任務(wù)成功,則向用戶返回信息;如果抓取失敗,則通過大模型詢問用戶是否需要增加壓力再次執(zhí)行任務(wù),并將用戶反饋結(jié)果輸入給大模型,重新生成抓取策略,并記錄當(dāng)前失敗原因,生成錯(cuò)誤日志。
15、一種基于多模態(tài)大模型的人機(jī)共融機(jī)械臂自適應(yīng)抓取系統(tǒng),包括:
16、多模態(tài)數(shù)據(jù)獲取模塊:利用傳感器獲取任務(wù)區(qū)域的多模態(tài)傳感數(shù)據(jù),所述多模態(tài)傳感數(shù)據(jù)包括基于工業(yè)攝像頭獲取的視覺數(shù)據(jù)、基于觸覺傳感器獲取的觸覺數(shù)據(jù)和基于麥克風(fēng)或鍵盤獲取的描述任務(wù)的語言指令,其中,所述視覺數(shù)據(jù)包括rgb信息和深度信息;
17、文本處理模塊:將多模態(tài)傳感數(shù)據(jù)轉(zhuǎn)換為描述文本;
18、策略生成模塊:將描述文本輸入大模型,由大模型進(jìn)行語義規(guī)劃,生成機(jī)械臂動(dòng)作策略,所述機(jī)械臂動(dòng)作策略包括路徑規(guī)劃策略和抓取策略;
19、抓取與反饋模塊:基于運(yùn)動(dòng)規(guī)劃器控制機(jī)械臂按照機(jī)械臂動(dòng)作策略進(jìn)行動(dòng)作,并通過人類反饋調(diào)整抓取策略,完成抓取任務(wù)。
20、所述工業(yè)攝像頭固定在機(jī)械臂的夾爪上,麥克風(fēng)固定在操作臺(tái)上,觸覺壓力傳感器安裝在夾爪的內(nèi)側(cè)。
21、與現(xiàn)有技術(shù)相比,本發(fā)明具有以下有益效果:
22、本發(fā)明可以有效地融合現(xiàn)有任務(wù)區(qū)域多模態(tài)數(shù)據(jù),應(yīng)對(duì)環(huán)境變化和任務(wù)需求的動(dòng)態(tài)變化,提高機(jī)械臂涉及不同形狀、大小、質(zhì)地的物體的抓取精度與成功率。本發(fā)明具有豐富的環(huán)境感知能力、實(shí)時(shí)響應(yīng)能力和動(dòng)態(tài)調(diào)整能力。
1.一種基于多模態(tài)大模型的人機(jī)共融機(jī)械臂自適應(yīng)抓取方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的一種基于多模態(tài)大模型的人機(jī)共融機(jī)械臂自適應(yīng)抓取方法,其特征在于,所述描述任務(wù)的語言指令為直接通過鍵盤輸入獲取的文本數(shù)據(jù)或通過語音輸入的語音數(shù)據(jù),其中,若為語音數(shù)據(jù),則在步驟s2中通過語音轉(zhuǎn)文字系統(tǒng)轉(zhuǎn)換為描述文本。
3.根據(jù)權(quán)利要求1所述的一種基于多模態(tài)大模型的人機(jī)共融機(jī)械臂自適應(yīng)抓取方法,其特征在于,所述觸覺信息通過觸覺特征編碼器轉(zhuǎn)換為描述文本,所述觸覺特征編碼器將觸覺傳感器采集的觸覺信息通過觸摸嵌入對(duì)齊到一個(gè)共享的多模態(tài)嵌入空間,并針對(duì)硬度、粗糙度進(jìn)行標(biāo)注。
4.根據(jù)權(quán)利要求1所述的一種基于多模態(tài)大模型的人機(jī)共融機(jī)械臂自適應(yīng)抓取方法,其特征在于,所述步驟s3中,基于所獲取的rgb信息與深度信息,采用預(yù)訓(xùn)練的sam模型進(jìn)行待抓取物體的精確定位和分類。
5.根據(jù)權(quán)利要求4所述的一種基于多模態(tài)大模型的人機(jī)共融機(jī)械臂自適應(yīng)抓取方法,其特征在于,所述步驟s3中,利用qlora技術(shù)對(duì)sam模型進(jìn)行量化和低秩優(yōu)化,并在特定任務(wù)的數(shù)據(jù)集上進(jìn)行微調(diào)。
6.根據(jù)權(quán)利要求1所述的一種基于多模態(tài)大模型的人機(jī)共融機(jī)械臂自適應(yīng)抓取方法,其特征在于,所述步驟s3中,大模型的規(guī)劃器結(jié)合描述任務(wù)的語言指令、視覺數(shù)據(jù)和觸覺數(shù)據(jù),將指令轉(zhuǎn)化為結(jié)構(gòu)化的任務(wù)描述,并按照標(biāo)準(zhǔn)化格式輸出;將標(biāo)準(zhǔn)化的任務(wù)描述轉(zhuǎn)換為api函數(shù)調(diào)用,具體化為機(jī)械臂可執(zhí)行的操作代碼,進(jìn)行機(jī)械臂的運(yùn)動(dòng)路徑規(guī)劃、動(dòng)作時(shí)序控制和抓取力度調(diào)節(jié)。
7.根據(jù)權(quán)利要求6所述的一種基于多模態(tài)大模型的人機(jī)共融機(jī)械臂自適應(yīng)抓取方法,其特征在于,所述將標(biāo)準(zhǔn)化的任務(wù)描述轉(zhuǎn)換為api函數(shù)調(diào)用的轉(zhuǎn)換過程中,評(píng)估生成的動(dòng)作策略在動(dòng)力學(xué)和操作約束條件下是否可行,包括評(píng)估動(dòng)作是否可能導(dǎo)致機(jī)械碰撞、動(dòng)作是否超出機(jī)械臂的操作范圍以及動(dòng)作序列是否滿足邏輯上的連貫性和合理性;若動(dòng)作策略不可行則重新調(diào)整動(dòng)作策略。
8.根據(jù)權(quán)利要求1所述的一種基于多模態(tài)大模型的人機(jī)共融機(jī)械臂自適應(yīng)抓取方法,其特征在于,所述步驟s4中,在完成抓取任務(wù)后,通過觸覺觸感器獲取的圖片,分析抓握是否穩(wěn)定、是否會(huì)產(chǎn)生滑移、抓取結(jié)果是否滿足預(yù)期,以判斷抓取任務(wù)是否成功;如果判斷抓取任務(wù)成功,則向用戶返回信息;如果抓取失敗,則通過大模型詢問用戶是否需要增加壓力再次執(zhí)行任務(wù),并將用戶反饋結(jié)果輸入給大模型,重新生成抓取策略,并記錄當(dāng)前失敗原因,生成錯(cuò)誤日志。
9.一種基于多模態(tài)大模型的人機(jī)共融機(jī)械臂自適應(yīng)抓取系統(tǒng),其特征在于,包括:
10.根據(jù)權(quán)利要求9所述的一種基于多模態(tài)大模型的人機(jī)共融機(jī)械臂自適應(yīng)抓取系統(tǒng),其特征在于,所述工業(yè)攝像頭固定在機(jī)械臂的夾爪上,麥克風(fēng)固定在操作臺(tái)上,觸覺壓力傳感器安裝在夾爪的內(nèi)側(cè)。