模型訓(xùn)練方法、識別方法、裝置、設(shè)備、存儲介質(zhì)及計算機(jī)程序產(chǎn)品與流程

文檔序號：39707048發(fā)布日期：2024-10-22 12:51閱讀：2來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

模型訓(xùn)練方法、識別方法、裝置、設(shè)備、存儲介質(zhì)及計算機(jī)程序產(chǎn)品與流程

本技術(shù)涉及計算機(jī)，尤其涉及一種模型訓(xùn)練方法、識別方法、裝置、設(shè)備、存儲介質(zhì)及計算機(jī)程序產(chǎn)品。

背景技術(shù)：

1、隨著計算機(jī)技術(shù)的日益成熟，計算機(jī)技術(shù)應(yīng)用也越來越廣泛。在計算機(jī)技術(shù)應(yīng)用過程中，通常會產(chǎn)生大量的各種類型的數(shù)據(jù)，如何對這些數(shù)據(jù)進(jìn)行分析利用成為當(dāng)前研究的課題。例如針對圖像處理，當(dāng)前提出了借助于大量的圖像文本數(shù)據(jù)來覆蓋更多的目標(biāo)檢測類別，使得目標(biāo)檢測不再受限于帶標(biāo)注即具有真實邊界框標(biāo)簽的數(shù)據(jù)的少數(shù)類別，從而實現(xiàn)更加泛化的目標(biāo)檢測，識別出更多的未知物體類別的開放詞匯目標(biāo)檢測(open-vocabulary?object?detection，ovd)，即在可見類(base?class)的數(shù)據(jù)上進(jìn)行訓(xùn)練，然后完成對不可見類(unseen/target?class)數(shù)據(jù)進(jìn)行識別和檢測，得到最終結(jié)果。目前提出的開放詞匯目標(biāo)檢測方案的一種實現(xiàn)算法為語言圖像關(guān)聯(lián)預(yù)訓(xùn)練模型(grounded?language-image?pre-training，glip)，實現(xiàn)視覺定位(grounding)任務(wù)即輸入圖片和對應(yīng)的物體描述，輸出物體描述，同時實現(xiàn)了細(xì)粒度跨模態(tài)對齊的工作。

2、但是，上述實現(xiàn)過程中使用圖像編碼器對圖像進(jìn)行編碼，使用文本編碼器對文本進(jìn)行編碼，兩個圖像模態(tài)和文本模態(tài)之間沒有關(guān)聯(lián)關(guān)系，導(dǎo)致圖像模態(tài)和文本模態(tài)之間的數(shù)據(jù)風(fēng)格差異較大時，上述實現(xiàn)方法的網(wǎng)絡(luò)的泛化能力較差，最終輸出結(jié)果誤差較大。

3、申請內(nèi)容

4、為解決上述技術(shù)問題，本技術(shù)期望提供一種模型訓(xùn)練方法、識別方法、裝置、設(shè)備、存儲介質(zhì)及計算機(jī)程序產(chǎn)品，提出了一種開放詞匯目標(biāo)檢測方案，提高了網(wǎng)絡(luò)的泛化能力，保證了輸出結(jié)果的可靠性。

5、本技術(shù)的技術(shù)方案是這樣實現(xiàn)的：

6、本技術(shù)提供一種模型訓(xùn)練方法，所述方法包括：

7、獲取待訓(xùn)練樣本數(shù)據(jù)；其中，所述待訓(xùn)練樣本數(shù)據(jù)包括圖像樣本數(shù)據(jù)和所述圖像樣本數(shù)據(jù)對應(yīng)的文本標(biāo)簽；

8、采用所述待訓(xùn)練樣本數(shù)據(jù)對待訓(xùn)練模型進(jìn)行模型訓(xùn)練，直至得到已訓(xùn)練好的對象識別模型；其中，所述待訓(xùn)練模型至少包括：對所述待訓(xùn)練樣本數(shù)據(jù)進(jìn)行文本特征和圖像特征進(jìn)行融合處理的融合處理網(wǎng)絡(luò)，對所述待訓(xùn)練樣本數(shù)據(jù)進(jìn)行視覺分析的視覺主干網(wǎng)絡(luò)，和對所述待訓(xùn)練樣本數(shù)據(jù)和融合處理網(wǎng)絡(luò)的輸出結(jié)果進(jìn)行文本分析的文本主干網(wǎng)絡(luò)。

9、上述方案中，所述獲取待訓(xùn)練樣本數(shù)據(jù)，包括：

10、獲取第一圖像；

11、檢測所述第一圖像中包括的目標(biāo)對象，確定包括至少一個所述目標(biāo)對象的圖像區(qū)域，得到所述圖像樣本數(shù)據(jù)；

12、確定針對所述第一圖像設(shè)置的所述文本標(biāo)簽；其中，所述待訓(xùn)練樣本數(shù)據(jù)包括所述圖像樣本數(shù)據(jù)和所述文本標(biāo)簽。

13、上述方案中，所述采用所述待訓(xùn)練樣本數(shù)據(jù)對待訓(xùn)練模型進(jìn)行模型訓(xùn)練，包括：

14、輸入所述圖像樣本數(shù)據(jù)至所述視覺主干網(wǎng)絡(luò)，得到圖像分析結(jié)果；

15、獲取所述視覺主干網(wǎng)絡(luò)中的編碼模塊對所述圖像樣本數(shù)據(jù)進(jìn)行編碼處理后輸出的第一圖像特征參數(shù)；

16、輸入所述第一圖像特征參數(shù)和所述文本標(biāo)簽至所述融合處理網(wǎng)絡(luò)，得到第一文本特征參數(shù)；

17、輸入所述第一文本特征參數(shù)至所述文本主干網(wǎng)絡(luò)，得到文本分析結(jié)果；

18、基于所述文本分析結(jié)果和所述圖像分析結(jié)果，得到預(yù)測結(jié)果；

19、基于所述預(yù)測結(jié)果，對所述視覺主干網(wǎng)絡(luò)、所述文本主干網(wǎng)絡(luò)和所述融合處理網(wǎng)絡(luò)中的可變參數(shù)進(jìn)行調(diào)整，得到訓(xùn)練后的待訓(xùn)練模型。

20、上述方案中，所述輸入所述第一圖像特征參數(shù)和所述文本標(biāo)簽至所述融合處理網(wǎng)絡(luò)，得到第一文本特征參數(shù)，包括：

21、通過預(yù)設(shè)連接符號將所述文本標(biāo)簽中包括的至少一個標(biāo)簽進(jìn)行連接，得到待分析短語；

22、通過所述融合處理網(wǎng)絡(luò)設(shè)置的全局注意力池化層對所述第一圖像特征數(shù)據(jù)進(jìn)行處理，得到第二圖像特征參數(shù)；

23、基于所述待分析短語和所述第二圖像特征參數(shù)，生成所述第一文本特征參數(shù)。

24、上述方案中，所述基于所述待分析短語和所述第二圖像特征參數(shù)，生成所述第一文本特征參數(shù)，包括：

25、將所述待分析短語與可調(diào)整的學(xué)習(xí)文本特征參數(shù)進(jìn)行拼接，得到待分析文本參數(shù)；

26、通過語言提示詞生成器對所述第二圖像特征參數(shù)進(jìn)行處理，得到條件線索參數(shù)；

27、將所述待分析文本參數(shù)和所述條件線索參數(shù)相加，得到所述文本分析特征。

28、上述方案中，所述基于所述文本分析結(jié)果和所述圖像分析結(jié)果，得到預(yù)測結(jié)果，包括：

29、確定所述文本分析結(jié)果和所述圖像分析結(jié)果的相似度參數(shù)；

30、基于所述相似度參數(shù)確定預(yù)測結(jié)果。

31、上述方案中，所述視覺主干網(wǎng)絡(luò)的每一圖像編碼層和對應(yīng)的所述文本主干網(wǎng)絡(luò)的文本編碼層之間設(shè)置有跨模態(tài)多頭注意力模塊。

32、上述方案中，所述方法包括：

33、輸入第i圖像編碼層的第i圖像特征輸出和對應(yīng)的第i文本編碼層的第i文本特征輸出輸入至所述跨模態(tài)多頭注意力模塊，得到第i注意力輸出；其中，i＝0,1,2……，n，n為所述視覺主干網(wǎng)絡(luò)包括的圖像編碼層的數(shù)量；

34、確定所述第i注意力輸出與所述第i圖像特征輸出相加，得到第i+1圖像特征輸入；

35、確定所述第i注意力輸出與所述第i文本特征輸出相加，得到第i+1文本特征輸入；

36、輸入所述第i+1圖像特征輸入至第i+1圖像編碼層；

37、輸入所述第i+1文本特征輸入至第i+1文本編碼層。

38、上述方案中，所述視覺主干網(wǎng)絡(luò)中設(shè)置的注意力機(jī)制為組混合注意力。

39、本技術(shù)提供一種識別方法，所述方法包括：

40、獲取待識別對象；

41、通過已訓(xùn)練好的對象識別模型進(jìn)行識別，得到識別結(jié)果；其中，所述對象識別模型可以是通過如上述任一項所述的模型訓(xùn)練方法進(jìn)行訓(xùn)練得到的。

42、本技術(shù)提供一種模型訓(xùn)練裝置，所述裝置包括：第一獲取單元和模型訓(xùn)練單元；其中：

43、所述第一獲取單元，用于獲取待訓(xùn)練樣本數(shù)據(jù)；其中，所述待訓(xùn)練樣本數(shù)據(jù)包括圖像樣本數(shù)據(jù)和所述圖像樣本數(shù)據(jù)對應(yīng)的文本標(biāo)簽；

44、所述模型訓(xùn)練單元，用于采用所述待訓(xùn)練樣本數(shù)據(jù)對待訓(xùn)練模型進(jìn)行模型訓(xùn)練，直至得到已訓(xùn)練好的對象識別模型；其中，所述待訓(xùn)練模型至少包括：對所述待訓(xùn)練樣本數(shù)據(jù)進(jìn)行文本特征和圖像特征進(jìn)行融合處理的融合處理網(wǎng)絡(luò)，對所述待訓(xùn)練樣本數(shù)據(jù)進(jìn)行視覺分析的視覺主干網(wǎng)絡(luò)，和對所述待訓(xùn)練樣本數(shù)據(jù)和所述融合處理網(wǎng)絡(luò)的輸出結(jié)果進(jìn)行文本分析的文本主干網(wǎng)絡(luò)。

45、本技術(shù)提供一種識別裝置，所述裝置包括：第二獲取單元和識別單元；其中：

46、所述第二獲取單元，用于獲取待識別對象；

47、所述識別單元，用于通過已訓(xùn)練好的對象識別模型進(jìn)行識別，得到識別結(jié)果；其中，所述對象識別模型可以通過上述所述的模型訓(xùn)練裝置訓(xùn)練得到。

48、本技術(shù)提供一種模型訓(xùn)練設(shè)備，所述設(shè)備至少包括：第一存儲器、第一處理器和第一通信總線；其中：

49、所述第一存儲器，用于存儲可執(zhí)行指令；

50、所述第一通信總線，用于實現(xiàn)所述第一處理器和所述第一存儲器之間的通信連接；

51、所述第一處理器，用于執(zhí)行所述第一存儲器中存儲的模型訓(xùn)練程序，實現(xiàn)如上述任一項所述的模型訓(xùn)練方法的步驟。

52、本技術(shù)提供一種識別設(shè)備，所述設(shè)備至少包括：第二存儲器、第二處理器和第二通信總線；其中：

53、所述第二存儲器，用于存儲可執(zhí)行指令；

54、所述第二通信總線，用于實現(xiàn)所述第二處理器和所述第二存儲器之間的通信連接；

55、所述第二處理器，用于執(zhí)行所述第二存儲器中存儲的識別程序，實現(xiàn)如上述所述的識別方法的步驟。

56、本技術(shù)提供一種存儲介質(zhì)，所述存儲介質(zhì)上存儲有模型訓(xùn)練程序，所述模型訓(xùn)練程序被執(zhí)行時用于實現(xiàn)如上述任一項所述的模型訓(xùn)練方法的步驟，或所述存儲介質(zhì)上存儲有識別程序，所述識別程序被執(zhí)行時用于實現(xiàn)如上述所述的識別方法的步驟。

57、本技術(shù)提供一種計算機(jī)程序產(chǎn)品，包括計算機(jī)程序，所述計算機(jī)程序在被處理器執(zhí)行時實現(xiàn)如上述任一項所述的方法的步驟。

58、本技術(shù)實施例提供了一種模型訓(xùn)練方法、識別方法、裝置、設(shè)備、存儲介質(zhì)及計算機(jī)程序產(chǎn)品，通過模型訓(xùn)練設(shè)備獲取待訓(xùn)練樣本數(shù)據(jù)后，采用待訓(xùn)練樣本數(shù)據(jù)對待訓(xùn)練模型進(jìn)行模型訓(xùn)練，直至得到已訓(xùn)練好的對象識別模型，然后識別設(shè)備獲取待識別對象后，通過已訓(xùn)練好的對象識別模型進(jìn)行識別，得到識別結(jié)果。這樣，通過對具有文本特征和圖像特征進(jìn)行融合處理的融合處理網(wǎng)絡(luò)、進(jìn)行視覺分析的視覺主干網(wǎng)絡(luò)和進(jìn)行文本分析的文本主干網(wǎng)絡(luò)的待訓(xùn)練模型進(jìn)行模型訓(xùn)練，得到已訓(xùn)練好的對象識別模型，實現(xiàn)樣本的文本特征和圖像特征綜合考慮識別，解決了目前輸入樣本導(dǎo)致開放詞匯目標(biāo)檢測方案的實現(xiàn)網(wǎng)絡(luò)的泛化能力較差的問題，提出了一種開放詞匯目標(biāo)檢測方案，提高了網(wǎng)絡(luò)的泛化能力，保證了輸出結(jié)果的可靠性。

技術(shù)實現(xiàn)思路

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：魏慧媛,陳茜,宋凌雪,杜瞻,黃文輝
技術(shù)所有人：中國移動通信有限公司研究院
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

模型訓(xùn)練方法、識別方法、裝置、設(shè)備、存儲介質(zhì)及計算機(jī)程序產(chǎn)品與流程

模型訓(xùn)練方法、識別方法、裝置、設(shè)備、存儲介質(zhì)及計算機(jī)程序產(chǎn)品與流程