日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

模型訓(xùn)練方法、識別方法、裝置、設(shè)備、存儲介質(zhì)及計算機(jī)程序產(chǎn)品與流程

文檔序號:39707048發(fā)布日期:2024-10-22 12:51閱讀:2來源:國知局
模型訓(xùn)練方法、識別方法、裝置、設(shè)備、存儲介質(zhì)及計算機(jī)程序產(chǎn)品與流程

本技術(shù)涉及計算機(jī),尤其涉及一種模型訓(xùn)練方法、識別方法、裝置、設(shè)備、存儲介質(zhì)及計算機(jī)程序產(chǎn)品。


背景技術(shù):

1、隨著計算機(jī)技術(shù)的日益成熟,計算機(jī)技術(shù)應(yīng)用也越來越廣泛。在計算機(jī)技術(shù)應(yīng)用過程中,通常會產(chǎn)生大量的各種類型的數(shù)據(jù),如何對這些數(shù)據(jù)進(jìn)行分析利用成為當(dāng)前研究的課題。例如針對圖像處理,當(dāng)前提出了借助于大量的圖像文本數(shù)據(jù)來覆蓋更多的目標(biāo)檢測類別,使得目標(biāo)檢測不再受限于帶標(biāo)注即具有真實邊界框標(biāo)簽的數(shù)據(jù)的少數(shù)類別,從而實現(xiàn)更加泛化的目標(biāo)檢測,識別出更多的未知物體類別的開放詞匯目標(biāo)檢測(open-vocabulary?object?detection,ovd),即在可見類(base?class)的數(shù)據(jù)上進(jìn)行訓(xùn)練,然后完成對不可見類(unseen/target?class)數(shù)據(jù)進(jìn)行識別和檢測,得到最終結(jié)果。目前提出的開放詞匯目標(biāo)檢測方案的一種實現(xiàn)算法為語言圖像關(guān)聯(lián)預(yù)訓(xùn)練模型(grounded?language-image?pre-training,glip),實現(xiàn)視覺定位(grounding)任務(wù)即輸入圖片和對應(yīng)的物體描述,輸出物體描述,同時實現(xiàn)了細(xì)粒度跨模態(tài)對齊的工作。

2、但是,上述實現(xiàn)過程中使用圖像編碼器對圖像進(jìn)行編碼,使用文本編碼器對文本進(jìn)行編碼,兩個圖像模態(tài)和文本模態(tài)之間沒有關(guān)聯(lián)關(guān)系,導(dǎo)致圖像模態(tài)和文本模態(tài)之間的數(shù)據(jù)風(fēng)格差異較大時,上述實現(xiàn)方法的網(wǎng)絡(luò)的泛化能力較差,最終輸出結(jié)果誤差較大。

3、申請內(nèi)容

4、為解決上述技術(shù)問題,本技術(shù)期望提供一種模型訓(xùn)練方法、識別方法、裝置、設(shè)備、存儲介質(zhì)及計算機(jī)程序產(chǎn)品,提出了一種開放詞匯目標(biāo)檢測方案,提高了網(wǎng)絡(luò)的泛化能力,保證了輸出結(jié)果的可靠性。

5、本技術(shù)的技術(shù)方案是這樣實現(xiàn)的:

6、本技術(shù)提供一種模型訓(xùn)練方法,所述方法包括:

7、獲取待訓(xùn)練樣本數(shù)據(jù);其中,所述待訓(xùn)練樣本數(shù)據(jù)包括圖像樣本數(shù)據(jù)和所述圖像樣本數(shù)據(jù)對應(yīng)的文本標(biāo)簽;

8、采用所述待訓(xùn)練樣本數(shù)據(jù)對待訓(xùn)練模型進(jìn)行模型訓(xùn)練,直至得到已訓(xùn)練好的對象識別模型;其中,所述待訓(xùn)練模型至少包括:對所述待訓(xùn)練樣本數(shù)據(jù)進(jìn)行文本特征和圖像特征進(jìn)行融合處理的融合處理網(wǎng)絡(luò),對所述待訓(xùn)練樣本數(shù)據(jù)進(jìn)行視覺分析的視覺主干網(wǎng)絡(luò),和對所述待訓(xùn)練樣本數(shù)據(jù)和融合處理網(wǎng)絡(luò)的輸出結(jié)果進(jìn)行文本分析的文本主干網(wǎng)絡(luò)。

9、上述方案中,所述獲取待訓(xùn)練樣本數(shù)據(jù),包括:

10、獲取第一圖像;

11、檢測所述第一圖像中包括的目標(biāo)對象,確定包括至少一個所述目標(biāo)對象的圖像區(qū)域,得到所述圖像樣本數(shù)據(jù);

12、確定針對所述第一圖像設(shè)置的所述文本標(biāo)簽;其中,所述待訓(xùn)練樣本數(shù)據(jù)包括所述圖像樣本數(shù)據(jù)和所述文本標(biāo)簽。

13、上述方案中,所述采用所述待訓(xùn)練樣本數(shù)據(jù)對待訓(xùn)練模型進(jìn)行模型訓(xùn)練,包括:

14、輸入所述圖像樣本數(shù)據(jù)至所述視覺主干網(wǎng)絡(luò),得到圖像分析結(jié)果;

15、獲取所述視覺主干網(wǎng)絡(luò)中的編碼模塊對所述圖像樣本數(shù)據(jù)進(jìn)行編碼處理后輸出的第一圖像特征參數(shù);

16、輸入所述第一圖像特征參數(shù)和所述文本標(biāo)簽至所述融合處理網(wǎng)絡(luò),得到第一文本特征參數(shù);

17、輸入所述第一文本特征參數(shù)至所述文本主干網(wǎng)絡(luò),得到文本分析結(jié)果;

18、基于所述文本分析結(jié)果和所述圖像分析結(jié)果,得到預(yù)測結(jié)果;

19、基于所述預(yù)測結(jié)果,對所述視覺主干網(wǎng)絡(luò)、所述文本主干網(wǎng)絡(luò)和所述融合處理網(wǎng)絡(luò)中的可變參數(shù)進(jìn)行調(diào)整,得到訓(xùn)練后的待訓(xùn)練模型。

20、上述方案中,所述輸入所述第一圖像特征參數(shù)和所述文本標(biāo)簽至所述融合處理網(wǎng)絡(luò),得到第一文本特征參數(shù),包括:

21、通過預(yù)設(shè)連接符號將所述文本標(biāo)簽中包括的至少一個標(biāo)簽進(jìn)行連接,得到待分析短語;

22、通過所述融合處理網(wǎng)絡(luò)設(shè)置的全局注意力池化層對所述第一圖像特征數(shù)據(jù)進(jìn)行處理,得到第二圖像特征參數(shù);

23、基于所述待分析短語和所述第二圖像特征參數(shù),生成所述第一文本特征參數(shù)。

24、上述方案中,所述基于所述待分析短語和所述第二圖像特征參數(shù),生成所述第一文本特征參數(shù),包括:

25、將所述待分析短語與可調(diào)整的學(xué)習(xí)文本特征參數(shù)進(jìn)行拼接,得到待分析文本參數(shù);

26、通過語言提示詞生成器對所述第二圖像特征參數(shù)進(jìn)行處理,得到條件線索參數(shù);

27、將所述待分析文本參數(shù)和所述條件線索參數(shù)相加,得到所述文本分析特征。

28、上述方案中,所述基于所述文本分析結(jié)果和所述圖像分析結(jié)果,得到預(yù)測結(jié)果,包括:

29、確定所述文本分析結(jié)果和所述圖像分析結(jié)果的相似度參數(shù);

30、基于所述相似度參數(shù)確定預(yù)測結(jié)果。

31、上述方案中,所述視覺主干網(wǎng)絡(luò)的每一圖像編碼層和對應(yīng)的所述文本主干網(wǎng)絡(luò)的文本編碼層之間設(shè)置有跨模態(tài)多頭注意力模塊。

32、上述方案中,所述方法包括:

33、輸入第i圖像編碼層的第i圖像特征輸出和對應(yīng)的第i文本編碼層的第i文本特征輸出輸入至所述跨模態(tài)多頭注意力模塊,得到第i注意力輸出;其中,i=0,1,2……,n,n為所述視覺主干網(wǎng)絡(luò)包括的圖像編碼層的數(shù)量;

34、確定所述第i注意力輸出與所述第i圖像特征輸出相加,得到第i+1圖像特征輸入;

35、確定所述第i注意力輸出與所述第i文本特征輸出相加,得到第i+1文本特征輸入;

36、輸入所述第i+1圖像特征輸入至第i+1圖像編碼層;

37、輸入所述第i+1文本特征輸入至第i+1文本編碼層。

38、上述方案中,所述視覺主干網(wǎng)絡(luò)中設(shè)置的注意力機(jī)制為組混合注意力。

39、本技術(shù)提供一種識別方法,所述方法包括:

40、獲取待識別對象;

41、通過已訓(xùn)練好的對象識別模型進(jìn)行識別,得到識別結(jié)果;其中,所述對象識別模型可以是通過如上述任一項所述的模型訓(xùn)練方法進(jìn)行訓(xùn)練得到的。

42、本技術(shù)提供一種模型訓(xùn)練裝置,所述裝置包括:第一獲取單元和模型訓(xùn)練單元;其中:

43、所述第一獲取單元,用于獲取待訓(xùn)練樣本數(shù)據(jù);其中,所述待訓(xùn)練樣本數(shù)據(jù)包括圖像樣本數(shù)據(jù)和所述圖像樣本數(shù)據(jù)對應(yīng)的文本標(biāo)簽;

44、所述模型訓(xùn)練單元,用于采用所述待訓(xùn)練樣本數(shù)據(jù)對待訓(xùn)練模型進(jìn)行模型訓(xùn)練,直至得到已訓(xùn)練好的對象識別模型;其中,所述待訓(xùn)練模型至少包括:對所述待訓(xùn)練樣本數(shù)據(jù)進(jìn)行文本特征和圖像特征進(jìn)行融合處理的融合處理網(wǎng)絡(luò),對所述待訓(xùn)練樣本數(shù)據(jù)進(jìn)行視覺分析的視覺主干網(wǎng)絡(luò),和對所述待訓(xùn)練樣本數(shù)據(jù)和所述融合處理網(wǎng)絡(luò)的輸出結(jié)果進(jìn)行文本分析的文本主干網(wǎng)絡(luò)。

45、本技術(shù)提供一種識別裝置,所述裝置包括:第二獲取單元和識別單元;其中:

46、所述第二獲取單元,用于獲取待識別對象;

47、所述識別單元,用于通過已訓(xùn)練好的對象識別模型進(jìn)行識別,得到識別結(jié)果;其中,所述對象識別模型可以通過上述所述的模型訓(xùn)練裝置訓(xùn)練得到。

48、本技術(shù)提供一種模型訓(xùn)練設(shè)備,所述設(shè)備至少包括:第一存儲器、第一處理器和第一通信總線;其中:

49、所述第一存儲器,用于存儲可執(zhí)行指令;

50、所述第一通信總線,用于實現(xiàn)所述第一處理器和所述第一存儲器之間的通信連接;

51、所述第一處理器,用于執(zhí)行所述第一存儲器中存儲的模型訓(xùn)練程序,實現(xiàn)如上述任一項所述的模型訓(xùn)練方法的步驟。

52、本技術(shù)提供一種識別設(shè)備,所述設(shè)備至少包括:第二存儲器、第二處理器和第二通信總線;其中:

53、所述第二存儲器,用于存儲可執(zhí)行指令;

54、所述第二通信總線,用于實現(xiàn)所述第二處理器和所述第二存儲器之間的通信連接;

55、所述第二處理器,用于執(zhí)行所述第二存儲器中存儲的識別程序,實現(xiàn)如上述所述的識別方法的步驟。

56、本技術(shù)提供一種存儲介質(zhì),所述存儲介質(zhì)上存儲有模型訓(xùn)練程序,所述模型訓(xùn)練程序被執(zhí)行時用于實現(xiàn)如上述任一項所述的模型訓(xùn)練方法的步驟,或所述存儲介質(zhì)上存儲有識別程序,所述識別程序被執(zhí)行時用于實現(xiàn)如上述所述的識別方法的步驟。

57、本技術(shù)提供一種計算機(jī)程序產(chǎn)品,包括計算機(jī)程序,所述計算機(jī)程序在被處理器執(zhí)行時實現(xiàn)如上述任一項所述的方法的步驟。

58、本技術(shù)實施例提供了一種模型訓(xùn)練方法、識別方法、裝置、設(shè)備、存儲介質(zhì)及計算機(jī)程序產(chǎn)品,通過模型訓(xùn)練設(shè)備獲取待訓(xùn)練樣本數(shù)據(jù)后,采用待訓(xùn)練樣本數(shù)據(jù)對待訓(xùn)練模型進(jìn)行模型訓(xùn)練,直至得到已訓(xùn)練好的對象識別模型,然后識別設(shè)備獲取待識別對象后,通過已訓(xùn)練好的對象識別模型進(jìn)行識別,得到識別結(jié)果。這樣,通過對具有文本特征和圖像特征進(jìn)行融合處理的融合處理網(wǎng)絡(luò)、進(jìn)行視覺分析的視覺主干網(wǎng)絡(luò)和進(jìn)行文本分析的文本主干網(wǎng)絡(luò)的待訓(xùn)練模型進(jìn)行模型訓(xùn)練,得到已訓(xùn)練好的對象識別模型,實現(xiàn)樣本的文本特征和圖像特征綜合考慮識別,解決了目前輸入樣本導(dǎo)致開放詞匯目標(biāo)檢測方案的實現(xiàn)網(wǎng)絡(luò)的泛化能力較差的問題,提出了一種開放詞匯目標(biāo)檢測方案,提高了網(wǎng)絡(luò)的泛化能力,保證了輸出結(jié)果的可靠性。


技術(shù)實現(xiàn)思路

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1