本技術(shù)涉及計算機(jī),尤其涉及一種模型訓(xùn)練方法、識別方法、裝置、設(shè)備、存儲介質(zhì)及計算機(jī)程序產(chǎn)品。
背景技術(shù):
1、隨著計算機(jī)技術(shù)的日益成熟,計算機(jī)技術(shù)應(yīng)用也越來越廣泛。在計算機(jī)技術(shù)應(yīng)用過程中,通常會產(chǎn)生大量的各種類型的數(shù)據(jù),如何對這些數(shù)據(jù)進(jìn)行分析利用成為當(dāng)前研究的課題。例如針對圖像處理,當(dāng)前提出了借助于大量的圖像文本數(shù)據(jù)來覆蓋更多的目標(biāo)檢測類別,使得目標(biāo)檢測不再受限于帶標(biāo)注即具有真實邊界框標(biāo)簽的數(shù)據(jù)的少數(shù)類別,從而實現(xiàn)更加泛化的目標(biāo)檢測,識別出更多的未知物體類別的開放詞匯目標(biāo)檢測(open-vocabulary?object?detection,ovd),即在可見類(base?class)的數(shù)據(jù)上進(jìn)行訓(xùn)練,然后完成對不可見類(unseen/target?class)數(shù)據(jù)進(jìn)行識別和檢測,得到最終結(jié)果。目前提出的開放詞匯目標(biāo)檢測方案的一種實現(xiàn)算法為語言圖像關(guān)聯(lián)預(yù)訓(xùn)練模型(grounded?language-image?pre-training,glip),實現(xiàn)視覺定位(grounding)任務(wù)即輸入圖片和對應(yīng)的物體描述,輸出物體描述,同時實現(xiàn)了細(xì)粒度跨模態(tài)對齊的工作。
2、但是,上述實現(xiàn)過程中使用圖像編碼器對圖像進(jìn)行編碼,使用文本編碼器對文本進(jìn)行編碼,兩個圖像模態(tài)和文本模態(tài)之間沒有關(guān)聯(lián)關(guān)系,導(dǎo)致圖像模態(tài)和文本模態(tài)之間的數(shù)據(jù)風(fēng)格差異較大時,上述實現(xiàn)方法的網(wǎng)絡(luò)的泛化能力較差,最終輸出結(jié)果誤差較大。
3、申請內(nèi)容
4、為解決上述技術(shù)問題,本技術(shù)期望提供一種模型訓(xùn)練方法、識別方法、裝置、設(shè)備、存儲介質(zhì)及計算機(jī)程序產(chǎn)品,提出了一種開放詞匯目標(biāo)檢測方案,提高了網(wǎng)絡(luò)的泛化能力,保證了輸出結(jié)果的可靠性。
5、本技術(shù)的技術(shù)方案是這樣實現(xiàn)的:
6、本技術(shù)提供一種模型訓(xùn)練方法,所述方法包括:
7、獲取待訓(xùn)練樣本數(shù)據(jù);其中,所述待訓(xùn)練樣本數(shù)據(jù)包括圖像樣本數(shù)據(jù)和所述圖像樣本數(shù)據(jù)對應(yīng)的文本標(biāo)簽;
8、采用所述待訓(xùn)練樣本數(shù)據(jù)對待訓(xùn)練模型進(jìn)行模型訓(xùn)練,直至得到已訓(xùn)練好的對象識別模型;其中,所述待訓(xùn)練模型至少包括:對所述待訓(xùn)練樣本數(shù)據(jù)進(jìn)行文本特征和圖像特征進(jìn)行融合處理的融合處理網(wǎng)絡(luò),對所述待訓(xùn)練樣本數(shù)據(jù)進(jìn)行視覺分析的視覺主干網(wǎng)絡(luò),和對所述待訓(xùn)練樣本數(shù)據(jù)和融合處理網(wǎng)絡(luò)的輸出結(jié)果進(jìn)行文本分析的文本主干網(wǎng)絡(luò)。
9、上述方案中,所述獲取待訓(xùn)練樣本數(shù)據(jù),包括:
10、獲取第一圖像;
11、檢測所述第一圖像中包括的目標(biāo)對象,確定包括至少一個所述目標(biāo)對象的圖像區(qū)域,得到所述圖像樣本數(shù)據(jù);
12、確定針對所述第一圖像設(shè)置的所述文本標(biāo)簽;其中,所述待訓(xùn)練樣本數(shù)據(jù)包括所述圖像樣本數(shù)據(jù)和所述文本標(biāo)簽。
13、上述方案中,所述采用所述待訓(xùn)練樣本數(shù)據(jù)對待訓(xùn)練模型進(jìn)行模型訓(xùn)練,包括:
14、輸入所述圖像樣本數(shù)據(jù)至所述視覺主干網(wǎng)絡(luò),得到圖像分析結(jié)果;
15、獲取所述視覺主干網(wǎng)絡(luò)中的編碼模塊對所述圖像樣本數(shù)據(jù)進(jìn)行編碼處理后輸出的第一圖像特征參數(shù);
16、輸入所述第一圖像特征參數(shù)和所述文本標(biāo)簽至所述融合處理網(wǎng)絡(luò),得到第一文本特征參數(shù);
17、輸入所述第一文本特征參數(shù)至所述文本主干網(wǎng)絡(luò),得到文本分析結(jié)果;
18、基于所述文本分析結(jié)果和所述圖像分析結(jié)果,得到預(yù)測結(jié)果;
19、基于所述預(yù)測結(jié)果,對所述視覺主干網(wǎng)絡(luò)、所述文本主干網(wǎng)絡(luò)和所述融合處理網(wǎng)絡(luò)中的可變參數(shù)進(jìn)行調(diào)整,得到訓(xùn)練后的待訓(xùn)練模型。
20、上述方案中,所述輸入所述第一圖像特征參數(shù)和所述文本標(biāo)簽至所述融合處理網(wǎng)絡(luò),得到第一文本特征參數(shù),包括:
21、通過預(yù)設(shè)連接符號將所述文本標(biāo)簽中包括的至少一個標(biāo)簽進(jìn)行連接,得到待分析短語;
22、通過所述融合處理網(wǎng)絡(luò)設(shè)置的全局注意力池化層對所述第一圖像特征數(shù)據(jù)進(jìn)行處理,得到第二圖像特征參數(shù);
23、基于所述待分析短語和所述第二圖像特征參數(shù),生成所述第一文本特征參數(shù)。
24、上述方案中,所述基于所述待分析短語和所述第二圖像特征參數(shù),生成所述第一文本特征參數(shù),包括:
25、將所述待分析短語與可調(diào)整的學(xué)習(xí)文本特征參數(shù)進(jìn)行拼接,得到待分析文本參數(shù);
26、通過語言提示詞生成器對所述第二圖像特征參數(shù)進(jìn)行處理,得到條件線索參數(shù);
27、將所述待分析文本參數(shù)和所述條件線索參數(shù)相加,得到所述文本分析特征。
28、上述方案中,所述基于所述文本分析結(jié)果和所述圖像分析結(jié)果,得到預(yù)測結(jié)果,包括:
29、確定所述文本分析結(jié)果和所述圖像分析結(jié)果的相似度參數(shù);
30、基于所述相似度參數(shù)確定預(yù)測結(jié)果。
31、上述方案中,所述視覺主干網(wǎng)絡(luò)的每一圖像編碼層和對應(yīng)的所述文本主干網(wǎng)絡(luò)的文本編碼層之間設(shè)置有跨模態(tài)多頭注意力模塊。
32、上述方案中,所述方法包括:
33、輸入第i圖像編碼層的第i圖像特征輸出和對應(yīng)的第i文本編碼層的第i文本特征輸出輸入至所述跨模態(tài)多頭注意力模塊,得到第i注意力輸出;其中,i=0,1,2……,n,n為所述視覺主干網(wǎng)絡(luò)包括的圖像編碼層的數(shù)量;
34、確定所述第i注意力輸出與所述第i圖像特征輸出相加,得到第i+1圖像特征輸入;
35、確定所述第i注意力輸出與所述第i文本特征輸出相加,得到第i+1文本特征輸入;
36、輸入所述第i+1圖像特征輸入至第i+1圖像編碼層;
37、輸入所述第i+1文本特征輸入至第i+1文本編碼層。
38、上述方案中,所述視覺主干網(wǎng)絡(luò)中設(shè)置的注意力機(jī)制為組混合注意力。
39、本技術(shù)提供一種識別方法,所述方法包括:
40、獲取待識別對象;
41、通過已訓(xùn)練好的對象識別模型進(jìn)行識別,得到識別結(jié)果;其中,所述對象識別模型可以是通過如上述任一項所述的模型訓(xùn)練方法進(jìn)行訓(xùn)練得到的。
42、本技術(shù)提供一種模型訓(xùn)練裝置,所述裝置包括:第一獲取單元和模型訓(xùn)練單元;其中:
43、所述第一獲取單元,用于獲取待訓(xùn)練樣本數(shù)據(jù);其中,所述待訓(xùn)練樣本數(shù)據(jù)包括圖像樣本數(shù)據(jù)和所述圖像樣本數(shù)據(jù)對應(yīng)的文本標(biāo)簽;
44、所述模型訓(xùn)練單元,用于采用所述待訓(xùn)練樣本數(shù)據(jù)對待訓(xùn)練模型進(jìn)行模型訓(xùn)練,直至得到已訓(xùn)練好的對象識別模型;其中,所述待訓(xùn)練模型至少包括:對所述待訓(xùn)練樣本數(shù)據(jù)進(jìn)行文本特征和圖像特征進(jìn)行融合處理的融合處理網(wǎng)絡(luò),對所述待訓(xùn)練樣本數(shù)據(jù)進(jìn)行視覺分析的視覺主干網(wǎng)絡(luò),和對所述待訓(xùn)練樣本數(shù)據(jù)和所述融合處理網(wǎng)絡(luò)的輸出結(jié)果進(jìn)行文本分析的文本主干網(wǎng)絡(luò)。
45、本技術(shù)提供一種識別裝置,所述裝置包括:第二獲取單元和識別單元;其中:
46、所述第二獲取單元,用于獲取待識別對象;
47、所述識別單元,用于通過已訓(xùn)練好的對象識別模型進(jìn)行識別,得到識別結(jié)果;其中,所述對象識別模型可以通過上述所述的模型訓(xùn)練裝置訓(xùn)練得到。
48、本技術(shù)提供一種模型訓(xùn)練設(shè)備,所述設(shè)備至少包括:第一存儲器、第一處理器和第一通信總線;其中:
49、所述第一存儲器,用于存儲可執(zhí)行指令;
50、所述第一通信總線,用于實現(xiàn)所述第一處理器和所述第一存儲器之間的通信連接;
51、所述第一處理器,用于執(zhí)行所述第一存儲器中存儲的模型訓(xùn)練程序,實現(xiàn)如上述任一項所述的模型訓(xùn)練方法的步驟。
52、本技術(shù)提供一種識別設(shè)備,所述設(shè)備至少包括:第二存儲器、第二處理器和第二通信總線;其中:
53、所述第二存儲器,用于存儲可執(zhí)行指令;
54、所述第二通信總線,用于實現(xiàn)所述第二處理器和所述第二存儲器之間的通信連接;
55、所述第二處理器,用于執(zhí)行所述第二存儲器中存儲的識別程序,實現(xiàn)如上述所述的識別方法的步驟。
56、本技術(shù)提供一種存儲介質(zhì),所述存儲介質(zhì)上存儲有模型訓(xùn)練程序,所述模型訓(xùn)練程序被執(zhí)行時用于實現(xiàn)如上述任一項所述的模型訓(xùn)練方法的步驟,或所述存儲介質(zhì)上存儲有識別程序,所述識別程序被執(zhí)行時用于實現(xiàn)如上述所述的識別方法的步驟。
57、本技術(shù)提供一種計算機(jī)程序產(chǎn)品,包括計算機(jī)程序,所述計算機(jī)程序在被處理器執(zhí)行時實現(xiàn)如上述任一項所述的方法的步驟。
58、本技術(shù)實施例提供了一種模型訓(xùn)練方法、識別方法、裝置、設(shè)備、存儲介質(zhì)及計算機(jī)程序產(chǎn)品,通過模型訓(xùn)練設(shè)備獲取待訓(xùn)練樣本數(shù)據(jù)后,采用待訓(xùn)練樣本數(shù)據(jù)對待訓(xùn)練模型進(jìn)行模型訓(xùn)練,直至得到已訓(xùn)練好的對象識別模型,然后識別設(shè)備獲取待識別對象后,通過已訓(xùn)練好的對象識別模型進(jìn)行識別,得到識別結(jié)果。這樣,通過對具有文本特征和圖像特征進(jìn)行融合處理的融合處理網(wǎng)絡(luò)、進(jìn)行視覺分析的視覺主干網(wǎng)絡(luò)和進(jìn)行文本分析的文本主干網(wǎng)絡(luò)的待訓(xùn)練模型進(jìn)行模型訓(xùn)練,得到已訓(xùn)練好的對象識別模型,實現(xiàn)樣本的文本特征和圖像特征綜合考慮識別,解決了目前輸入樣本導(dǎo)致開放詞匯目標(biāo)檢測方案的實現(xiàn)網(wǎng)絡(luò)的泛化能力較差的問題,提出了一種開放詞匯目標(biāo)檢測方案,提高了網(wǎng)絡(luò)的泛化能力,保證了輸出結(jié)果的可靠性。
技術(shù)實現(xiàn)思路