本技術(shù)屬于通信,具體涉及一種圖像識別方法、裝置、設(shè)備及可讀存儲介質(zhì)。
背景技術(shù):
1、現(xiàn)有基于模態(tài)融合的圖像識別方法是在特征層面上進(jìn)行,需要針對紅綠藍(lán)(red-green-blue,rgb)圖和深度圖提取到的特征進(jìn)行額外的損失約束,以實現(xiàn)更好地模態(tài)融合。但是這也意味著網(wǎng)絡(luò)必須在配對的深度圖像和rgb圖像的數(shù)據(jù)集上訓(xùn)練。然而,配對的深度圖像和rgb圖像數(shù)據(jù)集是稀少的。僅憑這些數(shù)據(jù)難以訓(xùn)練出圖像識別性能高的網(wǎng)絡(luò)。另一方面,特征層面的融合依賴于增加全連接層,會大大增加模型的參數(shù)和計算量,增大過擬合風(fēng)險,減慢模型的推理速度。
技術(shù)實現(xiàn)思路
1、本技術(shù)實施例提供一種圖像識別方法、裝置、設(shè)備及可讀存儲介質(zhì),能夠解決現(xiàn)有圖像識別方法對數(shù)據(jù)要求較高,且模型計算量較大,識別速度較慢的問題。
2、第一方面,提供了一種圖像識別方法,包括:
3、將第一圖像輸入第一特征提取網(wǎng)絡(luò),得到第一特征;
4、將所述第一特征輸入置信度估計網(wǎng)絡(luò),得到置信度;
5、將第二圖像輸入第二特征提取網(wǎng)絡(luò),得到第二特征;
6、根據(jù)所述第一特征、所述置信度、所述第二特征和目標(biāo)圖像的特征,計算目標(biāo)相似度;
7、在所述目標(biāo)相似度大于或等于第一預(yù)設(shè)門限的情況下,確定所述目標(biāo)圖像為識別結(jié)果;
8、其中,所述第一圖像與所述第二圖像為不同模態(tài)的圖像。
9、可選地,所述根據(jù)所述第一特征、所述置信度、所述第二特征和目標(biāo)圖像的特征,計算相似度,包括:
10、獲取所述目標(biāo)圖像的第一目標(biāo)特征和第二目標(biāo)特征;
11、根據(jù)所述第一特征和所述第一目標(biāo)特征,計算第一相似度;
12、根據(jù)所述第二特征和所述第二目標(biāo)特征,計算第二相似度;
13、根據(jù)所述第一相似度、所述置信度和所述第二相似度,計算所述目標(biāo)相似度;
14、其中,所述第一目標(biāo)特征是所述目標(biāo)圖像按照與所述第一圖像相同的模態(tài)進(jìn)行特征提取得到的特征,所述第二目標(biāo)特征是所述目標(biāo)圖像按照與所述第二圖像相同的模態(tài)進(jìn)行特征提取得到的特征。
15、可選地,所述第一特征提取網(wǎng)絡(luò)中包含多個第一卷積塊、多個最大池化層和多尺度特征融合msff模塊,所述將第一圖像輸入第一特征提取網(wǎng)絡(luò)得到第一特征,包括:
16、通過所述多個第一卷積塊對所述第一圖像進(jìn)行處理,獲取每個第一卷積塊輸出的第一處理結(jié)果;
17、將每個第一卷積塊輸出的第一處理結(jié)果分別輸入不同的所述最大池化層進(jìn)行處理,得到尺寸相同的多個第二處理結(jié)果;
18、將所述多個第二處理結(jié)果輸入所述msff模塊進(jìn)行融合,得到所述第一特征。
19、可選地,在所述根據(jù)所述第一特征、所述置信度、所述第二特征和目標(biāo)圖像的特征,計算目標(biāo)相似度之前,所述方法還包括:
20、根據(jù)所述第一特征和所述置信度,計算總損失;
21、根據(jù)所述總損失,調(diào)整所述第一特征提取網(wǎng)絡(luò)的參數(shù);
22、重復(fù)執(zhí)行所述根據(jù)所述第一特征和所述置信度,計算總損失,以及所述根據(jù)所述總損失,調(diào)整所述第一特征提取網(wǎng)絡(luò)的參數(shù),直至所述總損失小于或等于第二預(yù)設(shè)門限。
23、可選地,所述根據(jù)所述第一特征和所述置信度計算總損失,包括:
24、將所述第一特征輸入分類模塊,得到類別信息;
25、根據(jù)所述類別信息和所述置信度,計算類別預(yù)測概率;
26、根據(jù)所述類別預(yù)測概率,計算交叉熵分類損失;
27、根據(jù)所述置信度,計算置信度損失;
28、根據(jù)所述交叉熵分類損失和所述置信度損失,計算所述總損失。
29、可選地,所述第二特征提取網(wǎng)絡(luò)中包含一個第二卷積塊、多個第三卷積塊、一個第四卷積塊和全局卷積模塊,每個所述第三卷積塊對應(yīng)設(shè)置殘差模塊,所述殘差模塊中包含多個分離卷積層;
30、所述將第二圖像輸入第二特征提取網(wǎng)絡(luò)得到第二特征,包括:
31、將所述第二圖像輸入所述第二卷積塊進(jìn)行處理,得到第三處理結(jié)果;
32、通過所述多個第三卷積塊對所述第三處理結(jié)果進(jìn)行處理,得到所述第四處理結(jié)果;
33、通過所述第四卷積塊對所述第四處理結(jié)果進(jìn)行處理,得到第五處理結(jié)果;
34、將所述第五處理結(jié)果輸入所述全局卷積模塊進(jìn)行平均池化處理,得到所述第二特征。
35、第二方面,提供了一種圖像識別裝置,包括:
36、第一特征提取模塊,用于將第一圖像輸入第一特征提取網(wǎng)絡(luò),得到第一特征;
37、置信度估計模塊,用于將所述第一特征輸入置信度估計網(wǎng)絡(luò),得到置信度;
38、第二特征提取模塊,用于將第二圖像輸入第二特征提取網(wǎng)絡(luò),得到第二特征;
39、第一計算模塊,用于根據(jù)所述第一特征、所述置信度、所述第二特征和目標(biāo)圖像的特征,計算目標(biāo)相似度;
40、確定模塊,用于在所述目標(biāo)相似度大于或等于第一預(yù)設(shè)門限的情況下,確定所述目標(biāo)圖像為識別結(jié)果;
41、其中,所述第一圖像與所述第二圖像為不同模態(tài)的圖像。
42、可選地,所述第一計算模塊,具體用于:
43、獲取所述目標(biāo)圖像的第一目標(biāo)特征和第二目標(biāo)特征;
44、根據(jù)所述第一特征和所述第一目標(biāo)特征,計算第一相似度;
45、根據(jù)所述第二特征和所述第二目標(biāo)特征,計算第二相似度;
46、根據(jù)所述第一相似度、所述置信度和所述第二相似度,計算所述目標(biāo)相似度;
47、其中,所述第一目標(biāo)特征是所述目標(biāo)圖像按照與所述第一圖像相同的模態(tài)進(jìn)行特征提取得到的特征,所述第二目標(biāo)特征是所述目標(biāo)圖像按照與所述第二圖像相同的模態(tài)進(jìn)行特征提取得到的特征。
48、可選地,所述第一特征提取網(wǎng)絡(luò)中包含多個卷積塊、多個最大池化層和msff模塊,所述第一特征提取模塊,具體用于:
49、通過所述多個卷積塊對所述第一圖像進(jìn)行處理,獲取每個卷積塊輸出的第一處理結(jié)果;
50、將每個卷積塊輸出的第一處理結(jié)果分別輸入不同的所述最大池化層進(jìn)行處理,得到尺寸相同的多個第二處理結(jié)果;
51、將所述多個第二處理結(jié)果輸入所述msff模塊進(jìn)行融合,得到所述第一特征。
52、可選地,所述裝置還包括:
53、第二計算模塊,用于在所述根據(jù)所述第一特征、所述置信度、所述第二特征和目標(biāo)圖像的特征,計算目標(biāo)相似度之前,執(zhí)行:
54、根據(jù)所述第一特征和所述置信度,計算總損失;
55、根據(jù)所述總損失,調(diào)整所述第一特征提取網(wǎng)絡(luò)的參數(shù);
56、重復(fù)執(zhí)行所述根據(jù)所述第一特征和所述置信度,計算總損失,以及所述根據(jù)所述總損失,調(diào)整所述第一特征提取網(wǎng)絡(luò)的參數(shù),直至所述總損失小于或等于第二預(yù)設(shè)門限。
57、可選地,所述根據(jù)所述第一特征和所述置信度計算總損失,包括:
58、將所述第一特征輸入分類模塊,得到類別信息;
59、根據(jù)所述類別信息和所述置信度,計算類別預(yù)測概率;
60、根據(jù)所述類別預(yù)測概率,計算交叉熵分類損失;
61、根據(jù)所述置信度,計算置信度損失;
62、根據(jù)所述交叉熵分類損失和所述置信度損失,計算所述總損失。
63、可選地,所述第二特征提取網(wǎng)絡(luò)中包含一個第二卷積塊、多個第三卷積塊、一個第四卷積塊和全局卷積模塊,每個所述第三卷積塊對應(yīng)設(shè)置殘差模塊,所述殘差模塊中包含多個分離卷積層;
64、所述第二特征提取模塊,具體用于:
65、將所述第二圖像輸入所述第二卷積塊進(jìn)行處理,得到第三處理結(jié)果;
66、通過所述多個第三卷積塊對所述第三處理結(jié)果進(jìn)行處理,得到所述第四處理結(jié)果;
67、通過所述第四卷積塊對所述第四處理結(jié)果進(jìn)行處理,得到第五處理結(jié)果;
68、將所述第五處理結(jié)果輸入所述全局卷積模塊進(jìn)行平均池化處理,得到所述第二特征。
69、第三方面,提供一種通信設(shè)備,包括處理器和存儲器,所述存儲器存儲可在所述處理器上運行的程序或指令,所述程序或指令被所述處理器執(zhí)行時實現(xiàn)如第一方面所述的圖像識別方法的步驟。
70、第四方面,提供了一種可讀存儲介質(zhì),所述可讀存儲介質(zhì)上存儲程序或指令,所述程序或指令被處理器執(zhí)行時實現(xiàn)如第一方面所述的方法的步驟。
71、在本技術(shù)實施例中,在特征提取階段并不需要進(jìn)行模態(tài)融合,而是在后續(xù)相似度計算的決策階段進(jìn)行模態(tài)融合,實現(xiàn)了特征提取前的數(shù)據(jù)解耦,即無需采集配對的兩種模態(tài)圖像,降低對數(shù)據(jù)的要求,進(jìn)而可以利用更多的圖像數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)訓(xùn),基于置信度的相似度計算確保識別結(jié)果的準(zhǔn)確性。通過本技術(shù)的方案,實現(xiàn)輕量化高精度的多模態(tài)圖像識別,基于置信度的決策層多模態(tài)融合網(wǎng)絡(luò)結(jié)構(gòu),可以使網(wǎng)絡(luò)在兩個完全獨立的單模態(tài)數(shù)據(jù)集上訓(xùn)練,并可以利用兩個模態(tài)之間的互補(bǔ)性融合,顯著提升網(wǎng)絡(luò)對圖像的判別性。