本發(fā)明屬于圖像處理,具體涉及一種基于模態(tài)融合和自進(jìn)化微調(diào)的信息驅(qū)動(dòng)目標(biāo)分割方法。
背景技術(shù):
1、信息驅(qū)動(dòng)的目標(biāo)分割旨在根據(jù)給定的自然語(yǔ)言文本和輸入圖像,預(yù)測(cè)目標(biāo)對(duì)象的掩碼。這項(xiàng)任務(wù)與語(yǔ)義分割不同,后者將圖像中的每個(gè)像素標(biāo)記為固定單詞集中的標(biāo)簽。相反,信息驅(qū)動(dòng)的目標(biāo)分割需要識(shí)別語(yǔ)言表達(dá)所指示的對(duì)象,由于其任意的上下文長(zhǎng)度和涉及開(kāi)放世界詞匯(如對(duì)象名稱、屬性、位置等),這增加了任務(wù)的復(fù)雜性。
2、近期的研究已經(jīng)展示了針對(duì)信息驅(qū)動(dòng)的目標(biāo)分割任務(wù),利用通用預(yù)訓(xùn)練模型進(jìn)行微調(diào)的有效性。然而這些方法對(duì)每個(gè)數(shù)據(jù)集都有一份單獨(dú)的微調(diào)模型參數(shù)副本,使得跨多個(gè)場(chǎng)景部署模型變得成本高昂。對(duì)于現(xiàn)在包含數(shù)億至數(shù)萬(wàn)億參數(shù)的大規(guī)模預(yù)訓(xùn)練模型來(lái)說(shuō),這個(gè)問(wèn)題尤為顯著。盡管已經(jīng)提出了各種參數(shù)高效微調(diào)的訓(xùn)練方法,但他們大多數(shù)限于單模態(tài)任務(wù)或簡(jiǎn)單的分類任務(wù),很少有研究關(guān)注于密集預(yù)測(cè)任務(wù)以及不同模態(tài)之間的交互,這限制了它們的通用性。
技術(shù)實(shí)現(xiàn)思路
1、為了克服現(xiàn)有技術(shù)的不足,本發(fā)明提供了一種基于模態(tài)融合和自進(jìn)化微調(diào)的信息驅(qū)動(dòng)目標(biāo)分割方法,首先,引入了一個(gè)不需要預(yù)訓(xùn)練的模態(tài)融合適配器,集成到預(yù)訓(xùn)練模型的原始架構(gòu)中,促進(jìn)視覺(jué)語(yǔ)言編碼器之間的交互。模態(tài)融合適配器有兩個(gè)定制模塊:(1)空間先驗(yàn)?zāi)K,用于捕獲中間層特征圖的局部語(yǔ)義(空間先驗(yàn));(2)多模態(tài)注意力模塊,促進(jìn)視覺(jué)語(yǔ)言模態(tài)之間的信息交互。其次,設(shè)計(jì)了一個(gè)輕量級(jí)的任務(wù)特定解碼器用于信息驅(qū)動(dòng)的目標(biāo)分割,以進(jìn)一步對(duì)齊視覺(jué)和文本特征。本發(fā)明可以無(wú)縫集成到任何預(yù)訓(xùn)練的視覺(jué)-語(yǔ)言模型中增強(qiáng)并與它們的中間特征交互,并能夠在只更新1.61%到3.38%的參數(shù)的情況下,實(shí)現(xiàn)與現(xiàn)有完全微調(diào)方法相當(dāng)?shù)男阅堋?/p>
2、本發(fā)明解決其技術(shù)問(wèn)題所采用的技術(shù)方案如下:
3、步驟1:?圖像文本特征提取模塊;給定圖像和文本,分別通過(guò)圖像編碼器和文本編碼器提取特征;
4、步驟2:模態(tài)融合適配器;
5、步驟3:任務(wù)定制解碼器;
6、步驟4:訓(xùn)練目標(biāo)。
7、優(yōu)選地,所述步驟1具體為:
8、步驟1-1:圖像編碼器;
9、對(duì)于給定的圖像,送入圖像編碼器中提取視覺(jué)特征,分別表示圖像的高度和寬度;對(duì)于cnn,提取最后階段的視覺(jué)特征;對(duì)于視覺(jué)transformer-vit,將vit的transformer編碼器均勻分成?塊,每塊包含個(gè)編碼層,代表特征提取器的層數(shù);使用最后塊的輸出進(jìn)行特征交互;vit中不同塊的多級(jí)視覺(jué)特征或cnn中不同階段的視覺(jué)特征在框架中作為模態(tài)融合適配器和解碼器的輸入,用于多模態(tài)特征對(duì)齊;
10、步驟1-2:文本編碼器;
11、對(duì)于輸入的文本信息,與圖像編碼器類似,將transformer編碼器均勻分成?塊,并從transformer的不同塊中提取文本特征??其中是特征維度,是表達(dá)式的長(zhǎng)度;輸入的文本序列用[sos]和[eos]標(biāo)記包圍;transformer最后一層在[eos]標(biāo)記處的表示作為全局文本特征,代表特征維度。
12、優(yōu)選地,所述步驟2具體為:
13、給定視覺(jué)特征和文本特征,首先通過(guò)縮放層調(diào)整視覺(jué)和文本特征的維度,這個(gè)過(guò)程形式化為:
14、
15、
16、其中表示縮放層的放大操作,?代表線性映射層;表示第階段的視覺(jué)特征,表示第階段的文本特征;
17、通過(guò)交互器融合特征,用數(shù)學(xué)語(yǔ)言表達(dá)如下:
18、
19、
20、其中代表交互器;代表第階段的適配器融合視覺(jué)特征,代表第階段的適配器融合文本特征,表示第階段的適配器融合視覺(jué)特征,表示第階段的適配器融合文本特征;其中第一階段的和初始值為和;通過(guò)縮放層和線性投影恢復(fù)維度,并且與主干網(wǎng)絡(luò)下一階段的原始特征進(jìn)行殘差連接,用數(shù)學(xué)語(yǔ)言表達(dá)為:
21、
22、
23、
24、
25、其中表示縮放層的縮小操作,?代表線性映射層,表示第階段的視覺(jué)特征,表示第階段的文本特征;表示通過(guò)殘差連接后的第階段的融合視覺(jué)特征,表示通過(guò)殘差連接后的第階段的融合文本特征;
26、步驟2-1:縮放層;
27、將vit中間層的特征從塑為,并使用卷積來(lái)構(gòu)成縮放層;采用步長(zhǎng)為2的2x2卷積減小特征圖的尺寸;在從主干網(wǎng)絡(luò)的中間層提取特征時(shí),使用縮放層調(diào)整視覺(jué)編碼器的特征圖尺寸,這個(gè)過(guò)程形式化為:
28、
29、其中?,??分別為視覺(jué)主干網(wǎng)絡(luò)中特征圖的高度和寬度,和分別代表卷積和反卷積操作,表示第階段特征圖高度,表示第階段特征圖寬度;在將特征加回主干網(wǎng)絡(luò)之前,利用縮放層進(jìn)行縮小操作,這是放大過(guò)程的逆過(guò)程;
30、步驟2-2:交互器;
31、交互器基于注意力機(jī)制和前饋網(wǎng)絡(luò),對(duì)于來(lái)自不同模態(tài)的每個(gè)特征,使用原始模態(tài)特征作為查詢,并從另一模態(tài)中獲取鍵和值。具體公式如下:
32、
33、
34、
35、
36、其中代表第階段的適配器融合視覺(jué)特征,代表第階段的適配器融合文本特征,表示第階段的適配器融合視覺(jué)特征,表示第階段的適配器融合文本特征;和分別代表交互器輸出的視覺(jué)特征和文本特征;mhsa代表多頭自注意力,mhca代表多頭交叉注意力,ffn代表全連接層。
37、優(yōu)選地,所述步驟3具體為:
38、步驟3-1:分層對(duì)齊模塊;
39、給定來(lái)自不同階段的多個(gè)適配器融合視覺(jué)特征和全局文本特征,通過(guò)卷積對(duì)齊特征維度,然后通過(guò)交叉注意力機(jī)制獲得不同階段的層次化融合多模態(tài)特征;對(duì)于層次化融合特征,將它們連接起來(lái),并使用1×1卷積層進(jìn)行聚合:
40、
41、
42、
43、其中[,]是拼接操作,表示公式(7)得到的融合視覺(jué)特征,表示縮放后的視覺(jué)特征,代表交叉注意力輸出的多模態(tài)特征,表示連接后的層次化融合多模態(tài)特征;
44、將一個(gè)2d空間坐標(biāo)特征與進(jìn)行拼接,并使用3×3卷積融合得到視覺(jué)特征,具體公式如下:
45、
46、然后將融合視覺(jué)特征展平成一個(gè)序列;
47、步驟3-2:全局對(duì)齊模塊;
48、通過(guò)層次對(duì)齊獲得多模態(tài)特征后,利用transformer的注意力機(jī)制融合文本信息和對(duì)應(yīng)的視覺(jué)特征,以融合視覺(jué)特征和全局文本特征為輸入,首先分別向和添加固定的正弦空間位置編碼;隨后,通過(guò)自注意力和交叉注意力模塊生成多模態(tài)特征,以捕獲全局上下文信息:
49、
50、
51、其中表示通過(guò)自注意力機(jī)制后生成的特征,代表全局文本特征,mhsa代表多頭自注意力,mhca代表多頭交叉注意力,ffn代表全連接層;最后得到的多模態(tài)特征被用于后續(xù)的信息驅(qū)動(dòng)的目標(biāo)分割任務(wù);
52、步驟3-3:輸出映射層;
53、使用一個(gè)輸出映射層對(duì)多模態(tài)特征和全局文本特征進(jìn)行變換,如下式所示:
54、
55、
56、
57、其中upsample表示倍上采樣,然后通過(guò)卷積將轉(zhuǎn)換為,其中n=,并將通過(guò)線性投影轉(zhuǎn)換為二維卷積層;然后將劃分為權(quán)重和偏置;?k表示卷積層的核大小,d代表特征維度,這樣使作為一個(gè)二維卷積層,用于將多模態(tài)的圖像像素表示轉(zhuǎn)換為最終的掩碼預(yù)測(cè)。
58、優(yōu)選地,所述步驟4具體為:
59、采用文本到像素的對(duì)比損失,公式如下:
60、
61、其中,表示多模態(tài)像素特征;和代表了標(biāo)簽為1和0的類別數(shù)量,定義如下:
62、
63、這里的是sigmoid函數(shù),分割結(jié)果通過(guò)調(diào)整為并且上采樣為原始圖像大小得到;
64、得到損失函數(shù)以后,利用該損失函數(shù)進(jìn)行反向傳播,然后通過(guò)訓(xùn)練得到多個(gè)模型,選取其中最優(yōu)的模型用于應(yīng)用,最終模型的輸出即為信息驅(qū)動(dòng)目標(biāo)分割結(jié)果。
65、優(yōu)選地,所述均為416。
66、本發(fā)明的有益效果如下:
67、本發(fā)明提出了一個(gè)可以無(wú)縫融合至任何預(yù)訓(xùn)練的視覺(jué)-語(yǔ)言模型之中的模態(tài)融合適配器,可以增強(qiáng)模型的中間特征交互能力,并且能夠在僅更新1.61%至3.38%的參數(shù)量的前提下,達(dá)到與現(xiàn)有全面微調(diào)方法相媲美的性能表現(xiàn)。