基于模態(tài)融合和自進(jìn)化微調(diào)的信息驅(qū)動(dòng)目標(biāo)分割方法

文檔序號(hào)：39723119發(fā)布日期：2024-10-22 13:17閱讀：2來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明屬于圖像處理，具體涉及一種基于模態(tài)融合和自進(jìn)化微調(diào)的信息驅(qū)動(dòng)目標(biāo)分割方法。

背景技術(shù)：

1、信息驅(qū)動(dòng)的目標(biāo)分割旨在根據(jù)給定的自然語(yǔ)言文本和輸入圖像，預(yù)測(cè)目標(biāo)對(duì)象的掩碼。這項(xiàng)任務(wù)與語(yǔ)義分割不同，后者將圖像中的每個(gè)像素標(biāo)記為固定單詞集中的標(biāo)簽。相反，信息驅(qū)動(dòng)的目標(biāo)分割需要識(shí)別語(yǔ)言表達(dá)所指示的對(duì)象，由于其任意的上下文長(zhǎng)度和涉及開(kāi)放世界詞匯（如對(duì)象名稱、屬性、位置等），這增加了任務(wù)的復(fù)雜性。

2、近期的研究已經(jīng)展示了針對(duì)信息驅(qū)動(dòng)的目標(biāo)分割任務(wù)，利用通用預(yù)訓(xùn)練模型進(jìn)行微調(diào)的有效性。然而這些方法對(duì)每個(gè)數(shù)據(jù)集都有一份單獨(dú)的微調(diào)模型參數(shù)副本，使得跨多個(gè)場(chǎng)景部署模型變得成本高昂。對(duì)于現(xiàn)在包含數(shù)億至數(shù)萬(wàn)億參數(shù)的大規(guī)模預(yù)訓(xùn)練模型來(lái)說(shuō)，這個(gè)問(wèn)題尤為顯著。盡管已經(jīng)提出了各種參數(shù)高效微調(diào)的訓(xùn)練方法，但他們大多數(shù)限于單模態(tài)任務(wù)或簡(jiǎn)單的分類任務(wù)，很少有研究關(guān)注于密集預(yù)測(cè)任務(wù)以及不同模態(tài)之間的交互，這限制了它們的通用性。

技術(shù)實(shí)現(xiàn)思路

1、為了克服現(xiàn)有技術(shù)的不足，本發(fā)明提供了一種基于模態(tài)融合和自進(jìn)化微調(diào)的信息驅(qū)動(dòng)目標(biāo)分割方法，首先，引入了一個(gè)不需要預(yù)訓(xùn)練的模態(tài)融合適配器，集成到預(yù)訓(xùn)練模型的原始架構(gòu)中，促進(jìn)視覺(jué)語(yǔ)言編碼器之間的交互。模態(tài)融合適配器有兩個(gè)定制模塊：（1）空間先驗(yàn)?zāi)K，用于捕獲中間層特征圖的局部語(yǔ)義（空間先驗(yàn)）；（2）多模態(tài)注意力模塊，促進(jìn)視覺(jué)語(yǔ)言模態(tài)之間的信息交互。其次，設(shè)計(jì)了一個(gè)輕量級(jí)的任務(wù)特定解碼器用于信息驅(qū)動(dòng)的目標(biāo)分割，以進(jìn)一步對(duì)齊視覺(jué)和文本特征。本發(fā)明可以無(wú)縫集成到任何預(yù)訓(xùn)練的視覺(jué)-語(yǔ)言模型中增強(qiáng)并與它們的中間特征交互，并能夠在只更新1.61%到3.38%的參數(shù)的情況下，實(shí)現(xiàn)與現(xiàn)有完全微調(diào)方法相當(dāng)?shù)男阅堋?/p>

2、本發(fā)明解決其技術(shù)問(wèn)題所采用的技術(shù)方案如下：

3、步驟1：?圖像文本特征提取模塊；給定圖像和文本，分別通過(guò)圖像編碼器和文本編碼器提取特征；

4、步驟2：模態(tài)融合適配器；

5、步驟3：任務(wù)定制解碼器；

6、步驟4：訓(xùn)練目標(biāo)。

7、優(yōu)選地，所述步驟1具體為：

8、步驟1-1：圖像編碼器；

9、對(duì)于給定的圖像，送入圖像編碼器中提取視覺(jué)特征，分別表示圖像的高度和寬度；對(duì)于cnn，提取最后階段的視覺(jué)特征；對(duì)于視覺(jué)transformer-vit，將vit的transformer編碼器均勻分成?塊，每塊包含個(gè)編碼層，代表特征提取器的層數(shù)；使用最后塊的輸出進(jìn)行特征交互；vit中不同塊的多級(jí)視覺(jué)特征或cnn中不同階段的視覺(jué)特征在框架中作為模態(tài)融合適配器和解碼器的輸入，用于多模態(tài)特征對(duì)齊；

10、步驟1-2：文本編碼器；

11、對(duì)于輸入的文本信息，與圖像編碼器類似，將transformer編碼器均勻分成?塊，并從transformer的不同塊中提取文本特征??其中是特征維度，是表達(dá)式的長(zhǎng)度；輸入的文本序列用[sos]和[eos]標(biāo)記包圍；transformer最后一層在[eos]標(biāo)記處的表示作為全局文本特征，代表特征維度。

12、優(yōu)選地，所述步驟2具體為：

13、給定視覺(jué)特征和文本特征，首先通過(guò)縮放層調(diào)整視覺(jué)和文本特征的維度，這個(gè)過(guò)程形式化為：

14、

15、

16、其中表示縮放層的放大操作,?代表線性映射層；表示第階段的視覺(jué)特征，表示第階段的文本特征；

17、通過(guò)交互器融合特征，用數(shù)學(xué)語(yǔ)言表達(dá)如下：

18、

19、

20、其中代表交互器；代表第階段的適配器融合視覺(jué)特征，代表第階段的適配器融合文本特征，表示第階段的適配器融合視覺(jué)特征，表示第階段的適配器融合文本特征；其中第一階段的和初始值為和；通過(guò)縮放層和線性投影恢復(fù)維度，并且與主干網(wǎng)絡(luò)下一階段的原始特征進(jìn)行殘差連接，用數(shù)學(xué)語(yǔ)言表達(dá)為：

21、

22、

23、

24、

25、其中表示縮放層的縮小操作,?代表線性映射層，表示第階段的視覺(jué)特征，表示第階段的文本特征；表示通過(guò)殘差連接后的第階段的融合視覺(jué)特征，表示通過(guò)殘差連接后的第階段的融合文本特征；

26、步驟2-1：縮放層；

27、將vit中間層的特征從塑為，并使用卷積來(lái)構(gòu)成縮放層；采用步長(zhǎng)為2的2x2卷積減小特征圖的尺寸；在從主干網(wǎng)絡(luò)的中間層提取特征時(shí)，使用縮放層調(diào)整視覺(jué)編碼器的特征圖尺寸，這個(gè)過(guò)程形式化為：

28、

29、其中?,??分別為視覺(jué)主干網(wǎng)絡(luò)中特征圖的高度和寬度，和分別代表卷積和反卷積操作，表示第階段特征圖高度，表示第階段特征圖寬度；在將特征加回主干網(wǎng)絡(luò)之前，利用縮放層進(jìn)行縮小操作，這是放大過(guò)程的逆過(guò)程；

30、步驟2-2：交互器；

31、交互器基于注意力機(jī)制和前饋網(wǎng)絡(luò)，對(duì)于來(lái)自不同模態(tài)的每個(gè)特征，使用原始模態(tài)特征作為查詢，并從另一模態(tài)中獲取鍵和值。具體公式如下：

32、

33、

34、

35、

36、其中代表第階段的適配器融合視覺(jué)特征，代表第階段的適配器融合文本特征，表示第階段的適配器融合視覺(jué)特征，表示第階段的適配器融合文本特征；和分別代表交互器輸出的視覺(jué)特征和文本特征；mhsa代表多頭自注意力，mhca代表多頭交叉注意力，ffn代表全連接層。

37、優(yōu)選地，所述步驟3具體為：

38、步驟3-1：分層對(duì)齊模塊；

39、給定來(lái)自不同階段的多個(gè)適配器融合視覺(jué)特征和全局文本特征，通過(guò)卷積對(duì)齊特征維度，然后通過(guò)交叉注意力機(jī)制獲得不同階段的層次化融合多模態(tài)特征；對(duì)于層次化融合特征，將它們連接起來(lái)，并使用1×1卷積層進(jìn)行聚合：

40、

41、

42、

43、其中[,]是拼接操作，表示公式（7）得到的融合視覺(jué)特征，表示縮放后的視覺(jué)特征，代表交叉注意力輸出的多模態(tài)特征，表示連接后的層次化融合多模態(tài)特征；

44、將一個(gè)2d空間坐標(biāo)特征與進(jìn)行拼接，并使用3×3卷積融合得到視覺(jué)特征，具體公式如下：

45、

46、然后將融合視覺(jué)特征展平成一個(gè)序列；

47、步驟3-2：全局對(duì)齊模塊；

48、通過(guò)層次對(duì)齊獲得多模態(tài)特征后，利用transformer的注意力機(jī)制融合文本信息和對(duì)應(yīng)的視覺(jué)特征，以融合視覺(jué)特征和全局文本特征為輸入，首先分別向和添加固定的正弦空間位置編碼；隨后，通過(guò)自注意力和交叉注意力模塊生成多模態(tài)特征，以捕獲全局上下文信息：

49、

50、

51、其中表示通過(guò)自注意力機(jī)制后生成的特征，代表全局文本特征，mhsa代表多頭自注意力，mhca代表多頭交叉注意力，ffn代表全連接層；最后得到的多模態(tài)特征被用于后續(xù)的信息驅(qū)動(dòng)的目標(biāo)分割任務(wù)；

52、步驟3-3：輸出映射層；

53、使用一個(gè)輸出映射層對(duì)多模態(tài)特征和全局文本特征進(jìn)行變換，如下式所示：

54、

55、

56、

57、其中upsample表示倍上采樣，然后通過(guò)卷積將轉(zhuǎn)換為，其中n=，并將通過(guò)線性投影轉(zhuǎn)換為二維卷積層；然后將劃分為權(quán)重和偏置；?k表示卷積層的核大小，d代表特征維度，這樣使作為一個(gè)二維卷積層，用于將多模態(tài)的圖像像素表示轉(zhuǎn)換為最終的掩碼預(yù)測(cè)。

58、優(yōu)選地，所述步驟4具體為：

59、采用文本到像素的對(duì)比損失，公式如下：

60、

61、其中，表示多模態(tài)像素特征；和代表了標(biāo)簽為1和0的類別數(shù)量，定義如下：

62、

63、這里的是sigmoid函數(shù)，分割結(jié)果通過(guò)調(diào)整為并且上采樣為原始圖像大小得到；

64、得到損失函數(shù)以后，利用該損失函數(shù)進(jìn)行反向傳播，然后通過(guò)訓(xùn)練得到多個(gè)模型，選取其中最優(yōu)的模型用于應(yīng)用，最終模型的輸出即為信息驅(qū)動(dòng)目標(biāo)分割結(jié)果。

65、優(yōu)選地，所述均為416。

66、本發(fā)明的有益效果如下：

67、本發(fā)明提出了一個(gè)可以無(wú)縫融合至任何預(yù)訓(xùn)練的視覺(jué)-語(yǔ)言模型之中的模態(tài)融合適配器，可以增強(qiáng)模型的中間特征交互能力，并且能夠在僅更新1.61%至3.38%的參數(shù)量的前提下，達(dá)到與現(xiàn)有全面微調(diào)方法相媲美的性能表現(xiàn)。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：張艷寧,王鵬,張利軍,索偉
技術(shù)所有人：西北工業(yè)大學(xué)
我是此專利的發(fā)明人

上一篇：一種碳纖維箭桿及制作工藝的制作方法
上一篇：顯示面板、顯示裝置及制作方法與流程

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

基于模態(tài)融合和自進(jìn)化微調(diào)的信息驅(qū)動(dòng)目標(biāo)分割方法