日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

一種基于元學習和文本提示的少樣本目標檢測方法

文檔序號:39724457發(fā)布日期:2024-10-22 13:21閱讀:2來源:國知局
一種基于元學習和文本提示的少樣本目標檢測方法

本發(fā)明涉及基于機器學習的圖像處理,尤其涉及一種基于元學習和文本提示的少樣本目標檢測方法。


背景技術(shù):

1、隨著機器學習相關(guān)技術(shù)以及理論的不斷更新和發(fā)展,計算機視覺近幾年發(fā)展迅速,作為計算機視覺領(lǐng)域中十分重要的目標檢測技術(shù)也被廣泛應(yīng)用到了各行各業(yè)中來,安保監(jiān)控系統(tǒng)、無人駕駛領(lǐng)域等等,而目前主流的目標檢測模型仍然以深度學習框架為基礎(chǔ),依靠大量的人工標注樣本數(shù)據(jù)進行有監(jiān)督的訓(xùn)練。隨著目標檢測應(yīng)用范圍越來越廣以及大模型的出現(xiàn),數(shù)據(jù)的需求量不斷增大,使用人工標注數(shù)據(jù)所花費的成本與時間太大,導(dǎo)致樣本數(shù)據(jù)的不充足成為當前目標檢測模型不可避免的難題,所以少樣本目標檢測問題成為目前目標檢測領(lǐng)域一個很受歡迎且有前景的方向。元學習通過快速學習不同任務(wù)之間的共性,得到相似任務(wù)的先驗知識,并在新任務(wù)上快速適應(yīng),具有很強的泛化能力?;谠獙W習的特性,就可以使網(wǎng)絡(luò)模型在已有的標注數(shù)據(jù)中學習先驗知識,再將其應(yīng)用在新的目標檢測任務(wù)上,實現(xiàn)在標注樣本不充足的情況下,快速準確地檢測出目標物體,具有非常高的研究和應(yīng)用價值。

2、目前少樣本目標檢測算法主要集中在數(shù)據(jù)增強、遷移學習、元學習等方面,數(shù)據(jù)增強是通過翻轉(zhuǎn)、旋轉(zhuǎn)、縮放、裁剪、移位和加入高斯噪聲等方式對訓(xùn)練圖像進行處理,得到新的訓(xùn)練圖像,以此來擴充數(shù)據(jù)集;遷移學習利用源域數(shù)據(jù)來輔助目標域的任務(wù)學習。

3、然而當遇到新類物體時,數(shù)據(jù)增強工作需要重新對新類圖片進行處理,對模型重新進行訓(xùn)練。同時,遷移學習依賴于源域和目標域之間特征空間的共享,因此對源域數(shù)據(jù)的選擇和質(zhì)量依賴較大。因此,上述兩種常見方法都無法快速、便捷地使模型適應(yīng)新類任務(wù)。


技術(shù)實現(xiàn)思路

1、為了解決上述現(xiàn)有技術(shù)存在的不足,本發(fā)明提供了一種基于元學習和文本提示的少樣本目標檢測方法,擬解決現(xiàn)有少樣本目標檢測方法中無法快速適應(yīng)新任務(wù)的問題。

2、本發(fā)明采用的技術(shù)方案為:

3、一種基于元學習和文本提示的少樣本目標檢測方法,該方法包括以下步驟:

4、步驟1,對獲取的圖像數(shù)據(jù)進行預(yù)處理并標注,標注圖片中檢測對象的位置以及類別,得到基類數(shù)據(jù)集;再將基類數(shù)據(jù)集按照預(yù)定比例隨機劃分為基類的支持集和查詢集;

5、采集一定數(shù)量包括檢測目標的圖像數(shù)據(jù),并對其進行預(yù)處理和標注,標注圖片中的檢測目標的位置和類別,得到新類數(shù)據(jù)集,再按照預(yù)定比例將新類數(shù)據(jù)集隨機劃分得到新類的支持集和查詢集;

6、步驟2,基于預(yù)訓(xùn)練的特征提取模塊對步驟1得到的基類數(shù)據(jù)集和新類數(shù)據(jù)集中的圖片進行特征提取,得到每個圖片的特征圖xf;

7、步驟3,構(gòu)建基于文本提示的候選框生成模塊,該模塊的輸入為圖片的特征圖xf,輸出特征圖xf對應(yīng)的候選框;

8、步驟4,構(gòu)建預(yù)測頭,用于對步驟3生成的候選框進行計算,輸出類別概率向量,同時基于邊界框回歸獲得每個候選框的偏移量,預(yù)測出目標檢測框;

9、步驟5,訓(xùn)練階段,使用基類數(shù)據(jù)集構(gòu)建基類元任務(wù),使用基類元任務(wù)對所構(gòu)建的基于文本提示的候選框生成模塊和預(yù)測頭進行模型訓(xùn)練,以優(yōu)化基于文本提示的候選框生成模塊和預(yù)測頭的網(wǎng)絡(luò)參數(shù);

10、步驟6:微調(diào)階段,使用新類數(shù)據(jù)集構(gòu)建新類元任務(wù),使用新類元任務(wù)對步驟5訓(xùn)練完成的基于文本提示的候選框生成模塊和預(yù)測頭進行網(wǎng)絡(luò)參數(shù)微調(diào),使其能夠快速適應(yīng)對少樣本數(shù)據(jù)的新類物體的檢測,從而得到用于檢測新類物體的目標檢測模型。

11、進一步的,步驟1中,基類的支持集和查詢集均包括n類檢測對象,每一類檢測對象有k張圖像,其中,n和k均為預(yù)設(shè)值;

12、進一步的,步驟1中,預(yù)處理具體為:

13、將圖片的尺寸歸一化至統(tǒng)一尺寸,優(yōu)選800*600;并且對于基類或新類的支持集,還將其中的圖片以指定概率進行水平翻轉(zhuǎn);

14、對數(shù)據(jù)集中每一張圖片進行文本標注,該文本標注所對應(yīng)的文本提示數(shù)據(jù)包括:各檢測對象或檢測目標的位置、類別以及對象或目標之間的交互信息。例如:a?man?is?onthe?left?side?of?the?photo,riding?a?horse;

15、進一步的,步驟2中,特征提取模塊采用resnet網(wǎng)絡(luò)結(jié)構(gòu),其依次包括:1個卷積層、2個池化層、若干個殘差塊和1個全連接層。優(yōu)選的,可采用resnet50網(wǎng)絡(luò)。

16、進一步的,步驟3具體包括:

17、步驟3.1,對特征圖xf的每一個像素點,以其為中心,生成若干個錨框,定義q為錨框的數(shù)量;

18、步驟3.2,將數(shù)據(jù)集中圖片對應(yīng)的文本提示數(shù)據(jù)t=(t1,...,ts)輸入到基于transformer的文本編碼器(use)中,提取對應(yīng)文本特征t'=(t1',...,ts'),其中,s表示圖片中提示文本的總數(shù)量,其中,提示文本的數(shù)量與每張圖片中的檢測對象或檢測目標的數(shù)量一致,tk,t'k(k=1,…,s)分別表示第k條文本提示數(shù)據(jù)和對應(yīng)的文本特征;

19、步驟3.3,對每一個錨框,計算其與所有真實檢測對象或檢測目標的邊界框的交并比,基于設(shè)置的交并比閾值確定每個錨框的前背景二分類的真實標簽;

20、步驟3.4:基于線性層對文本特征t'和q個錨框所對應(yīng)的特征圖進行維度映射,得到映射后的錨框的特征圖nfb=(nfb,1,...,nfb,q)和文本特征tfb=(tfb,1,...,tfb,s),其中,nfb,i表示映射后的第i個錨框的特征圖,i=1,...,q,tfb,k表示映射后的第k條文本特征,k=1,...,s,s為每張圖片中的提示文本數(shù)量;

21、對每個錨框,分別計算其特征圖nfb,i與每條文本特征tfb,k之間的余弦相似度,取其中的最大值作為相似度量值,記為si;

22、步驟3.5,對相似度量值si采用sigmoid函數(shù)計算每個錨框的二分類的前背景類別預(yù)測概率pi;

23、步驟3.6,基于前背景類別預(yù)測概率pi,取前n'個最大值所對應(yīng)的錨框作為候選框,并對候選框進行回歸計算,計算出各候選框相對于檢測對象或檢測目標的真實邊界框的偏移量,包括:候選框的中心橫縱坐標偏移量、候選框的寬度和長度偏移量。

24、進一步的,步驟5中,基于文本提示的候選框生成模塊的損失函數(shù)表達式為:

25、

26、

27、其中,表示前背景分類損失,pl與yl分別為第l個錨框的前背景預(yù)測概率與真實標簽,γ表示影響因子,q表示錨框的數(shù)量,表示錨框回歸損失,n'表示候選框數(shù)量,與分別表示第l個候選框預(yù)測的邊界框參數(shù)與真實邊界框參數(shù);smooth_l1()表示平滑l1損失函數(shù);

28、基于文本提示的候選框生成模塊的聯(lián)合損失函數(shù)為:其中α為預(yù)置第一的平衡損失參數(shù)。

29、進一步的,步驟4中所構(gòu)建的預(yù)測頭具體為:

30、采用roipooling層對候選框所對應(yīng)的特征圖進行劃分和池化操作,得到統(tǒng)一大小的特征區(qū)域向量xf';

31、通過全連接層和softmax函數(shù)對特征區(qū)域向量xf'進行目標分類,將特征區(qū)域向量xf'映射為目標類別預(yù)測概率分布,將目標類別預(yù)測概率分布中概率最大的類別作為預(yù)測的分類結(jié)果;

32、通過全連接層對特征區(qū)域向量xf'進行邊界框回歸,預(yù)測目標框的坐標偏移值,得到最終的目標邊界框,其中,目標框的坐標偏移值包括:目標框的中心橫縱坐標偏移量、候選框的寬度和長度偏移量。

33、進一步的,步驟5中,預(yù)測頭的損失函數(shù)表達式為:

34、

35、

36、其中,分別表示預(yù)測頭生成的分類損失和回歸損失,pn,yn分別表示目標類別預(yù)測結(jié)果與真實目標類別標簽,與分別表示第n個候選框的預(yù)測的邊界框參數(shù)與真實邊界框參數(shù),n為候選框編號,n’為候選框的數(shù)量;smooth_l1()表示平滑l1損失函數(shù)。

37、預(yù)測頭聯(lián)合損失函數(shù)為:α′為預(yù)置的第二平衡損失參數(shù)。

38、優(yōu)選的,所述步驟5具體包括以下步驟:

39、步驟5.1:從基類數(shù)據(jù)集中隨機抽取支持集和查詢集,構(gòu)成多個基類元任務(wù),每個基類元任務(wù)都包括多個支持集和1個查詢集;

40、步驟5.2:加載預(yù)訓(xùn)練權(quán)重,凍結(jié)特征提取模塊,使用基類元任務(wù)對基于文本提示的候選框生成模塊以及預(yù)測頭進行訓(xùn)練。

41、進一步的,步驟5.2包括:

42、內(nèi)循環(huán):對每個新的基類元任務(wù)ti,基于一定數(shù)量的樣本進行批量梯度更新,得到適應(yīng)該基類元任務(wù)的模型參數(shù)θi';其中,采用的樣本數(shù)量不超過預(yù)設(shè)值,即基于少量的樣本實現(xiàn)小批量梯度更新;

43、外循環(huán):多次進行內(nèi)循環(huán),利用單個內(nèi)循環(huán)的基類元任務(wù)得到的θi'來更新初始模型參數(shù)θi,使其為面對新任務(wù)時能夠達到一個更好的初始化狀態(tài);

44、具體步驟包括為:

45、步驟5.2.1:采樣一個基類元任務(wù)m,構(gòu)建一個同原模型(包括預(yù)特征提取模塊(其網(wǎng)絡(luò)參數(shù)凍結(jié))、候選框生成模塊、預(yù)測頭)相同的臨時模型,將原模型參數(shù)θ賦值給臨時模型,參數(shù)設(shè)置為θm;

46、步驟5.2.2:基于基類元任務(wù)m中的支持集對臨時模型參數(shù)θm進行多次優(yōu)化,得到更新優(yōu)化后的模型參數(shù)θm;

47、步驟5.2.3:基于步驟5.2.2得到的模型參數(shù)θm,使用基類元任務(wù)m中的查詢集,計算基類元任務(wù)m的損失loss,并計算該loss對于模型參數(shù)θm的梯度g;其中,loss包括:前背景分類損失錨框回歸損失和預(yù)測頭生成的分類損失和回歸損失

48、步驟5.2.4:若當前的loss小于前一個基類任務(wù)的loss,則使用梯度g,乘以學習率更新原模型參數(shù)θ;否則保留原模型參數(shù)θ不變;

49、步驟5.2.5:重復(fù)執(zhí)行步驟5.2.1至步驟5.2.4,直至loss收斂時停止,從而得到原模型最優(yōu)的初始化參數(shù)。

50、優(yōu)選的,步驟6所述的微調(diào)階段具體指:使用新類數(shù)據(jù)集對步驟5訓(xùn)練后得到的模型(預(yù)特征提取模塊(其網(wǎng)絡(luò)參數(shù)凍結(jié))、候選框生成模塊、預(yù)測頭)進行訓(xùn)練,訓(xùn)練步驟與步驟5相同,在經(jīng)歷一定數(shù)量(不超過設(shè)定值)的外循環(huán)訓(xùn)練后,模型即可快速適應(yīng)新任務(wù),完成對少樣本物體的精準檢測。

51、本發(fā)明提供的技術(shù)方案至少帶來如下有益效果:

52、本發(fā)明利用文本提示,構(gòu)建了全新的候選框生成模塊,并使用元學習相關(guān)范式訓(xùn)練模型,使得模型在數(shù)據(jù)樣本稀少的情況下,通過學習基類數(shù)據(jù)樣本,結(jié)合文本提示,總結(jié)出先驗知識,得到最優(yōu)的初始化參數(shù),使得模型僅使用少量新類數(shù)據(jù)樣本進行梯度下降后即可快速收斂,實現(xiàn)新物體的精準檢測,提升了模型適應(yīng)新任務(wù)的速度,減少了模型計算量。

當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1