日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

編碼器的訓練方法、圖像識別方法及存儲介質(zhì)與流程

文檔序號:39711174發(fā)布日期:2024-10-22 12:56閱讀:2來源:國知局
編碼器的訓練方法、圖像識別方法及存儲介質(zhì)與流程

本技術(shù)實施例涉及圖像處理,具體涉及一種編碼器的訓練方法、圖像識別方法及存儲介質(zhì)。


背景技術(shù):

1、隨著電子技術(shù)的發(fā)展,圖像識別被廣泛用于各個行業(yè),例如從監(jiān)控視頻中檢測目標物體、對圖像中目標進行識別并分類等。為了提高圖像識別的效率,可以通過圖像識別模型識別圖像,以得到圖像識別結(jié)果。可以理解的是,在利用圖像識別模型之前,通常需要先構(gòu)建初始模型并對初始模型進行訓練,訓練完成后即可利用訓練好的模型識別圖像。訓練好的模型的精度越高,則通過模型進行圖像識別得到的圖像識別結(jié)果的準確度越高。

2、自監(jiān)督訓練是一種無需人工標注標簽的學習方法。常見的自監(jiān)督訓練方法有自編碼器(autoencoder)、對比學習、預(yù)測上下文信息等。在自然語言處理領(lǐng)域,模型需求數(shù)據(jù)量大的問題已經(jīng)得到很好解決,如生成式預(yù)訓練變換器(generative?pre-trainedtransformer,gpt)使用的自回歸語言建模、來自變壓器的雙向編碼器表示(bidirectionalencoder?representations?from?transformer,bert)使用的遮掩式自動編碼器(maskedautoencoder,mae)等。這些方法的原理是先移除訓練數(shù)據(jù)中的一部分內(nèi)容,然后讓模型去學習預(yù)測被移除的內(nèi)容。mae等訓練策略也被應(yīng)用到計算機視覺領(lǐng)域,計算機視覺領(lǐng)域中卷積網(wǎng)絡(luò)和視覺變換器(vision?transformer,vit)平分秋色。由于vit能輕松處理被遮掩后的圖像,mae首先被應(yīng)用于vit中,然后在稀疏卷積的啟發(fā)下應(yīng)用于卷積網(wǎng)絡(luò)中,形成全卷積遮掩式自動編碼器(fully?convolutional?masked?autoencoder,fcmae)。盡管如此,fcmae在實際部署中仍面臨著卷積網(wǎng)絡(luò)復雜、激活函數(shù)算子低效的問題。

3、本技術(shù)發(fā)明人研究發(fā)現(xiàn),在卷積網(wǎng)絡(luò)上使用mae訓練方法的技術(shù)主要為下一代卷積網(wǎng)絡(luò)第2版(convnext?v2),該技術(shù)使用的是全卷積網(wǎng)絡(luò)結(jié)構(gòu),導致編碼器的卷積網(wǎng)絡(luò)結(jié)構(gòu)復雜,不利于邊緣端設(shè)備的部署;且編網(wǎng)絡(luò)對細粒度特征關(guān)注不足;解碼器也未能解決全局特征與局部特征的長距離依賴關(guān)系,最終導致解碼器的精度不高。因此,目前缺少一種能提高圖像識別模型的訓練精度的訓練方法以及能較準確地對圖像進行識別的圖像識別模型。


技術(shù)實現(xiàn)思路

1、鑒于上述問題,本技術(shù)實施例提供了一種編碼器的訓練方法、圖像識別方法、電子設(shè)備及存儲介質(zhì),用于解決現(xiàn)有技術(shù)中存在的缺少一種能提高圖像識別模型的訓練精度的訓練方法以及能較準確地對圖像進行識別的圖像識別模型的問題。

2、根據(jù)本技術(shù)實施例的一個方面,提供了一種編碼器的訓練方法,所述方法包括:步驟s1:構(gòu)建編碼器,所述編碼器包括第一卷積層、級聯(lián)的多個第二卷積層、第一特征融合層和第二特征融合層,所述第一卷積層與所述第二卷積層連接,所述第二卷積層與所述第一特征融合層連接,所述第一融合層和所述第二融合層連接,其中,所述第一卷積層的卷積核大小和步幅大小相同;步驟s2:構(gòu)建解碼器和損失函數(shù)計算模塊,所述第二特征融合層與所述解碼器連接;步驟s3:將訓練圖像集分成不同分組的批次訓練圖像,其中,每一分組的批次訓練圖像包括多張不同的訓練圖像;步驟s4:將其中之一分組的批次訓練圖像輸入所述編碼器;步驟s5:獲取所述編碼器輸出的編碼特征圖,并將所述編碼特征圖輸入所述解碼器得到第一預(yù)測圖像;步驟s6:基于所述批次訓練圖像和所述第一預(yù)測圖像,采用所述損失函數(shù)計算模塊計算得到損失值;步驟s7:使用反向傳播算法計算所述損失值對所述編碼器每個參數(shù)的梯度,并根據(jù)所述梯度更新所述編碼器的參數(shù);步驟s8:將其余分組的批次訓練圖像分批輸入所述編碼器中并重復執(zhí)行步驟s5至步驟s7,直至完成所述訓練圖像集對所述編碼器的一輪訓練;重復執(zhí)行步驟s4至步驟s8直至訓練輪數(shù)達到預(yù)設(shè)閾值時,保存所述編碼器的參數(shù)作為所述編碼器的權(quán)重。

3、在一種可選的方式中,所述獲取所述編碼器輸出的編碼特征圖,包括:通過所述第一卷積層對所述批次訓練圖像進行卷積處理得到第一特征圖;對所述第一特征圖使用與所述批次訓練圖像對應(yīng)的第一掩膜圖像進行掩膜處理得到第二特征圖;通過多個所述第二卷積層依次對所述第二特征圖進行卷積處理得到不同尺度的多個第三特征圖;通過所述第一特征融合層對多個所述第三特征圖進行特征融合處理得到不同尺度的多個第一融合特征圖;通過所述第二特征融合層對多個所述第一融合特征圖進行特征融合處理得到第二融合特征圖;為所述第二融合特征圖中被遮掩的位置添加掩膜標記得到所述編碼特征圖。

4、在一種可選的方式中,所述對所述第一特征圖使用與所述批次訓練圖像對應(yīng)的第一掩膜圖像進行掩膜處理得到第二特征圖,包括:為所述批次訓練圖像構(gòu)建與其對應(yīng)的第一掩膜圖像,其中,所述第一掩膜圖像與所述第一特征圖尺度相同,且所述第一掩膜圖像中的一部分像素點的像素值為0,其余像素點的像素值為1;對所述第一特征圖與所述第一掩膜圖像進行按位乘處理,得到所述第二特征圖。

5、在一種可選的方式中,所述第一掩膜圖像中的a*t個像素點的像素值為0,其余像素點的像素值為1,其中,t為所述第一掩膜圖像的全部像素點數(shù)量,60%≤a≤75%。

6、在一種可選的方式中,所述編碼器的訓練方法還包括:構(gòu)建掩膜標記圖像,其中,所述掩膜標記圖像與所述第二融合特征圖的尺度相同;對所述第二融合特征圖和所述掩膜標記圖像進行或運算處理,得到所述編碼特征圖。

7、在一種可選的方式中,所述將所述編碼特征圖輸入所述解碼器得到第一預(yù)測圖像,包括:對所述編碼特征圖進行拉伸處理得到一維向量的編碼特征圖;將所述一維向量的編碼特征圖輸入所述解碼器得到所述第一預(yù)測圖像,其中,所述解碼器為一種transformer解碼器。

8、在一種可選的方式中,所述第一特征圖包括多個特征圖像塊;所述將所述編碼特征圖輸入所述解碼器,得到第一預(yù)測圖像,包括:將所述編碼特征圖輸入所述解碼器,得到所述解碼器輸出的多個預(yù)測圖像塊,其中,所述多個特征圖像塊和所述多個預(yù)測圖像塊一一對應(yīng);對所述多個預(yù)測圖像塊進行逆分塊化處理,得到所述第一預(yù)測圖像。

9、在一種可選的方式中,所述編碼器的訓練方法還包括:對所述第一掩膜圖像進行尺度縮放處理得到第二掩膜圖像,其中,所述第二掩膜圖像與所述第一預(yù)測圖像的尺度相同;對所述第二掩膜圖像中的各個像素點的像素值進行取反處理,得到第三掩膜圖像;對所述第一預(yù)測圖像和所述第三掩膜圖像進行按位乘處理,得到第二預(yù)測圖像;將所述批次訓練圖像和所述第二預(yù)測圖像輸入所述損失函數(shù)計算模塊,得到所述損失函數(shù)計算模塊輸出的損失值。

10、在一種可選的方式中,所述第一特征圖包括多個特征圖像塊,所述第一掩膜圖像包括多個掩膜圖像塊,多個所述特征圖像塊和多個所述掩膜圖像塊的數(shù)量相同,且位置一一對應(yīng)。

11、根據(jù)本技術(shù)實施例的另一方面,提供了一種圖像識別方法,所述圖像識別方法包括:將待識別圖像輸入包括編碼器和檢測頭的圖像識別模型;通過所述編碼器對所述待識別圖像進行處理得到多個尺度不同的目標融合特征圖;通過所述檢測頭對所述目標融合特征圖進行識別得到所述待識別圖像的圖像識別結(jié)果;其中所述編碼器為通過如上所述的編碼器的訓練方法得到的編碼器。

12、根據(jù)本技術(shù)實施例的又一方面,提供了一種電子設(shè)備,包括存儲器、處理器及存儲在所述存儲器上的計算機程序,所述處理器執(zhí)行所述計算機程序以實現(xiàn)如上所述的編碼器的訓練方法,和/或如上所述的圖像識別方法。

13、根據(jù)本技術(shù)實施例的又一方面,提供了一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,該計算機程序被處理器執(zhí)行時實現(xiàn)如上所述的編碼器的訓練方法,和/或如上所述的圖像識別方法。

14、本技術(shù)實施例中的編碼器相較于convnext?v2,能融合不同尺度的特征圖的特征信息,增強了編碼器特征的健壯性,從而提高得到的預(yù)測圖像的準確度,也就提高了訓練好的編碼器的精度。

15、本技術(shù)實施例中,由于編碼器能融合不同尺度的特征信息,并且,融合得到的大尺度特征圖能捕捉到更局部、細節(jié)更多的特征,適合檢測細粒度特征,增強了編碼器特征的健壯性,從而提高了圖像識別模型的訓練精度,以及后續(xù)可以利用包括訓練好的編碼器和檢測頭的圖像識別模型準確地對圖像進行識別。

16、上述說明僅是本技術(shù)實施例技術(shù)方案的概述,為了能夠更清楚了解本技術(shù)實施例的技術(shù)手段,而可依照說明書的內(nèi)容予以實施,并且為了讓本技術(shù)實施例的上述和其它目的、特征和優(yōu)點能夠更明顯易懂,以下特舉本技術(shù)的具體實施方式。

當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1