日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

一種面向自然場景的文本檢測方法

文檔序號:39719106發(fā)布日期:2024-10-22 13:07閱讀:2來源:國知局
一種面向自然場景的文本檢測方法

本發(fā)明涉及深度學(xué)習(xí)圖像文本檢測,具體涉及一種面向自然場景的文本檢測方法。


背景技術(shù):

1、在自然場景中,背景復(fù)雜且多變,有效地從圖像中分割出文本對象和定位文本位置,成為人們關(guān)注的問題。在2012年之前,文本分割與定位技術(shù)主要依賴于傳統(tǒng)圖像處理技術(shù)和統(tǒng)計機器學(xué)習(xí)方法。這些技術(shù)通過圖像預(yù)處理(如灰度化、二值化、傾斜檢測與校正等)、特征提取(如hog特征等)和機器學(xué)習(xí)分類器(如svm等)來實現(xiàn)文本的檢測與識別。然而,這種方法在不同場景下需要獨立設(shè)計各個模塊的參數(shù),工作繁瑣,且難以設(shè)計出泛化性能好的模型。自2012年起,隨著深度學(xué)習(xí)在計算機視覺領(lǐng)域的廣泛應(yīng)用,文本分割與定位技術(shù)逐漸過渡到深度學(xué)習(xí)算法方案。深度學(xué)習(xí)算法通過自動學(xué)習(xí)圖像特征,大大簡化了傳統(tǒng)方法中的復(fù)雜流程,并提高了文本分割與定位的準(zhǔn)確性和效率。

2、然而現(xiàn)有技術(shù)在骨干網(wǎng)絡(luò)特征提取時,仍然因為特征丟失的問題導(dǎo)致文本檢測網(wǎng)絡(luò)的檢測精度不足。


技術(shù)實現(xiàn)思路

1、本發(fā)明的目的在于提供一種面向自然場景的文本檢測方法,旨在改進有效注意力網(wǎng)絡(luò),把可微分二值化算法和注意力機制應(yīng)用到文本檢測中,解決文本檢測時特征丟失的問題,并提高文本檢測網(wǎng)絡(luò)的檢測精度。

2、為實現(xiàn)上述目的,本發(fā)明提供了一種面向自然場景的文本檢測方法,包括下列步驟:

3、步驟1:選定訓(xùn)練集和測試集;

4、步驟2:將訓(xùn)練集作為文本檢測網(wǎng)絡(luò)的輸入,所述文本檢測網(wǎng)絡(luò)包括backbone、neck和head三個部分;

5、步驟3:基于改進的resnet50在backbone部分進行特征提取,對輸入圖片進行下采樣,得到不同的四個尺度特征圖;

6、步驟4:將四個尺度特征圖輸入到neck部分的rse-fpn進行特征融合,融合后的特征圖經(jīng)過上采樣和特征級聯(lián)得到最終特征圖;

7、步驟5:將最終特征圖經(jīng)過預(yù)測得到概率圖和閾值圖;

8、步驟6:在head部分運用可微分二值化算法計算概率圖和閾值圖得到近似二值化圖,對近似二值化圖進行文本框操作輸出帶文本框的最終圖片。

9、可選的,步驟3中改進的resnet50具體為將resnet?bottleneck用eanet?block結(jié)構(gòu)替換,eanet?block結(jié)構(gòu)psa模塊、csa模塊和兩個1*1卷積構(gòu)成,其中psa模塊主要是對輸入圖片進行多尺度特征提取,csa模塊則是關(guān)注通道信息豐富特征信息。

10、可選的,步驟4中neck部分的rse-fpn中的卷積層用se模塊的殘差結(jié)構(gòu)替代。se模塊可以增強網(wǎng)絡(luò)中不同通道之間的關(guān)注度。殘差連接可以解決深層網(wǎng)絡(luò)中梯度消失和梯度爆炸等問題。將se模塊與殘差連接結(jié)合起來,可以進一步提高網(wǎng)絡(luò)的性能。

11、可選的,步驟6中可微分二值化算法計算公式為;

12、

13、其中,表示近似二值映射;p表示由分割網(wǎng)絡(luò)生成的概率圖;t表示從網(wǎng)絡(luò)中學(xué)習(xí)到的自適應(yīng)閾值映射;k表示放大因子;(i,j)表示圖中的坐標(biāo)點。

14、可選的,所述面向自然場景的文本檢測方法采用l1損失函數(shù)和二進制交叉熵?fù)p失函數(shù)對網(wǎng)絡(luò)進行優(yōu)化,損失函數(shù)的表達式為:

15、l=ls+α×lb+β×lt

16、其中l(wèi)s為概率圖的損失,lb為二值圖的損失,lt為閾值圖的損失,其中α和β分別設(shè)置1和10;

17、使用二進制交叉熵?fù)p失來計算ls和lb:

18、

19、其中st表示正樣本與負(fù)樣本比例為1:3的抽樣集;

20、lt使用l1損失函數(shù):

21、

22、其中yi*表示閾值圖的標(biāo)簽,rd表示gd中的所有像素。

23、本發(fā)明提供了一種面向自然場景的文本檢測方法,基于backbone、neck和head三個部分改進獲得文本檢測網(wǎng)絡(luò),再將訓(xùn)練集輸入文本檢測網(wǎng)絡(luò)進行迭代訓(xùn)練,獲得最終結(jié)果。具體為在骨干網(wǎng)絡(luò)特征提取時,使用eanetblock結(jié)構(gòu)替換resnet?bottleneck,通過eanet包含的psa模塊和csa模塊,多尺度的提取特征信息和關(guān)注空間信息,有效地保留有效信息從而提高檢測精度;同時還引入se模塊和殘余結(jié)構(gòu)增強網(wǎng)絡(luò)對文本信息的定位;最后可微分二值化算法和注意力機制應(yīng)用到文本檢測中,解決了文本檢測時特征丟失的問題,并提高了文本檢測網(wǎng)絡(luò)的檢測精度。



技術(shù)特征:

1.一種面向自然場景的文本檢測方法,其特征在于,包括下列步驟:

2.如權(quán)利要求1所述的面向自然場景的文本檢測方法,其特征在于,

3.如權(quán)利要求2所述的面向自然場景的文本檢測方法,其特征在于,

4.如權(quán)利要求3所述的面向自然場景的文本檢測方法,其特征在于,

5.如權(quán)利要求4所述的面向自然場景的文本檢測方法,其特征在于,


技術(shù)總結(jié)
本發(fā)明涉及深度學(xué)習(xí)圖像文本檢測技術(shù)領(lǐng)域,具體涉及一種面向自然場景的文本檢測方法,基于backbone、neck和head三個部分改進獲得文本檢測網(wǎng)絡(luò),再將訓(xùn)練集輸入文本檢測網(wǎng)絡(luò)進行迭代訓(xùn)練,獲得最終結(jié)果。具體為在骨干網(wǎng)絡(luò)特征提取時,使用EANet?block結(jié)構(gòu)替換ResNet?Bottleneck,通過EANet包含的PSA模塊和CSA模塊,多尺度的提取特征信息和關(guān)注空間信息,有效地保留有效信息從而提高檢測精度;同時還引入SE模塊和殘余結(jié)構(gòu)增強網(wǎng)絡(luò)對文本信息的定位;最后可微分二值化算法和注意力機制應(yīng)用到文本檢測中,解決了文本檢測時特征丟失的問題,并提高了文本檢測網(wǎng)絡(luò)的檢測精度。

技術(shù)研發(fā)人員:黎海生,黎秋儀
受保護的技術(shù)使用者:廣西師范大學(xué)
技術(shù)研發(fā)日:
技術(shù)公布日:2024/10/21
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1