日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

圖像文本識(shí)別的方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)與流程

文檔序號(hào):39722231發(fā)布日期:2024-10-22 13:15閱讀:2來(lái)源:國(guó)知局
圖像文本識(shí)別的方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)與流程

本公開(kāi)涉及圖像處理的,具體而言,涉及一種圖像文本識(shí)別的方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)。


背景技術(shù):

1、文本識(shí)別是指運(yùn)用光學(xué)技術(shù)和計(jì)算機(jī)技術(shù)對(duì)圖像中的文字進(jìn)行檢測(cè),進(jìn)而識(shí)別出圖像中的文本內(nèi)容,文本識(shí)別是計(jì)算機(jī)視覺(jué)研究領(lǐng)域的分支之一。

2、目前,相關(guān)文字識(shí)別技術(shù)通常通過(guò)神經(jīng)網(wǎng)絡(luò)模型對(duì)圖像進(jìn)行文字識(shí)別處理,從而識(shí)別出該圖像中的文字位置。然而,該相關(guān)文字識(shí)別技術(shù)通常僅能對(duì)圖像中的文本內(nèi)容進(jìn)行識(shí)別。但是,針對(duì)卡證類(lèi)圖片,由于卡證類(lèi)圖片中所包含的內(nèi)容格式通常是固定的,例如,包含姓名、身份和其他固定信息;此時(shí),采用現(xiàn)有技術(shù)對(duì)卡證類(lèi)圖片進(jìn)行文字識(shí)別后,僅能得到該卡證圖片中的文本,但是無(wú)法得到該卡證類(lèi)圖片中各個(gè)文本內(nèi)容所屬的類(lèi)型(例如,姓名、身份等)。此時(shí),需要采用人工方式對(duì)卡證類(lèi)圖片的文本識(shí)別結(jié)果添加對(duì)應(yīng)的類(lèi)型,以滿足后續(xù)處理需求。顯然,該處理方式繁瑣,處理效率低,將處理量較大時(shí),將浪費(fèi)大量的人力資源。


技術(shù)實(shí)現(xiàn)思路

1、本公開(kāi)實(shí)施例至少提供一種圖像文本識(shí)別的方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)。

2、第一方面,本公開(kāi)實(shí)施例提供了一種圖像文本識(shí)別的方法,包括:

3、獲取目標(biāo)圖像,并確定所述目標(biāo)圖像中各像素的像素信息;

4、基于所述目標(biāo)圖像的像素信息,確定所述目標(biāo)圖像中文本區(qū)域的方位信息,并確定所述文本區(qū)域的類(lèi)別信息;其中,所述方位信息用于指示對(duì)所述目標(biāo)圖像識(shí)別得到的至少一個(gè)文本框的方位信息,所述類(lèi)別信息用于指示所述目標(biāo)圖像中每個(gè)像素所對(duì)應(yīng)文字為預(yù)設(shè)文本類(lèi)型的概率;

5、基于所述方位信息和所述類(lèi)別信息,確定所述目標(biāo)圖像中文本的文本識(shí)別結(jié)果。

6、一種可選的實(shí)施方式中,基于所述目標(biāo)圖像的像素信息,確定所述目標(biāo)圖像中文本區(qū)域的方位信息,并確定所述文本區(qū)域的類(lèi)別信息,包括:

7、將所述目標(biāo)圖像的像素信息輸入至文本檢測(cè)網(wǎng)絡(luò),得到所述方位信息和所述類(lèi)別信息。

8、一種可選的實(shí)施方式中,將所述目標(biāo)圖像的像素信息輸入至文本檢測(cè)網(wǎng)絡(luò),得到所述方位信息和所述類(lèi)別信息,包括:

9、通過(guò)所述文本檢測(cè)網(wǎng)絡(luò)中的特征提取網(wǎng)絡(luò)提取所述像素信息的特征,得到目標(biāo)特征;

10、通過(guò)所述文本檢測(cè)網(wǎng)絡(luò)中的全卷積神經(jīng)網(wǎng)絡(luò)對(duì)所述目標(biāo)特征進(jìn)行處理,處理后得到所述方位信息和類(lèi)別信息。

11、一種可選的實(shí)施方式中,通過(guò)所述文本檢測(cè)網(wǎng)絡(luò)中的全卷積神經(jīng)網(wǎng)絡(luò)對(duì)所述目標(biāo)特征進(jìn)行處理,處理后得到所述方位信息和類(lèi)別信息,包括:

12、通過(guò)所述全卷積神經(jīng)網(wǎng)絡(luò)中的定位分支網(wǎng)絡(luò)對(duì)所述目標(biāo)特征進(jìn)行處理,處理后得到所述文本框的位置信息和所述文本框的角度信息;

13、通過(guò)所述全卷積神經(jīng)網(wǎng)絡(luò)中的分類(lèi)分支網(wǎng)絡(luò)對(duì)所述目標(biāo)特征進(jìn)行處理,處理后得到所述文本框類(lèi)別信息。

14、一種可選的實(shí)施方式中,基于所述方位信息和所述類(lèi)別信息,確定所述目標(biāo)圖像中文本的文本識(shí)別結(jié)果,包括:

15、基于所述方位信息和所述類(lèi)別信息,確定每個(gè)所述預(yù)設(shè)文本類(lèi)型的目標(biāo)文本框;

16、基于所述目標(biāo)文本框?qū)γ總€(gè)所述預(yù)設(shè)文本類(lèi)型的文本內(nèi)容進(jìn)行文本識(shí)別,得到所述文本識(shí)別結(jié)果。

17、一種可選的實(shí)施方式中,基于所述方位信息和所述類(lèi)別信息,確定每個(gè)所述預(yù)設(shè)文本類(lèi)型的目標(biāo)文本框,包括:

18、基于所述類(lèi)別信息確定所述至少一個(gè)文本框中所屬于相同預(yù)設(shè)文本類(lèi)型的第一文本框;

19、對(duì)所述第一文本框進(jìn)行非極大值抑制處理,得到第二文本框;

20、基于所述第二文本框和第三文本框,確定每種所述預(yù)設(shè)文本類(lèi)型的目標(biāo)文本框;其中,所述第三文本框?yàn)樗鲋辽僖粋€(gè)第一文本框中除所述第二文本框之外的文本框。

21、一種可選的實(shí)施方式中,基于所述目標(biāo)文本框?qū)γ總€(gè)所述預(yù)設(shè)文本類(lèi)型的文本內(nèi)容進(jìn)行文本識(shí)別,得到所述文本識(shí)別結(jié)果,包括:

22、基于所述方位信息對(duì)所述目標(biāo)圖像進(jìn)行分割,得到目標(biāo)子圖像;

23、通過(guò)卷積遞歸神經(jīng)網(wǎng)絡(luò)對(duì)所述目標(biāo)子圖像進(jìn)行文本識(shí)別處理,得到文本內(nèi)容;

24、確定與所述文本內(nèi)容相匹配的預(yù)設(shè)文本類(lèi)型;

25、基于所述文本內(nèi)容和該文本內(nèi)容相匹配的預(yù)設(shè)文本類(lèi)型,確定所述目標(biāo)子圖像的文本識(shí)別結(jié)果。

26、一種可選的實(shí)施方式中,獲取目標(biāo)圖像,并確定所述目標(biāo)圖像中各像素的像素信息,包括:

27、獲取原始圖像;

28、調(diào)整所述原始圖像的圖像尺寸,得到所述目標(biāo)圖像;

29、確定所述目標(biāo)圖像中各像素的位置信息;

30、基于所述目標(biāo)圖像的rgb值和所述位置信息,確定所述像素信息。

31、第二方面,本公開(kāi)實(shí)施例還提供一種圖像文本識(shí)別的裝置,包括:

32、獲取單元,用于獲取目標(biāo)圖像;

33、第一確定單元,用于確定所述目標(biāo)圖像中各像素的像素信息;

34、第二確定單元,用于基于所述目標(biāo)圖像的像素信息,確定所述目標(biāo)圖像中文本區(qū)域的方位信息,并確定所述文本區(qū)域的類(lèi)別信息;其中,所述方位信息用于指示對(duì)所述目標(biāo)圖像識(shí)別得到的至少一個(gè)文本框的方位信息,所述類(lèi)別信息用于指示所述目標(biāo)圖像中每個(gè)像素所對(duì)應(yīng)文字為預(yù)設(shè)文本類(lèi)型的概率;

35、第三確定單元,用于基于所述方位信息和所述類(lèi)別信息,確定所述目標(biāo)圖像中文本的文本識(shí)別結(jié)果。

36、第三方面,本公開(kāi)實(shí)施例還提供一種電子設(shè)備,包括:處理器、存儲(chǔ)器和總線,所述存儲(chǔ)器存儲(chǔ)有所述處理器可執(zhí)行的機(jī)器可讀指令,當(dāng)電子設(shè)備運(yùn)行時(shí),所述處理器與所述存儲(chǔ)器之間通過(guò)總線通信,所述機(jī)器可讀指令被所述處理器執(zhí)行時(shí)執(zhí)行上述第一方面,或第一方面中任一種可能的實(shí)施方式中的步驟。

37、第四方面,本公開(kāi)實(shí)施例還提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),該計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上存儲(chǔ)有計(jì)算機(jī)程序,該計(jì)算機(jī)程序被處理器運(yùn)行時(shí)執(zhí)行上述第一方面,或第一方面中任一種可能的實(shí)施方式中的步驟。

38、在本公開(kāi)的實(shí)施例中,首先,獲取目標(biāo)圖像,并確定目標(biāo)圖像中各像素的像素信息;其次,基于目標(biāo)圖像的像素信息,確定目標(biāo)圖像中文本區(qū)域的方位信息,并確定文本區(qū)域的類(lèi)別信息;最后,基于方位信息和類(lèi)別信息,確定目標(biāo)圖像中文本的文本識(shí)別結(jié)果。

39、上述實(shí)施方式中,通過(guò)目標(biāo)圖像中各像素的像素信息來(lái)確定文本區(qū)域的方位信息和類(lèi)型信息的方式,可以實(shí)現(xiàn)識(shí)別到的每個(gè)文本框與對(duì)應(yīng)的類(lèi)別信息進(jìn)行綁定;通過(guò)綁定類(lèi)別信息,可以確定該文本框所框選文本內(nèi)容的預(yù)設(shè)文本類(lèi)型?;谠摲轿恍畔⒑皖?lèi)別信息,所確定的文本識(shí)別結(jié)果可以同時(shí)包含文本框的方位信息,以及該文本框所框選文本內(nèi)容的預(yù)設(shè)文本類(lèi)型。通過(guò)采用該處理方式,無(wú)需在識(shí)別出文本內(nèi)容之后,采用手動(dòng)方式為文本內(nèi)容添加類(lèi)型信息,從而減少了在得到文本區(qū)域的文本內(nèi)容后,還需要進(jìn)行分析得到文本內(nèi)容類(lèi)型的步驟,降低了處理負(fù)荷,從而提升了整體的圖像文本識(shí)別效率。



技術(shù)特征:

1.一種圖像文本識(shí)別的方法,其特征在于,包括:

2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于所述目標(biāo)圖像的像素信息,確定所述目標(biāo)圖像中文本區(qū)域的方位信息,并確定所述文本區(qū)域的類(lèi)別信息,包括:

3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述將所述目標(biāo)圖像的像素信息輸入至文本檢測(cè)網(wǎng)絡(luò),得到所述方位信息和所述類(lèi)別信息,包括:

4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述通過(guò)所述文本檢測(cè)網(wǎng)絡(luò)中的全卷積神經(jīng)網(wǎng)絡(luò)對(duì)所述目標(biāo)特征進(jìn)行處理,處理后得到所述方位信息和類(lèi)別信息,包括:

5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于所述方位信息和所述類(lèi)別信息,確定所述目標(biāo)圖像中文本的文本識(shí)別結(jié)果,包括:

6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述基于所述方位信息和所述類(lèi)別信息,確定每個(gè)所述預(yù)設(shè)文本類(lèi)型的目標(biāo)文本框,包括:

7.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述基于所述目標(biāo)文本框?qū)γ總€(gè)所述預(yù)設(shè)文本類(lèi)型的文本內(nèi)容進(jìn)行文本識(shí)別,得到所述文本識(shí)別結(jié)果,包括:

8.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述獲取目標(biāo)圖像,并確定所述目標(biāo)圖像中各像素的像素信息,包括:

9.一種圖像文本識(shí)別的裝置,其特征在于,包括:

10.一種電子設(shè)備,其特征在于,包括:處理器、存儲(chǔ)器和總線,所述存儲(chǔ)器存儲(chǔ)有所述處理器可執(zhí)行的機(jī)器可讀指令,當(dāng)電子設(shè)備運(yùn)行時(shí),所述處理器與所述存儲(chǔ)器之間通過(guò)總線通信,所述機(jī)器可讀指令被所述處理器執(zhí)行時(shí)執(zhí)行如權(quán)利要求1至8任一所述的圖像文本識(shí)別的方法的步驟。

11.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,該計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上存儲(chǔ)有計(jì)算機(jī)程序,該計(jì)算機(jī)程序被處理器運(yùn)行時(shí)執(zhí)行如權(quán)利要求1至8任一所述的圖像文本識(shí)別的方法的步驟。


技術(shù)總結(jié)
本公開(kāi)提供了一種圖像文本識(shí)別的方法、裝置、設(shè)備及存儲(chǔ)介質(zhì),其中,該方法包括:獲取目標(biāo)圖像,并確定所述目標(biāo)圖像中各像素的像素信息;基于所述目標(biāo)圖像的像素信息,確定所述目標(biāo)圖像中文本區(qū)域的方位信息,并確定所述文本區(qū)域的類(lèi)別信息;其中,所述方位信息用于指示對(duì)所述目標(biāo)圖像識(shí)別得到的至少一個(gè)文本框的方位信息,所述類(lèi)別信息用于指示所述目標(biāo)圖像中每個(gè)像素所對(duì)應(yīng)文字為預(yù)設(shè)文本類(lèi)型的概率;基于所述方位信息和所述類(lèi)別信息,確定所述目標(biāo)圖像中文本的文本識(shí)別結(jié)果。本公開(kāi)實(shí)施例降低了處理負(fù)荷,從而提升了整體的圖像文本識(shí)別效率。

技術(shù)研發(fā)人員:楊夏浛
受保護(hù)的技術(shù)使用者:中國(guó)移動(dòng)通信有限公司研究院
技術(shù)研發(fā)日:
技術(shù)公布日:2024/10/21
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1