圖像文本識(shí)別的方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)與流程

文檔序號(hào)：39722231發(fā)布日期：2024-10-22 13:15閱讀：2來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

圖像文本識(shí)別的方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)與流程

本公開(kāi)涉及圖像處理的，具體而言，涉及一種圖像文本識(shí)別的方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)。

背景技術(shù)：

1、文本識(shí)別是指運(yùn)用光學(xué)技術(shù)和計(jì)算機(jī)技術(shù)對(duì)圖像中的文字進(jìn)行檢測(cè)，進(jìn)而識(shí)別出圖像中的文本內(nèi)容，文本識(shí)別是計(jì)算機(jī)視覺(jué)研究領(lǐng)域的分支之一。

2、目前，相關(guān)文字識(shí)別技術(shù)通常通過(guò)神經(jīng)網(wǎng)絡(luò)模型對(duì)圖像進(jìn)行文字識(shí)別處理，從而識(shí)別出該圖像中的文字位置。然而，該相關(guān)文字識(shí)別技術(shù)通常僅能對(duì)圖像中的文本內(nèi)容進(jìn)行識(shí)別。但是，針對(duì)卡證類(lèi)圖片，由于卡證類(lèi)圖片中所包含的內(nèi)容格式通常是固定的，例如，包含姓名、身份和其他固定信息；此時(shí)，采用現(xiàn)有技術(shù)對(duì)卡證類(lèi)圖片進(jìn)行文字識(shí)別后，僅能得到該卡證圖片中的文本，但是無(wú)法得到該卡證類(lèi)圖片中各個(gè)文本內(nèi)容所屬的類(lèi)型(例如，姓名、身份等)。此時(shí)，需要采用人工方式對(duì)卡證類(lèi)圖片的文本識(shí)別結(jié)果添加對(duì)應(yīng)的類(lèi)型，以滿足后續(xù)處理需求。顯然，該處理方式繁瑣，處理效率低，將處理量較大時(shí)，將浪費(fèi)大量的人力資源。

技術(shù)實(shí)現(xiàn)思路

1、本公開(kāi)實(shí)施例至少提供一種圖像文本識(shí)別的方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)。

2、第一方面，本公開(kāi)實(shí)施例提供了一種圖像文本識(shí)別的方法，包括：

3、獲取目標(biāo)圖像，并確定所述目標(biāo)圖像中各像素的像素信息；

4、基于所述目標(biāo)圖像的像素信息，確定所述目標(biāo)圖像中文本區(qū)域的方位信息，并確定所述文本區(qū)域的類(lèi)別信息；其中，所述方位信息用于指示對(duì)所述目標(biāo)圖像識(shí)別得到的至少一個(gè)文本框的方位信息，所述類(lèi)別信息用于指示所述目標(biāo)圖像中每個(gè)像素所對(duì)應(yīng)文字為預(yù)設(shè)文本類(lèi)型的概率；

5、基于所述方位信息和所述類(lèi)別信息，確定所述目標(biāo)圖像中文本的文本識(shí)別結(jié)果。

6、一種可選的實(shí)施方式中，基于所述目標(biāo)圖像的像素信息，確定所述目標(biāo)圖像中文本區(qū)域的方位信息，并確定所述文本區(qū)域的類(lèi)別信息，包括：

7、將所述目標(biāo)圖像的像素信息輸入至文本檢測(cè)網(wǎng)絡(luò)，得到所述方位信息和所述類(lèi)別信息。

8、一種可選的實(shí)施方式中，將所述目標(biāo)圖像的像素信息輸入至文本檢測(cè)網(wǎng)絡(luò)，得到所述方位信息和所述類(lèi)別信息，包括：

9、通過(guò)所述文本檢測(cè)網(wǎng)絡(luò)中的特征提取網(wǎng)絡(luò)提取所述像素信息的特征，得到目標(biāo)特征；

10、通過(guò)所述文本檢測(cè)網(wǎng)絡(luò)中的全卷積神經(jīng)網(wǎng)絡(luò)對(duì)所述目標(biāo)特征進(jìn)行處理，處理后得到所述方位信息和類(lèi)別信息。

11、一種可選的實(shí)施方式中，通過(guò)所述文本檢測(cè)網(wǎng)絡(luò)中的全卷積神經(jīng)網(wǎng)絡(luò)對(duì)所述目標(biāo)特征進(jìn)行處理，處理后得到所述方位信息和類(lèi)別信息，包括：

12、通過(guò)所述全卷積神經(jīng)網(wǎng)絡(luò)中的定位分支網(wǎng)絡(luò)對(duì)所述目標(biāo)特征進(jìn)行處理，處理后得到所述文本框的位置信息和所述文本框的角度信息；

13、通過(guò)所述全卷積神經(jīng)網(wǎng)絡(luò)中的分類(lèi)分支網(wǎng)絡(luò)對(duì)所述目標(biāo)特征進(jìn)行處理，處理后得到所述文本框類(lèi)別信息。

14、一種可選的實(shí)施方式中，基于所述方位信息和所述類(lèi)別信息，確定所述目標(biāo)圖像中文本的文本識(shí)別結(jié)果，包括：

15、基于所述方位信息和所述類(lèi)別信息，確定每個(gè)所述預(yù)設(shè)文本類(lèi)型的目標(biāo)文本框；

16、基于所述目標(biāo)文本框?qū)γ總€(gè)所述預(yù)設(shè)文本類(lèi)型的文本內(nèi)容進(jìn)行文本識(shí)別，得到所述文本識(shí)別結(jié)果。

17、一種可選的實(shí)施方式中，基于所述方位信息和所述類(lèi)別信息，確定每個(gè)所述預(yù)設(shè)文本類(lèi)型的目標(biāo)文本框，包括：

18、基于所述類(lèi)別信息確定所述至少一個(gè)文本框中所屬于相同預(yù)設(shè)文本類(lèi)型的第一文本框；

19、對(duì)所述第一文本框進(jìn)行非極大值抑制處理，得到第二文本框；

20、基于所述第二文本框和第三文本框，確定每種所述預(yù)設(shè)文本類(lèi)型的目標(biāo)文本框；其中，所述第三文本框?yàn)樗鲋辽僖粋€(gè)第一文本框中除所述第二文本框之外的文本框。

21、一種可選的實(shí)施方式中，基于所述目標(biāo)文本框?qū)γ總€(gè)所述預(yù)設(shè)文本類(lèi)型的文本內(nèi)容進(jìn)行文本識(shí)別，得到所述文本識(shí)別結(jié)果，包括：

22、基于所述方位信息對(duì)所述目標(biāo)圖像進(jìn)行分割，得到目標(biāo)子圖像；

23、通過(guò)卷積遞歸神經(jīng)網(wǎng)絡(luò)對(duì)所述目標(biāo)子圖像進(jìn)行文本識(shí)別處理，得到文本內(nèi)容；

24、確定與所述文本內(nèi)容相匹配的預(yù)設(shè)文本類(lèi)型；

25、基于所述文本內(nèi)容和該文本內(nèi)容相匹配的預(yù)設(shè)文本類(lèi)型，確定所述目標(biāo)子圖像的文本識(shí)別結(jié)果。

26、一種可選的實(shí)施方式中，獲取目標(biāo)圖像，并確定所述目標(biāo)圖像中各像素的像素信息，包括：

27、獲取原始圖像；

28、調(diào)整所述原始圖像的圖像尺寸，得到所述目標(biāo)圖像；

29、確定所述目標(biāo)圖像中各像素的位置信息；

30、基于所述目標(biāo)圖像的rgb值和所述位置信息，確定所述像素信息。

31、第二方面，本公開(kāi)實(shí)施例還提供一種圖像文本識(shí)別的裝置，包括：

32、獲取單元，用于獲取目標(biāo)圖像；

33、第一確定單元，用于確定所述目標(biāo)圖像中各像素的像素信息；

34、第二確定單元，用于基于所述目標(biāo)圖像的像素信息，確定所述目標(biāo)圖像中文本區(qū)域的方位信息，并確定所述文本區(qū)域的類(lèi)別信息；其中，所述方位信息用于指示對(duì)所述目標(biāo)圖像識(shí)別得到的至少一個(gè)文本框的方位信息，所述類(lèi)別信息用于指示所述目標(biāo)圖像中每個(gè)像素所對(duì)應(yīng)文字為預(yù)設(shè)文本類(lèi)型的概率；

35、第三確定單元，用于基于所述方位信息和所述類(lèi)別信息，確定所述目標(biāo)圖像中文本的文本識(shí)別結(jié)果。

36、第三方面，本公開(kāi)實(shí)施例還提供一種電子設(shè)備，包括：處理器、存儲(chǔ)器和總線，所述存儲(chǔ)器存儲(chǔ)有所述處理器可執(zhí)行的機(jī)器可讀指令，當(dāng)電子設(shè)備運(yùn)行時(shí)，所述處理器與所述存儲(chǔ)器之間通過(guò)總線通信，所述機(jī)器可讀指令被所述處理器執(zhí)行時(shí)執(zhí)行上述第一方面，或第一方面中任一種可能的實(shí)施方式中的步驟。

37、第四方面，本公開(kāi)實(shí)施例還提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，該計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上存儲(chǔ)有計(jì)算機(jī)程序，該計(jì)算機(jī)程序被處理器運(yùn)行時(shí)執(zhí)行上述第一方面，或第一方面中任一種可能的實(shí)施方式中的步驟。

38、在本公開(kāi)的實(shí)施例中，首先，獲取目標(biāo)圖像，并確定目標(biāo)圖像中各像素的像素信息；其次，基于目標(biāo)圖像的像素信息，確定目標(biāo)圖像中文本區(qū)域的方位信息，并確定文本區(qū)域的類(lèi)別信息；最后，基于方位信息和類(lèi)別信息，確定目標(biāo)圖像中文本的文本識(shí)別結(jié)果。

39、上述實(shí)施方式中，通過(guò)目標(biāo)圖像中各像素的像素信息來(lái)確定文本區(qū)域的方位信息和類(lèi)型信息的方式，可以實(shí)現(xiàn)識(shí)別到的每個(gè)文本框與對(duì)應(yīng)的類(lèi)別信息進(jìn)行綁定；通過(guò)綁定類(lèi)別信息，可以確定該文本框所框選文本內(nèi)容的預(yù)設(shè)文本類(lèi)型?；谠摲轿恍畔⒑皖?lèi)別信息，所確定的文本識(shí)別結(jié)果可以同時(shí)包含文本框的方位信息，以及該文本框所框選文本內(nèi)容的預(yù)設(shè)文本類(lèi)型。通過(guò)采用該處理方式，無(wú)需在識(shí)別出文本內(nèi)容之后，采用手動(dòng)方式為文本內(nèi)容添加類(lèi)型信息，從而減少了在得到文本區(qū)域的文本內(nèi)容后，還需要進(jìn)行分析得到文本內(nèi)容類(lèi)型的步驟，降低了處理負(fù)荷，從而提升了整體的圖像文本識(shí)別效率。

技術(shù)特征：

1.一種圖像文本識(shí)別的方法，其特征在于，包括：

2.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述基于所述目標(biāo)圖像的像素信息，確定所述目標(biāo)圖像中文本區(qū)域的方位信息，并確定所述文本區(qū)域的類(lèi)別信息，包括：

3.根據(jù)權(quán)利要求2所述的方法，其特征在于，所述將所述目標(biāo)圖像的像素信息輸入至文本檢測(cè)網(wǎng)絡(luò)，得到所述方位信息和所述類(lèi)別信息，包括：

4.根據(jù)權(quán)利要求3所述的方法，其特征在于，所述通過(guò)所述文本檢測(cè)網(wǎng)絡(luò)中的全卷積神經(jīng)網(wǎng)絡(luò)對(duì)所述目標(biāo)特征進(jìn)行處理，處理后得到所述方位信息和類(lèi)別信息，包括：

5.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述基于所述方位信息和所述類(lèi)別信息，確定所述目標(biāo)圖像中文本的文本識(shí)別結(jié)果，包括：

6.根據(jù)權(quán)利要求5所述的方法，其特征在于，所述基于所述方位信息和所述類(lèi)別信息，確定每個(gè)所述預(yù)設(shè)文本類(lèi)型的目標(biāo)文本框，包括：

7.根據(jù)權(quán)利要求5所述的方法，其特征在于，所述基于所述目標(biāo)文本框?qū)γ總€(gè)所述預(yù)設(shè)文本類(lèi)型的文本內(nèi)容進(jìn)行文本識(shí)別，得到所述文本識(shí)別結(jié)果，包括：

8.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述獲取目標(biāo)圖像，并確定所述目標(biāo)圖像中各像素的像素信息，包括：

9.一種圖像文本識(shí)別的裝置，其特征在于，包括：

10.一種電子設(shè)備，其特征在于，包括：處理器、存儲(chǔ)器和總線，所述存儲(chǔ)器存儲(chǔ)有所述處理器可執(zhí)行的機(jī)器可讀指令，當(dāng)電子設(shè)備運(yùn)行時(shí)，所述處理器與所述存儲(chǔ)器之間通過(guò)總線通信，所述機(jī)器可讀指令被所述處理器執(zhí)行時(shí)執(zhí)行如權(quán)利要求1至8任一所述的圖像文本識(shí)別的方法的步驟。

11.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其特征在于，該計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上存儲(chǔ)有計(jì)算機(jī)程序，該計(jì)算機(jī)程序被處理器運(yùn)行時(shí)執(zhí)行如權(quán)利要求1至8任一所述的圖像文本識(shí)別的方法的步驟。

技術(shù)總結(jié)
本公開(kāi)提供了一種圖像文本識(shí)別的方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)，其中，該方法包括：獲取目標(biāo)圖像，并確定所述目標(biāo)圖像中各像素的像素信息；基于所述目標(biāo)圖像的像素信息，確定所述目標(biāo)圖像中文本區(qū)域的方位信息，并確定所述文本區(qū)域的類(lèi)別信息；其中，所述方位信息用于指示對(duì)所述目標(biāo)圖像識(shí)別得到的至少一個(gè)文本框的方位信息，所述類(lèi)別信息用于指示所述目標(biāo)圖像中每個(gè)像素所對(duì)應(yīng)文字為預(yù)設(shè)文本類(lèi)型的概率；基于所述方位信息和所述類(lèi)別信息，確定所述目標(biāo)圖像中文本的文本識(shí)別結(jié)果。本公開(kāi)實(shí)施例降低了處理負(fù)荷，從而提升了整體的圖像文本識(shí)別效率。

技術(shù)研發(fā)人員：楊夏浛
受保護(hù)的技術(shù)使用者：中國(guó)移動(dòng)通信有限公司研究院
技術(shù)研發(fā)日：
技術(shù)公布日：2024/10/21

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：楊夏浛
技術(shù)所有人：中國(guó)移動(dòng)通信有限公司研究院
我是此專(zhuān)利的發(fā)明人

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

圖像文本識(shí)別的方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)與流程

圖像文本識(shí)別的方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)與流程