日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

字符識別方法和字符識別系統(tǒng)的制作方法

文檔序號:10594598閱讀:1650來源:國知局
字符識別方法和字符識別系統(tǒng)的制作方法
【專利摘要】本發(fā)明涉及一種票據(jù)的字符識別方法和字符識別系統(tǒng)。該字符識別方法包括以下步驟:利用用戶終端獲取待識別票據(jù)的圖像;將圖像上傳至服務器,其中,服務器包括基本識別庫、擴展識別庫以及至少第一和第二存儲區(qū),其中,基本識別庫和擴展識別庫中分別存儲有用于基本字符識別和擴展字符識別的字符樣本,并且,基本識別庫中的字符樣本的數(shù)量小于擴展識別庫中的字符樣本的數(shù)量;調(diào)用基本識別庫,對圖像進行基本字符識別;確定識別錯誤的字符數(shù)量,計算識別錯誤率;當識別錯誤率小于等于第一閾值時,將圖像存儲到第一存儲區(qū),當識別錯誤率大于第一閾值時,將圖像存儲到第二存儲區(qū);對于存儲在第二存儲區(qū)的圖像,調(diào)用擴展識別庫,對圖像進行擴展字符識別。
【專利說明】
字符識別方法和字符識別系統(tǒng)
技術(shù)領(lǐng)域
[0001]本發(fā)明涉及圖像處理,特別涉及一種票據(jù)的字符識別方法和字符識別系統(tǒng)。
【背景技術(shù)】
[0002]0CR(0ptical Character Recognit1n)光學字符識別,更多的涉及信息技術(shù)及自動化方面,目前應用廣泛的有汽車牌照的識別、銀行等財務辦公的票據(jù)識別、及部分名片識別的應用等。在車牌及銀行票據(jù)方面的識別更多的需要硬件設備的輔助支持,例如專業(yè)的掃描儀及拍照設備。
[0003]常規(guī)OCR識別,只是識別排列組合有限的車牌及相對比較統(tǒng)一規(guī)范的銀行票據(jù)。因為識別圖像的內(nèi)容相對固定簡單。
[0004]例如,車牌識別,排列組合英文大寫字母加上O到9的數(shù)字即可,內(nèi)容相對簡單,系統(tǒng)的不斷優(yōu)化學習過程相對容易。
[0005]銀行票據(jù)的識別,通過硬件設備掃描儀進行相對高質(zhì)量的圖像掃碼進而得到清晰的圖像光學信息,同時銀行的財務票據(jù)的格式相對統(tǒng)一固定,故此模板相對一致,與車牌識別相似只要完成固定的系統(tǒng)優(yōu)化即可得到相對高識別率的結(jié)果。
[0006]由于識別系統(tǒng)對識別內(nèi)容的完整性、清晰度及制式化的模板要求,故此在更為廣泛的個人應用上存在缺陷及瓶頸,同時因為硬件設備的使用及個人應用的非固定性局限著識別的廣泛應用。
[0007]例如,隨著人們生活水平的提高,超市購物變得越發(fā)普及,超市購物憑證(下稱超市小票)中記載了大量的消費者消費信息,這些數(shù)據(jù)對于商家或第三方進行分析非常重要。然而,目前主要是通過人工收集和錄入這些信息,非常耗時耗力,而將OCR應用到超市小票識別上會遇到很多問題。
[0008]這是因為超市小票的OCR識別存在很多技術(shù)難點。
[0009]—方面,超市小票的打印存在很多不確定因素。比如說,有些超市采用的是針式打印而有些采用的墨式打印。針式打印小票的OCR識別率較高,而墨式打印,因為是墨,會穿透紙張,造成字體不清楚。如果紙張質(zhì)量不好,識別率很難令人滿意。而且,用戶對超市小票的不當保管可能會造成褶皺,這對識別造成了影響。此外,利用現(xiàn)有的掃描設備來獲取超市小票的圖像存在諸多不便之處,隨著移動終端的普及,更希望用戶通過自己的移動終端進行拍照來獲取超市小票的圖像進行字符識別。但是在這種情況下,移動終端的成像元件的分辨率、拍攝時的光照條件、用戶手部的抖動等,均會造成所獲取的圖像的不清楚,給識別帶來了更多的難題。
[0010]另一方面,在通過采集小票圖像進行OCR識別從而統(tǒng)計消費者的各項消費數(shù)據(jù)的情況下,由于小票數(shù)量非常巨大,對于識別引擎造成了很大的壓力,導致識別效率低下。上述因素造成了 OCR在超市小票識別方面普及率很低。

【發(fā)明內(nèi)容】

[0011]本發(fā)明針對OCR在超市小票識別方面的難題,提供了一種票據(jù)的字符識別方法和字符識別系統(tǒng)。
[0012]根據(jù)本發(fā)明的第一方面,一種票據(jù)的字符識別方法包括以下步驟:圖像獲取步驟,利用用戶終端獲取待識別票據(jù)的圖像;圖像上傳步驟,將所述待識別票據(jù)的圖像上傳至服務器,其中,所述服務器包括基本識別庫、擴展識別庫以及至少第一和第二存儲區(qū),其中,所述基本識別庫和所述擴展識別庫中分別存儲有用于基本字符識別和擴展字符識別的字符樣本,并且,所述基本識別庫中的字符樣本的數(shù)量小于所述擴展識別庫中的字符樣本的數(shù)量;基本字符識別步驟,調(diào)用所述基本識別庫,通過將所述待識別票據(jù)的圖像與存儲在所述基本識別庫中的字符樣本進行比較,對所述待識別票據(jù)的圖像進行所述基本字符識別;識別錯誤率計算步驟,確定識別錯誤的字符數(shù)量,計算識別錯誤率,所述識別錯誤率為識別錯誤的字符數(shù)量與所識別的字符總數(shù)之比;圖像存儲步驟,當所述識別錯誤率小于等于第一閾值時,將所述待識別票據(jù)的圖像存儲到所述第一存儲區(qū),當所述識別錯誤率大于所述第一閾值時,將所述待識別票據(jù)的圖像存儲到所述第二存儲區(qū);擴展字符識別步驟,對于存儲在所述第二存儲區(qū)的所述待識別票據(jù)的圖像,調(diào)用所述擴展識別庫,通過將所述待識別票據(jù)的圖像與存儲在所述擴展識別庫中的字符樣本進行比較,對所述圖像進行所述擴展字符識別。
[0013]根據(jù)本發(fā)明的第二方面,所述擴展識別庫中比所述基本識別庫中多出的字符樣本包含對應字符的異常形態(tài),用于識別所述待識別票據(jù)的圖像中的異常字符。
[0014]根據(jù)本發(fā)明的第三方面,在所述擴展字符識別步驟中,對于存儲在所述第二存儲區(qū)中的所述待識別票據(jù)的圖像,在調(diào)用所述擴展識別庫進行所述擴展字符識別之后,計算識別錯誤率,如果識別錯誤率小于等于所述第一閾值,則將所述待識別票據(jù)的圖像從所述第二存儲區(qū)轉(zhuǎn)移到所述第一存儲區(qū)。
[0015]根據(jù)本發(fā)明的第四方面,所述擴展字符識別步驟還包括:如果識別錯誤率小于等于所述第一閾值,則將成功識別的所述待識別票據(jù)的圖像中的異常字符作為字符樣本補充到所述基本識別庫中。
[0016]根據(jù)本發(fā)明的第五方面,所述服務器還包括第三存儲區(qū),并且所述圖像存儲步驟還包括:當所述識別錯誤率大于所述第一閾值且小于第二閾值時,將所述待識別票據(jù)的圖像存儲到所述第二存儲區(qū),當所述識別錯誤率大于所述第二閾值時,將所述待識別票據(jù)的圖像存儲到所述第三存儲區(qū),其中,所述第二閾值大于所述第一閾值,其中,所述第二閾值大于所述第一閾值,并且所述擴展字符識別步驟還包括:對于存儲在所述第三存儲區(qū)的所述待識別票據(jù)的圖像,調(diào)用所述擴展識別庫,通過將所述待識別票據(jù)的圖像與存儲在所述擴展識別庫中的字符樣本進行比較,對所述待識別票據(jù)的圖像進行所述擴展字符識別。
[0017]根據(jù)本發(fā)明的第六方面,在所述擴展字符識別步驟中,對于存儲在所述第三存儲區(qū)中的所述待識別票據(jù)的圖像,在每次調(diào)用所述擴展識別庫進行所述擴展字符識別之后,計算識別錯誤率,如果識別錯誤率大于所述第一閾值且小于等于所述第二閾值,則將所述待識別票據(jù)的圖像從所述第三存儲區(qū)轉(zhuǎn)移到所述第二存儲區(qū)。
[0018]根據(jù)本發(fā)明的第七方面,所述擴展字符識別步驟還包括:如果識別錯誤率大于所述第一閾值且小于等于所述第二閾值,則將成功識別的所述待識別票據(jù)的圖像中的異常字符作為字符樣本補充到所述擴展識別庫中。
[0019]根據(jù)本發(fā)明的第八方面,在所述擴展字符識別步驟中,反復調(diào)用所述擴展識別庫進行所述擴展字符識別。
[0020]根據(jù)本發(fā)明的第九方面,所述票據(jù)為超市購物小票。
[0021]根據(jù)本發(fā)明的第十方面,所述用戶終端為移動終端。
[0022]根據(jù)本發(fā)明的第十一方面,一種票據(jù)的字符識別系統(tǒng),用于對從用戶終端接收的待識別票據(jù)的圖像進行字符識別,該字符識別系統(tǒng)包括:存儲模塊,其包括基本識別庫、擴展識別庫以及至少第一和第二存儲區(qū),其中,所述基本識別庫和所述擴展識別庫中分別存儲有用于基本字符識別和擴展字符識別的字符樣本,所述基本識別庫中的字符樣本的數(shù)量小于所述擴展識別庫中的字符樣本的數(shù)量;識別模塊,其調(diào)用所述基本識別庫和所述擴展識別庫,通過分別將所述待識別票據(jù)的圖像與存儲在所述基本識別庫和所述擴展識別庫中的字符樣本進行比較,對所述待識別票據(jù)的圖像進行所述基本字符識別和所述擴展字符識別;控制模塊,其確定所述基本字符識別中識別錯誤的字符數(shù)量,計算識別錯誤率,所述識別錯誤率為識別錯誤的字符數(shù)量與所識別的字符總數(shù)之比,當所述識別錯誤率小于等于第一閾值時,所述控制模塊將所述圖像存儲到所述第一存儲區(qū)中,當所述識別錯誤率大于所述第一閾值時,所述控制模塊將所述待識別票據(jù)的圖像存儲到所述第二存儲區(qū)中。
[0023]本發(fā)明的字符識別方法和字符識別系統(tǒng)通過采用異步識別處理,能夠提高票據(jù)的識別率,提高識別速度,并且即使票據(jù)數(shù)量巨大、拍照條件各異、票據(jù)材質(zhì)、印刷質(zhì)量不同,也能夠快速準確地進行識別。
【附圖說明】
[0024]附圖與文字描述一起用來對本發(fā)明的實施方式作進一步的說明。其中:
[0025]圖1示出了本發(fā)明的字符識別方法的總體流程圖。
[0026]圖2示出了本發(fā)明的字符識別方法的異步識別處理的流程圖。
[0027]圖3示出了本發(fā)明的字符識別系統(tǒng)的框圖;
[0028]圖4A示出了存儲在第一存儲區(qū)中的票據(jù)圖像的例子;
[0029]圖4B示出了圖4A中的票據(jù)圖像的識別結(jié)果;
[0030]圖5A示出了存儲在第二存儲區(qū)中的票據(jù)圖像的例子;
[0031 ]圖5B示出了圖4A中的票據(jù)圖像的識別結(jié)果;
[0032]圖6A示出了存儲在第三存儲區(qū)中的票據(jù)圖像的例子;
[0033]圖6B示出了圖5A中的票據(jù)圖像的識別結(jié)果;
[0034]圖7示出了無法識別的票據(jù)圖像的例子。
【具體實施方式】
[0035]為使本領(lǐng)域技術(shù)人員更好地理解本發(fā)明的技術(shù)方案,下面結(jié)合附圖和【具體實施方式】對本發(fā)明提供的字符識別方法和字符識別系統(tǒng)進行詳細描述。在這些附圖中,對于相同或者相當?shù)臉?gòu)成要素,標注相同標號。以下僅為本發(fā)明的字符識別方法和字符識別系統(tǒng)的最佳實施方式,本發(fā)明并不僅限于下述步驟和結(jié)構(gòu)。
[0036]首先參照圖1,圖1示出了本發(fā)明的字符識別方法的總體流程圖。在本文中,以超市小票為例進行說明,但是應當理解,本發(fā)明也可以應用于其他票據(jù)。
[0037]本發(fā)明的字符識別方法包括以下步驟:圖像獲取步驟S100,利用用戶終端拍攝待識別超市小票的圖像;圖像上傳步驟S102,將待識別超市小票的圖像上傳至服務器,其中,服務器包括基本識別庫、擴展識別庫以及至少第一和第二存儲區(qū),其中,基本識別庫和擴展識別庫中分別存儲有用于基本字符識別和擴展字符識別的字符樣本,并且,基本識別庫中的字符樣本的數(shù)量小于擴展識別庫中的字符樣本的數(shù)量;基本字符識別步驟S104,調(diào)用基本識別庫,通過將待識別超市小票的圖像與存儲在基本識別庫中的字符樣本進行比較,對待識別超市小票的圖像進行基本字符識別;識別錯誤率計算步驟S106,確定識別錯誤的字符數(shù)量,計算識別錯誤率,所述識別錯誤率為識別錯誤的字符數(shù)量與所識別的字符總數(shù)之比;圖像存儲步驟S108,當識別錯誤率小于等于第一閾值時,將待識別超市小票的圖像存儲到第一存儲區(qū),當識別錯誤率大于第一閾值時,將待識別超市小票的圖像存儲到第二存儲區(qū);擴展字符識別步驟S110,對于存儲在第二存儲區(qū)的待識別超市小票的圖像,調(diào)用擴展識別庫,通過將待識別超市小票的圖像與存儲在擴展識別庫中的字符樣本進行比較,對圖像進行擴展字符識別。
[0038]如上所述,用戶上傳的超市小票圖像,由于例如褶皺、打印不清楚或拍照抖動等原因,可能包含處于異常形態(tài)的字符。但是這種圖像的比例并不是特別高。這種情況下,通過調(diào)用基本識別庫可以對大部分的小票圖像進行較好的識別。而對于那些通過調(diào)用基本識別庫無法識別的小票圖像,進一步通過調(diào)用擴展識別庫進行識別。
[0039]在本發(fā)明中,擴展識別庫中比基本識別庫中多出的字符樣本包含對應字符的異常形態(tài),用于識別所述待識別超市小票的圖像中的異常字符。
[0040]通過先利用字符樣本數(shù)量較少的基本識別庫進行字符識別,然后利用字符樣本數(shù)量較多并且包含異常形態(tài)字符的擴展識別庫進行字符識別,可以最大程度地提高識別效率,同時降低識別引擎的處理壓力。
[0041]再參照圖1,在擴展字符識別步驟SllO中,對于存儲在第二存儲區(qū)中的待識別超市小票的圖像,在調(diào)用擴展識別庫進行擴展字符識別之后,計算識別錯誤率,如果識別錯誤率小于等于第一閾值,則將待識別超市小票的圖像從第二存儲區(qū)轉(zhuǎn)移到第一存儲區(qū)。
[0042]也就是說,經(jīng)過擴展字符識別達到了特定標準(例如,識別錯誤率小于等于第一閾值)的圖像可以被轉(zhuǎn)移到第一存儲區(qū)中。優(yōu)選地,第一存儲區(qū)中存儲的是被視為成功識別的圖像。第一閾值可以為0%,或者接近0%的任意值,例如5%,10%等。
[0043]圖1中的擴展字符識別步驟SI10還包括:如果識別錯誤率小于等于第一閾值,則將成功識別的待識別小票圖像中的異常字符作為字符樣本補充到基本識別庫中。
[0044]通過不斷地擴充基本識別庫,可以提高后續(xù)字符識別處理的效率。
[0045]本發(fā)明的這種將待識別票據(jù)圖像分為兩檔,分別使用基本識別庫和擴展識別庫進行識別的方法可以稱為“異步識別”。
[0046]應當注意,以上僅僅對服務器只包括第一存儲區(qū)和第二存儲區(qū)的情形進行了說明。然而,根據(jù)情況,服務器還可以包括第三存儲區(qū)或更多存儲區(qū)。也就是說,本發(fā)明的異步識別可以為三檔或更多檔。
[0047]在三檔的情況下,服務器還包括第三存儲區(qū),并且圖像存儲步驟S108還包括:當識別錯誤率大于第一閾值且小于第二閾值時,將待識別小票圖像存儲到第二存儲區(qū),當識別錯誤率大于第二閾值時,將待識別小票圖像存儲到第三存儲區(qū),其中,第二閾值大于第一閾值。
[0048]也就是說,在三擋的情況下,通過兩個閾值對待識別小票圖像進行分類。成功識別的放入第一存儲區(qū),其他的根據(jù)識別錯誤率分別放入第二存儲區(qū)和第三存儲區(qū)。
[0049]這種情況下,擴展字符識別步驟SllO還包括:對于存儲在第三存儲區(qū)的待識別超市小票的圖像,調(diào)用擴展識別庫,通過將待識別超市小票的圖像與存儲在擴展識別庫中的字符樣本進行比較,對待識別超市小票的圖像進行擴展字符識別。
[0050]此外,在擴展字符識別步驟SllO中,對于存儲在第三存儲區(qū)中的待識別超市小票的圖像,在調(diào)用擴展識別庫進行擴展字符識別之后,計算識別錯誤率,如果識別錯誤率大于第一閾值且小于等于第二閾值,則將待識別超市小票的圖像從第三存儲區(qū)轉(zhuǎn)移到第二存儲區(qū)。
[0051]也就是說,經(jīng)過擴展字符識別,如果將識別錯誤率降低到了滿足放入第二存儲區(qū)的標準,則將對應圖像從第三存儲區(qū)轉(zhuǎn)移到第二存儲區(qū)。
[0052]這里,擴展字符識別步驟SllO還包括:如果識別錯誤率大于第一閾值且小于等于第二閾值,則將成功識別的小票圖像中的異常字符作為字符樣本補充到擴展識別庫中。
[0053]也就是說,不斷地擴充擴展識別庫,這樣可以提高后續(xù)字符識別處理的效率。
[0054]在擴展字符識別步驟SlOO中,可以反復調(diào)用所述擴展識別庫進行所述擴展字符識別。
[0055]此外,圖像獲取步驟SlOO中,用戶終端可以是具備拍攝功能的移動終端,例如手機、平板電腦、PDA等。在這種情況下,用戶拍攝超市小票的圖像就尤其方便,可以隨時隨地進行拍攝、上傳。
[0056]下面參照圖2和圖3,結(jié)合具體實施例對本發(fā)明的字符識別方法和字符識別系統(tǒng)做進一步的說明。
[0057]圖2示出了本發(fā)明的字符識別方法的異步識別處理的流程圖。圖3示出了本發(fā)明的字符識別系統(tǒng)的框圖。
[0058]在圖2的流程圖中,待識別小票的圖像被分別放入三個存儲區(qū)。也就是說,異步識別分為三擋進行。
[0059]如圖3所示,本發(fā)明的字符識別系統(tǒng)100包括用戶終端600和服務器700。服務器700包括存儲模塊701、識別模塊702和控制模塊703。存儲模塊701包括基本識別庫706、擴展識別庫708以及第一存儲區(qū)200、第二存儲區(qū)202和第三存儲區(qū)204?;咀R別庫706和擴展識別庫708中分別存儲有用于基本字符識別和擴展字符識別的字符樣本。基本識別庫706中的字符樣本的數(shù)量小于擴展識別庫708中的字符樣本。
[0060]注意,在圖3中,存儲模塊701包括三個存儲區(qū)。但是,這只是本發(fā)明的最佳實施方式,存儲模塊701只包括第一存儲區(qū)200和第二存儲區(qū)202也是可行的。雖然如此,下面仍以圖3為例進行說明。
[0061]如圖2和圖3所示,首先服務器700的識別模塊702調(diào)用基本識別庫706進行基本字符識別(圖1的S106)。然后,控制模塊703計算識別錯誤率(圖1的S108),根據(jù)識別錯誤率執(zhí)行以下操作:確定是否識別正確(S108a)、確定識別錯誤率是否小于等于30%(S108b)、確定識別錯誤率是否小于100%,S卩,是否能夠進行識別(S108c)。這里,第一閾值和第二閾值分別采用了 0%和30%。當然,本領(lǐng)域技術(shù)人員可以根據(jù)需要,靈活設置第一閾值和第二閾值。而步驟SlOSc中的閾值不必為100%,也可以設定為非常高,接近于100%,目的是找出很難進行正常識別的異常小票圖像。
[0062]如果步驟SlOSa中確定結(jié)果為是,S卩,正確識別了小票,則控制模塊703將小票圖像存儲至存儲模塊701的第一存儲區(qū)200。例如,參照圖4,圖4A示出了用戶上傳的小票圖像,這種清晰程度的小票圖像很容易成功識別。圖4B的左側(cè)是被識別的圖像,其中被框線框住的是識別區(qū)域,白色背景顯示的數(shù)字是識別字符結(jié)果。圖4B的右側(cè)示出了所提取的識別字符。
[0063]返回圖2,如果步驟S108a中確定結(jié)果為否,則控制模塊703繼續(xù)進行S108b的確定。
[0064]如果步驟SlOSb中確定結(jié)果為是,S卩,識別錯誤率小于等于30%,則控制模塊703將小票圖像存儲至存儲模塊701的第二存儲區(qū)202。例如,參照圖5,圖5A示出了用戶上傳的小票圖像,這種清晰程度的小票圖像會有部分內(nèi)容無法正確識別。圖5B的左側(cè)是被識別的圖像,其中被框線框住的是識別區(qū)域,白色背景顯示的數(shù)字是識別字符結(jié)果。圖5B的右側(cè)示出了所提取的識別字符。由于將小票圖像中的實收數(shù)額55識別為總價,所以出現(xiàn)了識別錯誤。對于這種小票圖像,可以存儲至存儲模塊701的第二存儲區(qū)202繼續(xù)進行識別。
[0065]返回圖2,如果步驟S108b中確定結(jié)果為否,則控制模塊703繼續(xù)進行S108c的確定。
[0066]如果步驟SlOSc中確定結(jié)果為是,S卩,識別錯誤率小于100% (同時大于30%),則控制模塊703將小票圖像存儲至存儲模塊701的第三存儲區(qū)204。例如,參照圖6,圖6A示出了用戶上傳的小票圖像,這種清晰程度的小票圖像會有部分內(nèi)容無法正確識別。圖6B的左側(cè)是被識別的圖像,其中被框線框住的是識別區(qū)域,白色背景顯示的數(shù)字是識別字符結(jié)果。圖6B的右側(cè)示出了所提取的識別字符。由于小票圖像中的多處內(nèi)容出現(xiàn)了識別錯誤,所以,對于這種小票圖像,可以存儲至存儲模塊701的第三存儲區(qū)204繼續(xù)進行識別。
[0067]如果步驟SlOSc中確定結(jié)果為否,S卩,根本無法識別,則控制模塊703停止對小票圖像進行處理。這種情況下,有可能是用戶的手機的成像元件的故障造成的,或者可能是票據(jù)時間太久,打印內(nèi)容被磨損的程度太嚴重,或者也可能就是用戶胡亂拍攝或者誤操作而上傳的圖像。例如,圖7給出了這種小票圖像的例子。對于此類圖像,可以停止進行識別處理,例如,可以將其丟棄。
[0068]在本發(fā)明的異步識別處理中,對于存儲在存儲模塊701的第一存儲區(qū)200中的小票圖像,控制模塊703可以直接提取字符內(nèi)容(步驟S112)。而對于存儲在存儲模塊701的第二存儲區(qū)202和第三存儲區(qū)204中的小票圖像,控制模塊703需要調(diào)用擴展識別庫708繼續(xù)進行識別。下面具體進行說明。
[0069]服務器700的控制模塊703調(diào)用擴展識別庫708對存儲在存儲模塊701的第三存儲區(qū)204中的圖像進行擴展字符識別(步驟S114),計算識別錯誤率(步驟S206),如果識別錯誤率小于等于30% (步驟S206為是),則控制模塊703將對應圖像從存儲模塊701的第三存儲區(qū)204轉(zhuǎn)移到第二存儲區(qū)202。
[0070]另外,服務器700的控制模塊703調(diào)用擴展識別庫708對存儲在第二存儲區(qū)202中的圖像進行擴展字符識別(步驟S114),計算識別錯誤率(步驟S206),如果識別正確(步驟S208為是),則控制模塊703將對應圖像從存儲模塊701的第二存儲區(qū)202轉(zhuǎn)移到第一存儲區(qū)200。
[0071]需要注意的是,步驟S114中的擴展字符識別可以反復進行。例如,可以按照預定的周期進行,比如每小時進行一次。
[0072]如上所述,本發(fā)明的異步識別首先調(diào)用基本識別庫對圖像進行處理,根據(jù)識別錯誤率將圖像分為三檔以上,歸入對應的存儲區(qū),只有第一存儲區(qū)中的圖像是識別正確的,其他存儲區(qū)中的圖像的識別錯誤率逐漸增大。然后調(diào)用擴展識別庫對除了第一存儲區(qū)以外的所有存儲區(qū)中的圖像進行反復識別,一旦發(fā)現(xiàn)識別錯誤率達到了上一級的標準,就將該圖像上移一檔。最后一檔中如果實在無法識別,可以停止進行識別。
[0073]在本發(fā)明中,基本識別庫706中的字符樣本的數(shù)量小于擴展識別庫中708的字符樣本的數(shù)量。因此,在小票圖像的數(shù)量非常大的情況下,首先調(diào)用字符樣本數(shù)量小的基本識別庫706進行識別,然后再調(diào)用擴展識別庫708對無法正確識別的小票圖像進行識別。
[0074]本發(fā)明的這種異步識別處理,相比現(xiàn)有技術(shù)的同步識別處理,能夠提高識別速度,降低識別引擎的處理壓力。
[0075]下面結(jié)合圖4至圖7具體說明圖2中對小票圖像的分類。
[0076]圖4A示出了存儲在第一存儲區(qū)200中的小票圖像的例子。圖4B示出了圖4A中的小票圖像的識別結(jié)果。
[0077]如圖4A和圖4B所示,對于打印清楚且用戶拍攝清楚的小票圖像,可以準確地識別出圖像中的字符內(nèi)容。對于這種情況,可以隨時提取字符內(nèi)容,對其中的數(shù)據(jù)信息進行統(tǒng)計、加工或分析。
[0078]圖5A示出了存儲在第二存儲區(qū)202中的小票圖像的例子。圖5B示出了圖5A中的小票圖像的識別結(jié)果。
[0079]如圖5A和圖5B所示,對于打印不太清楚或者用戶拍攝不太清楚的小票圖像,可能會存在一定程度的識別錯誤,實際錯誤率小于等于30%。例如,如圖5所示,將小票中的“實收”項目識別為總價,但是其他內(nèi)容均識別正確。對于這種情況,可以調(diào)用擴展識別庫708反復進行識別,直到識別準確為止。當然,這里的識別準確可以是滿足一定閾值,而不必為識別錯誤率0%。例如,可以認為識別錯誤率10%即表示準確識別。
[0080]圖6A示出了存儲在第三存儲區(qū)204中的小票圖像的例子。圖6B示出了圖6A中的小票圖像的識別結(jié)果。
[0081]如圖6A和圖6B所示,相比圖5的情況,識別結(jié)果中,識別錯誤率更高,例如,實際錯誤率大于30%。例如,小票圖像左側(cè)下方的“018316”被錯誤地識別為“0183.6”。而且,對應的價格“21.80”被錯誤地識別為“80” ο
[0082]對于這種情況,類似于圖5A和圖5B的情況,可以調(diào)用擴展識別庫708反復進行識另Ij,直到識別錯誤率小于等于30%為止。當然,這里優(yōu)選采用30%作為第二閾值,但是也可以采用其他值作為第二閾值。例如,可以采用識別錯誤率40%、50%等。
[0083]圖7示出了無法識別的小票圖像的例子。
[0084]如圖7所示,由于小票自身原因或者用戶拍攝原因,造成小票圖像無法識別,這種情況下,人工介入來進行確定。人工介入包括人工識別小票圖像,對于能夠識別的,將識別結(jié)果補充到擴展識別庫中,以便完善隨后的字符識別。對于不能夠識別的,可以丟棄該小票圖像。這種不能識別的圖像有可能是用戶誤操作所致,也可能是小票打印質(zhì)量太差所致。
[0085]以上參照圖1至圖7對本發(fā)明的字符識別方法和字符識別系統(tǒng)進行了說明。
[0086]需要注意的是,在本發(fā)明的字符識別方法和字符識別系統(tǒng)中,進行識別之前,可以對圖像進行預處理,包括將圖像灰度化、二值化、噪聲去除、傾斜校正、字符切割以達到統(tǒng)一格式。
[0087]另外,可以將存儲在第二存儲區(qū)202中的小票圖像分為若干個層級,層級劃分的原則可以是識別率。針對不同層級,處理邏輯存在差異。例如,對于層級高(識別率高)的圖像,只需要識別指定區(qū)域或指定字段,對于層級低(識別率低)的圖像,還需要再次進行圖像處理,提升圖像的清晰度,以便增大識別率。這樣可以進一步提高識別效率,降低識別引擎的處理壓力。
[0088]另外,如上所述,基本識別庫76和擴展識別庫708都是動態(tài)更新的。
[0089]例如,參照圖2,在步驟S206和S208中,如果確定結(jié)果為是,則控制模塊703將得到的關(guān)鍵識別元素補充到擴展識別庫708中。同樣,如果步驟SlOSa中確定結(jié)果為是,則控制模塊703將得到的關(guān)鍵識別元素補充到基本識別庫706中。
[0090]另外,如上所述,如果步驟SlOSc中確定結(jié)果為否,從而進行人工介入,根據(jù)人工分析判斷的結(jié)果,如果的確無法識別,則可以丟棄該小票圖像,而如果可以識別出某些元素,則可以將這些關(guān)鍵識別元素補充到擴展識別庫708中。
[0091]因此,隨著小票識別數(shù)量的不斷增大,基本識別庫706和擴展識別庫708中的字符樣本數(shù)量也隨著增大,進一步增大了后續(xù)小票識別的識別率。
[0092]以上對本發(fā)明的字符識別方法進行了詳細說明。下面對本發(fā)明的字符識別系統(tǒng)進行說明。
[0093]參照圖3,用戶可以利用移動終端600拍攝超市小票的圖像。這里,移動終端可以是具備拍攝功能的手機。然后,超市小票的圖像被上傳至服務器700。
[0094]然后,服務器700的識別模塊702調(diào)用基本識別庫706,通過將圖像與存儲在基本識別庫706中的字符樣本進行比較,對圖像進行字符識別??刂颇K703確定識別錯誤的字符數(shù)量,計算識別錯誤率,識別錯誤率為識別錯誤的字符數(shù)量與所識別的字符總數(shù)之比。
[0095]當識別錯誤率小于等于第一閾值時,控制模塊703將圖像存儲到服務器700的第一存儲區(qū)200中,當識別錯誤率大于第一閾值且小于第二閾值時,控制模塊703將圖像存儲到服務器700的第二存儲區(qū)202中,而當識別錯誤率大于第二閾值時,控制模塊703將圖像存儲到服務器700的第三存儲區(qū)204中。
[0096]也就是說,根據(jù)識別錯誤率將圖像分為三類,分別歸入對應的存儲區(qū)。
[0097]對于存儲在存儲模塊701的第二存儲區(qū)202和第三存儲區(qū)204中的圖像,識別模塊702反復調(diào)用擴展識別庫708,通過將圖像與存儲在擴展識別庫708中的字符樣本進行比較,對圖像進行擴展字符識別。
[0098]下面詳細說明服務器700的操作。首先服務器700的識別模塊702調(diào)用存儲模塊701中的基本識別庫706進行基本字符識別。然后,控制模塊703確定識別錯誤率(圖1的S108),根據(jù)識別錯誤率執(zhí)行以下操作:確定是否識別正確(S108a)、確定識別錯誤率是否小于等于30% (S108b)、確定識別錯誤率是否小于100% (S108c)。這里,圖1中的第一閾值和第二閾值分別采用了0%和30%。當然,本領(lǐng)域技術(shù)人員可以根據(jù)需要,靈活設置第一閾值和第二閾值。
[0099]如果步驟SlOSa中確定結(jié)果為是,S卩,正確識別了小票,則控制模塊703將小票圖像存儲至服務器700的第一存儲區(qū)200。如果步驟S108a中確定結(jié)果為否,則控制模塊703繼續(xù)進行S108b的確定。
[0100]如果步驟SlOSb中確定結(jié)果為是,S卩,識別錯誤率小于等于30%,則控制模塊703將小票圖像存儲至第二存儲區(qū)202。如果步驟S108b中確定結(jié)果為否,則控制模塊703繼續(xù)進行S108c的確定。
[0101]如果步驟S108C中確定結(jié)果為是,S卩,識別錯誤率小于100%,則控制模塊703將小票圖像存儲至第三存儲區(qū)204。如果步驟SlOSc中確定結(jié)果為否,則停止對小票圖像進行識別處理。
[0102]在本發(fā)明的異步識別處理中,對于存儲在第一存儲區(qū)200中的小票圖像,可以直接提取字符內(nèi)容(步驟S112)。而對于存儲在第二存儲區(qū)202和第三存儲區(qū)204中的小票圖像,需要調(diào)用擴展識別庫反復進行識別。下面具體進行說明。
[0103]識別模塊702調(diào)用擴展識別庫708對存儲在第三存儲區(qū)204中的圖像進行擴展字符識別(步驟S110)。
[0104]控制模塊703計算識別錯誤率(步驟S206)。如果識別錯誤率小于等于30% (步驟S206為是),則控制模塊703將對應圖像從第三存儲區(qū)204轉(zhuǎn)移到第二存儲區(qū)202。
[0105]同時,識別模塊702調(diào)用擴展識別庫708對存儲在第二存儲區(qū)202中的圖像進行擴展字符識別(步驟S110)。
[0106]控制模塊703計算識別錯誤率(步驟S206)。如果識別正確(步驟S208為是),則控制模塊703將對應圖像從第二存儲區(qū)202轉(zhuǎn)移到第一存儲區(qū)200。
[0107]在本發(fā)明中,基本識別庫706中的字符樣本的數(shù)量小于擴展識別庫708中的字符樣本的數(shù)量。并且擴展識別庫708中包含了異常形態(tài)字符的字符樣本。因此,通過至少兩檔的異步識別處理,原本無法識別或者識別率低的圖像能夠得到很好的識別。并且,在小票圖像的數(shù)量非常大的情況下,首先調(diào)用字符樣本數(shù)量小的基本識別庫706進行識別,然后再調(diào)用擴展識別庫708對無法正確識別的小票圖像進行識別,這種異步識別處理,通過采用多線程處理,相比現(xiàn)有技術(shù)的同步識別,能夠提高識別速度、降低識別引擎的處理壓力。
[0108]以上結(jié)合【具體實施方式】對本發(fā)明的目的、技術(shù)方案和有益效果進行了進一步詳細說明。應理解的是,以上僅僅是出于例示的目的介紹了本發(fā)明的【具體實施方式】,并不是要限制本發(fā)明。凡在本發(fā)明的精神和原則之內(nèi)所做的任何修改、等同替換、改進等,均應包含在本發(fā)明的保護范圍之內(nèi)。
【主權(quán)項】
1.一種票據(jù)的字符識別方法,包括以下步驟: 圖像獲取步驟,利用用戶終端獲取待識別票據(jù)的圖像; 圖像上傳步驟,將所述待識別票據(jù)的圖像上傳至服務器,其中,所述服務器包括基本識別庫、擴展識別庫以及至少第一和第二存儲區(qū),其中,所述基本識別庫和所述擴展識別庫中分別存儲有用于基本字符識別和擴展字符識別的字符樣本,所述基本識別庫中的字符樣本的數(shù)量小于所述擴展識別庫中的字符樣本的數(shù)量; 基本字符識別步驟,調(diào)用所述基本識別庫,通過將所述待識別票據(jù)的圖像與存儲在所述基本識別庫中的字符樣本進行比較,對所述待識別票據(jù)的圖像進行所述基本字符識別; 識別錯誤率計算步驟,確定識別錯誤的字符數(shù)量,計算識別錯誤率,所述識別錯誤率為識別錯誤的字符數(shù)量與所識別的字符總數(shù)之比; 圖像存儲步驟,當所述識別錯誤率小于等于第一閾值時,將所述待識別票據(jù)的圖像存儲到所述第一存儲區(qū),當所述識別錯誤率大于所述第一閾值時,將所述待識別票據(jù)的圖像存儲到所述第二存儲區(qū); 擴展字符識別步驟,對于存儲在所述第二存儲區(qū)的所述待識別票據(jù)的圖像,調(diào)用所述擴展識別庫,通過將所述待識別票據(jù)的圖像與存儲在所述擴展識別庫中的字符樣本進行比較,對所述圖像進行所述擴展字符識別。2.根據(jù)權(quán)利要求1所述的字符識別方法,其中, 所述擴展識別庫中比所述基本識別庫中多出的字符樣本包含對應字符的異常形態(tài),用于識別所述待識別票據(jù)的圖像中的異常字符。3.根據(jù)權(quán)利要求2所述的字符識別方法,其中, 在所述擴展字符識別步驟中,對于存儲在所述第二存儲區(qū)中的所述待識別票據(jù)的圖像,在調(diào)用所述擴展識別庫進行所述擴展字符識別之后,計算識別錯誤率,如果識別錯誤率小于等于所述第一閾值,則將所述待識別票據(jù)的圖像從所述第二存儲區(qū)轉(zhuǎn)移到所述第一存儲區(qū)。4.根據(jù)權(quán)利要求3所述的字符識別方法,其中,所述擴展字符識別步驟還包括:對于存儲在所述第二存儲區(qū)中的所述待識別票據(jù)的圖像,如果識別錯誤率小于等于所述第一閾值,則將成功識別的所述待識別票據(jù)的圖像中的異常字符作為字符樣本補充到所述基本識別庫中。5.根據(jù)權(quán)利要求2所述的字符識別方法,其中,所述服務器還包括第三存儲區(qū),并且 所述圖像存儲步驟還包括:當所述識別錯誤率大于所述第一閾值且小于第二閾值時,將所述待識別票據(jù)的圖像存儲到所述第二存儲區(qū),當所述識別錯誤率大于所述第二閾值時,將所述待識別票據(jù)的圖像存儲到所述第三存儲區(qū),其中,所述第二閾值大于所述第一閾值,并且 所述擴展字符識別步驟還包括:對于存儲在所述第三存儲區(qū)的所述待識別票據(jù)的圖像,調(diào)用所述擴展識別庫,通過將所述待識別票據(jù)的圖像與存儲在所述擴展識別庫中的字符樣本進行比較,對所述待識別票據(jù)的圖像進行所述擴展字符識別。6.根據(jù)權(quán)利要求5所述的字符識別方法,其中, 在所述擴展字符識別步驟中,對于存儲在所述第三存儲區(qū)中的所述待識別票據(jù)的圖像,在調(diào)用所述擴展識別庫進行所述擴展字符識別之后,計算識別錯誤率,如果識別錯誤率大于所述第一閾值且小于等于所述第二閾值,則將所述待識別票據(jù)的圖像從所述第三存儲區(qū)轉(zhuǎn)移到所述第二存儲區(qū)。7.根據(jù)權(quán)利要求6所述的字符識別方法,其中,所述擴展字符識別步驟還包括:對于存儲在所述第三存儲區(qū)的所述待識別票據(jù)的圖像,如果識別錯誤率大于所述第一閾值且小于等于所述第二閾值,則將成功識別的所述待識別票據(jù)的圖像中的異常字符作為字符樣本補充到所述擴展識別庫中。8.根據(jù)權(quán)利要求1或5所述的字符識別方法,其中,在所述擴展字符識別步驟中,反復調(diào)用所述擴展識別庫進行所述擴展字符識別。9.根據(jù)權(quán)利要求2至7中任意一項所述的字符識別方法,其中,所述票據(jù)為超市購物小西 ο10.根據(jù)權(quán)利要求2至7中任意一項所述的字符識別方法,其中,所述用戶終端為移動終端。11.一種票據(jù)的字符識別系統(tǒng),用于對從用戶終端接收的待識別票據(jù)的圖像進行字符識別,該字符識別系統(tǒng)包括: 存儲模塊,其包括基本識別庫、擴展識別庫以及至少第一和第二存儲區(qū),其中,所述基本識別庫和所述擴展識別庫中分別存儲有用于基本字符識別和擴展字符識別的字符樣本,所述基本識別庫中的字符樣本的數(shù)量小于所述擴展識別庫中的字符樣本的數(shù)量; 識別模塊,其調(diào)用所述基本識別庫和所述擴展識別庫,通過分別將所述待識別票據(jù)的圖像與存儲在所述基本識別庫和所述擴展識別庫中的字符樣本進行比較,對所述待識別票據(jù)的圖像進行所述基本字符識別和所述擴展字符識別; 控制模塊,其確定所述基本字符識別中識別錯誤的字符數(shù)量,計算識別錯誤率,所述識別錯誤率為識別錯誤的字符數(shù)量與所識別的字符總數(shù)之比,當所述識別錯誤率小于等于第一閾值時,所述控制模塊將所述圖像存儲到所述第一存儲區(qū)中,當所述識別錯誤率大于所述第一閾值時,所述控制模塊將所述待識別票據(jù)的圖像存儲到所述第二存儲區(qū)中。
【文檔編號】G06K9/32GK105956590SQ201610269949
【公開日】2016年9月21日
【申請日】2016年4月27日
【發(fā)明人】任威倫, 金燕, 李保城, 趙輝, 馮利光, 孫順博
【申請人】泰合鼎川物聯(lián)科技(北京)股份有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1