專利名稱:用于內(nèi)容識別的系統(tǒng)和方法
技術(shù)領(lǐng)域:
本發(fā)明涉及掃描圖像分割,具體上涉及識別在被掃描的文件中的文本、圖像和藝 術(shù)線條內(nèi)容。
背景技術(shù):
諸如絕版(out-of-print)書籍之類的硬拷貝文件的傳統(tǒng)數(shù)字化是緩慢和困難 的。部分地,所述困難起因于識別在給定文件中的各種類型內(nèi)容的需要。一些典型內(nèi)容類 型是文本、圖像和藝術(shù)線條。文本一般包括具有一致大小的小字符或符號。藝術(shù)線條一般 包括線條和圖案的繪制圖。圖像一般包括具有許多中間級(諸如灰度)來描繪某個畫面的 畫面。文本和藝術(shù)線條基本上是雙級的(例如黑和白)。相反,圖像具有更多的半色調(diào)形式 的灰度級(例如在8位系統(tǒng)中的256級)(例如,近似于中間色或陰影——諸如灰色——的 空間分布的高分辨率像素)。術(shù)語“掃描內(nèi)容”在此用于指被掃描和數(shù)字化的任何內(nèi)容。術(shù)語“圖像內(nèi)容”指在 掃描內(nèi)容中的特定類型的內(nèi)容、半色調(diào)圖像。其他類型的內(nèi)容包括文本和藝術(shù)線條,如上所 述。為了保持掃描內(nèi)容的優(yōu)質(zhì)再現(xiàn),可以不同的方式來處理不同的內(nèi)容類型。但是,為了以 不同的方式來處理不同的內(nèi)容類型,可能需要首先識別每個內(nèi)容類型。一種傳統(tǒng)的掃描技術(shù)使用在文件中的不同內(nèi)容類型的人工識別。例如,一個人在 內(nèi)容段周圍物理地繪制矩形限制的方框或其他標識符,以指示應(yīng)當以某種方式來處理所述 被限制的內(nèi)容。內(nèi)容段指具有一致內(nèi)容類型的掃描文件或掃描內(nèi)容的一部分??梢园凑?默認處理模式來處理在所述限制方框之外的內(nèi)容。因此,在一個示例中,一個人可以在半 色調(diào)圖像段周圍而不是在文本段周圍繪制矩形限制方框。所述半色調(diào)圖像可以被去遮蔽 (descreen)以去除半色調(diào),并且可以將文本簡單地按比例放大到較高的分辨率,并且將閾 值按比例變?yōu)閮杉?。傳統(tǒng)的去遮蔽使用用于將半色調(diào)平滑為共色(contone)圖像的算法。 不幸的是,這種用于在圖像周圍繪制矩形限制方框的傳統(tǒng)方法緩慢并且成本大。另一種傳統(tǒng)的掃描技術(shù)使用局部優(yōu)化,局部優(yōu)化使用在掃描內(nèi)容中的局部信息, 確定是否應(yīng)當將內(nèi)容段當作兩級文本和藝術(shù)線條或半色調(diào)圖像。但是,局部優(yōu)化沒有足夠 的信息來將掃描文件分割為可以按照每個段的內(nèi)容類型而不同地處理的獨立內(nèi)容段。結(jié) 果,局部優(yōu)化掃描技術(shù)可導(dǎo)致降低的圖像質(zhì)量。從上述的討論應(yīng)當清楚的是,需要一種用于克服傳統(tǒng)掃描分段技術(shù)的裝置、系統(tǒng)和方法。有益的是,這樣的裝置、系統(tǒng)和方法將比人工分段更快和簡單。另外,這樣的裝置、 系統(tǒng)和方法將比局部優(yōu)化技術(shù)更準確。
發(fā)明內(nèi)容
響應(yīng)于本領(lǐng)域的當前狀態(tài),具體上響應(yīng)于還沒有由當前的掃描分段技術(shù)完全解決 的本領(lǐng)域內(nèi)的問題和需要,已經(jīng)開發(fā)了本發(fā)明的幾個實施例。因此,本發(fā)明已經(jīng)被開發(fā)來提 供一種用于掃描分段的裝置、系統(tǒng)和方法,其克服了在本領(lǐng)域內(nèi)的許多或全部上述缺陷。本發(fā)明的各實施例便于掃描分段。具體上,某些實施例自動化掃描分段,包括識別 段和每個段的內(nèi)容類型。用于識別在掃描內(nèi)容中的內(nèi)容的裝置配備邏輯單元,它包括多個模塊,它們被配 置來在功能上執(zhí)行掃描分段所需要的操作。在所述實施例中的這些模塊包括圖像模塊、修 改模塊、識別模塊、分段模塊、面積計算模塊、面積比較模塊、子圖像模塊、直方圖計算模塊、 直方圖比較模塊和相鄰模塊。在一個實施例中,所述圖像模塊訪問掃描內(nèi)容數(shù)據(jù)集。所 述掃描內(nèi)容數(shù)據(jù)集可以作為修改內(nèi)容數(shù)據(jù)集的基礎(chǔ),所述修改內(nèi)容數(shù)據(jù)集繼而可以用于識 別掃描內(nèi)容的可能內(nèi)容類型。
在一個實施例中,所述修改模塊從掃描內(nèi)容數(shù)據(jù)集建立修改內(nèi)容數(shù)據(jù)集。為了建 立修改內(nèi)容數(shù)據(jù)集,修改模塊可以向掃描內(nèi)容數(shù)據(jù)集應(yīng)用數(shù)學(xué)函數(shù)。在一個實施例中,所述 修改模塊向掃描內(nèi)容數(shù)據(jù)集應(yīng)用S形函數(shù),以便建立修改內(nèi)容數(shù)據(jù)集。在一個實施例中,所述識別模塊識別在修改內(nèi)容數(shù)據(jù)集內(nèi)的內(nèi)容段。所述識別模 塊可以使用8相鄰連接性確定來識別修改內(nèi)容數(shù)據(jù)集的內(nèi)容段。在一個實施例中,所述分段模塊識別在修改內(nèi)容數(shù)據(jù)集內(nèi)的內(nèi)容段的內(nèi)容段類 型。對應(yīng)地,所述分段模塊識別掃描內(nèi)容數(shù)據(jù)集的內(nèi)容段的內(nèi)容段類型。在一個實施例中, 所述分段模塊響應(yīng)于所計算的段表面面積小于預(yù)定的最小圖像表面面積的判定,將內(nèi)容段 的內(nèi)容段類型識別為文本。在一個實施例中,如果所述段表面面積不小于預(yù)定的最小圖像表面面積,則分段 模塊響應(yīng)于修改內(nèi)容直方圖類似于掃描內(nèi)容直方圖的判定,將內(nèi)容段的內(nèi)容段類型識別為 藝術(shù)線條。否則,所述分段模塊可以響應(yīng)于所述修改內(nèi)容直方圖不類似于掃描內(nèi)容直方圖 的判定,將內(nèi)容段的內(nèi)容段類型識別為圖像。或者,所述分段模塊可以將所述內(nèi)容段類型識 別為另一內(nèi)容類型。在一個實施例中,所述面積計算模塊計算在修改內(nèi)容數(shù)據(jù)集內(nèi)的內(nèi)容段的段表面 面積。在一個實施例中,所述面積比較模塊將所計算的內(nèi)容段的段表面面積與預(yù)定的最小 圖像表面面積相比較。在一個實施例中,所述子圖像模塊定義子圖像窗口,它包括其大小被確定為等于 或大于所述最小圖像表面面積的內(nèi)容段。所述子圖像窗口可以用于識別修改內(nèi)容數(shù)據(jù)集的 數(shù)據(jù)的一部分或掃描內(nèi)容數(shù)據(jù)集的對應(yīng)部分。在一個實施例中,所述子圖像窗口可以是矩 形的,其寬度和高度近似等于但是略大于所選擇的內(nèi)容段的所計算的寬度和高度。或者,所 述子圖像窗口可以使用其他形狀的各種大小或輪廓。在一個實施例中,所述直方圖計算模塊計算用于描述掃描內(nèi)容數(shù)據(jù)集的掃描內(nèi)容 直方圖。具體上,所述直方圖計算模塊可以計算對應(yīng)于被應(yīng)用到掃描內(nèi)容數(shù)據(jù)集的子圖像 窗口的掃描內(nèi)容立方圖。類似地,所述直方圖計算模塊可以計算對應(yīng)于被應(yīng)用到修改內(nèi)容 數(shù)據(jù)集的子圖像窗口的修改內(nèi)容直方圖。在一個實施例中,所述直方圖比較模塊將修改內(nèi) 容直方圖與掃描內(nèi)容直方圖相比較。
在一個實施例中,所述相鄰模塊將預(yù)定范圍的像素值轉(zhuǎn)換為在預(yù)定范圍內(nèi)的單個 像素值,換句話說,所述相鄰模塊向在某組像素值內(nèi)的每個像素分配單個像素值。所述相鄰 模塊可以對于對應(yīng)于單色通道或多色通道的修改內(nèi)容數(shù)據(jù)集執(zhí)行這樣的分組操作。一種本發(fā)明的系統(tǒng)也被提供來識別在掃描文件內(nèi)的內(nèi)容。所述系統(tǒng)可以被體現(xiàn)為 具有掃描器、電子存儲器件和分段裝置的掃描器系統(tǒng)。所述掃描器捕獲和數(shù)字化具有內(nèi)容 段的掃描內(nèi)容。所述電子數(shù)據(jù)存儲器件存儲用于描述所述數(shù)字化的掃描內(nèi)容的掃描內(nèi)容數(shù) 據(jù)集。所述分段裝置識別內(nèi)容段的內(nèi)容段類型。所述系統(tǒng)也可包括用戶界面、捕獲模塊和 數(shù)字化模塊。一種信號承載介質(zhì)也被提供來存儲程序,所述程序當被執(zhí)行時執(zhí)行識別在掃描內(nèi) 容內(nèi)的內(nèi)容的操作。在一個實施例中,所述操作包括通過向掃描內(nèi)容數(shù)據(jù)集應(yīng)用S形函數(shù) 來建立修改內(nèi)容數(shù)據(jù)集;識別在修改內(nèi)容數(shù)據(jù)集內(nèi)的內(nèi)容段;并且在修改的掃描數(shù)據(jù)和原 始掃描數(shù)據(jù)之間比較數(shù)據(jù)。在進一步的實施例中,所述操作可以包括確定與基本上黑色的像素的8相鄰連 接性,并且識別在所述內(nèi)容段內(nèi)的所有像素。在進一步的實施例中,所述操作可以包括計 算在修改內(nèi)容數(shù)據(jù)集內(nèi)的內(nèi)容段的段表面面積,將所述段表面面積與最小的圖像表面面積 相比較并且/或者響應(yīng)于所述段表面面積小于所述最小圖像表面面積的判定,將內(nèi)容段 的內(nèi)容段類型識別為文本。在進一步的實施例中,所述操作可以包括響應(yīng)于內(nèi)容段不是文本的判定,定義包 括內(nèi)容段的子圖像窗口 ;計算對應(yīng)于所述子圖像窗口的掃描內(nèi)容直方圖;計算對應(yīng)于子圖 像窗口的修改的掃描內(nèi)容直方圖;并且/或者,將修改的掃描內(nèi)容直方圖與所述掃描內(nèi)容 直方圖相比較。在進一步的實施例中,所述操作可以包括響應(yīng)于所述修改的掃描內(nèi)容直方 圖類似于所述掃描內(nèi)容直方圖的判定,將內(nèi)容段的內(nèi)容段類型識別為藝術(shù)線條;響應(yīng)于所 述修改的掃描內(nèi)容直方圖不類似于所述掃描內(nèi)容直方圖的判定,將內(nèi)容段的內(nèi)容段類型識 別為圖像;并且/或者,將預(yù)定范圍的像素值轉(zhuǎn)換為在所述預(yù)定范圍的像素值內(nèi)的單個像 素值。有益的是,所提供的實施例自動地識別掃描內(nèi)容的段,并且識別每個段的內(nèi)容類 型。各個段的內(nèi)容類型的識別便于按照其內(nèi)容類型而適當?shù)靥幚砻總€段。另外,這樣的掃 描分段提高了掃描數(shù)字化和再現(xiàn)的質(zhì)量。遍及本說明書對于特征、優(yōu)點或類似的語言的引用,不意味著可以使用本發(fā)明實 現(xiàn)的所有特征和優(yōu)點應(yīng)當處于或處于本發(fā)明的任何單個實施例中。而是,引用所述特征和 優(yōu)點的語言被明白表示結(jié)合一個實施例所述的具體特征、優(yōu)點或特性被包括在本發(fā)明的 至少一個實施例中。因此,遍及本說明書對于特征和優(yōu)點和類似的語言的討論可以但不必 然指向同一實施例。而且,可以在一個或多個實施例中以任何適當?shù)姆绞絹斫M合本發(fā)明的所述特征、優(yōu)點和特性。本領(lǐng)域內(nèi)的技術(shù)人員將會認識到可以在沒有特定實施例的一個或多個具體 特征或優(yōu)點的情況下實踐本發(fā)明。在其他情況下,在某些實施例中可識別本發(fā)明的所有實 施例中可能未提供的另外的特征和優(yōu)點。本發(fā)明的這些特征和優(yōu)點通過下面的說明和權(quán)利要求將變得更充分清楚,或者可 以通過實踐如以下給出的本發(fā)明來獲知。
為了會容易地了解本發(fā)明的優(yōu)點,將通過參見在附圖中圖解的具體實施例,提供 如上簡述的本發(fā)明的更具體的說明。在了解這些附圖僅僅描述本發(fā)明的典型實施例、因此 不被視為限制其范圍的情況下,將通過使用附圖來額外具體和詳細地描述和解釋本發(fā)明, 附圖中圖1是圖解掃描器系統(tǒng)的一個實施例的示意方框圖;圖2是圖解分段裝置的一個實施例的示意方框圖;圖3是圖解具有各種類型的內(nèi)容的文件的一個實施例的示意方框圖;圖4是圖解S形函數(shù)的一個實施例的示意曲線圖;圖5是圖解像素陣列的一個實施例的示意方框圖;圖6是圖解分段方法的一個實施例的示意流程圖;圖7是圖解分段識別方法的一個實施例的示意流程圖;以及圖8是圖解類型識別 方法的一個實施例的示意流程圖。
具體實施例方式在本說明書中所述的許多功能單元已經(jīng)被標注為模塊,以便更具體地強調(diào)它們的 實現(xiàn)獨立性。例如,可以將模塊實現(xiàn)為硬件電路,它包括定制的VLSI (超大規(guī)模集成電路) 或門陣列、諸如邏輯芯片、晶體管或其他離散分段的現(xiàn)成半導(dǎo)體。模塊也可以被實現(xiàn)在可編 程硬件器件中,諸如現(xiàn)場可編程門陣列、可編程陣列邏輯或可編程邏輯器件等。也可以以通過各種類型的處理器執(zhí)行的軟件來實現(xiàn)模塊??蓤?zhí)行代碼的被識別模 塊可以例如包括計算機指令的一個或多個物理或者邏輯塊,其例如被組織為對象、過程或 功能。盡管如此,被識別模塊的可執(zhí)行部分不必物理地位于一起,而是可以包括在不同位置 存儲的全異指令,其當在邏輯上結(jié)合在一起時包括所述模塊,并且實現(xiàn)所述模塊的所述目 的。事實上,可執(zhí)行代碼的模塊可以是單個指令或多個指令,并且可以甚至被分布在 幾個不同的代碼段上、在不同的程序之間和跨越幾個存儲器件。類似地,操作數(shù)據(jù)可以在此 在各模塊內(nèi)被識別和圖解,并且可以以任何適當?shù)男问奖惑w現(xiàn)并且被組織在任何適當類型 的數(shù)據(jù)結(jié)構(gòu)中。所述操作數(shù)據(jù)可以被匯集為單個數(shù)據(jù)集,或者可以被分布在包括不同存儲 器件上的不同位置上,并且可以至少部分地僅僅作為在系統(tǒng)或網(wǎng)絡(luò)上的電子信號存在。圖1說明了掃描器系統(tǒng)100的一個實施例。所圖解的掃描器系統(tǒng)100包括中央處 理單元(CPU) 102,用戶界面104和電子存儲器件106。所圖解的掃描器系統(tǒng)100也包括捕 獲模塊108、數(shù)字化模塊110和分段裝置112。CPU 102處理算術(shù)和邏輯運算以及控制指令。在一個實施例中,用戶界面104包括 硬件和軟件,以便于向掃描器系統(tǒng)100中輸入用戶命令以及向用戶顯示或另外通信來自掃 描器系統(tǒng)100的信息。用戶界面104可以包括硬件和軟件,所述硬件諸如鍵盤、可視顯示器 等,所述軟件諸如命令提示、圖形用戶界面(GUI)、菜單等。捕獲模塊108便于使用硬件和/或軟件來捕獲文件圖像。類似地,數(shù)字化模塊110 便于建立所捕獲的文件的數(shù)字化圖像。所述文件的數(shù)字化圖像在此被稱為掃描內(nèi)容。在一 個實施例中,掃描內(nèi)容被表示為用于描述在掃描內(nèi)容內(nèi)的許多獨立像素的掃描內(nèi)容數(shù)據(jù)集114。掃描內(nèi)容數(shù)據(jù)集114可以如圖所示被存儲在電子存儲器件106中或另一電子存儲器 件中。電子存儲器件106或其他的電子存儲器件可以是掃描器系統(tǒng)100本地的,如圖所示, 或者可以位于掃描器系統(tǒng)100的遠處。當在掃描內(nèi)容數(shù)據(jù)集114中以諸如黑色之類的單色通道來表示掃描內(nèi)容時,每個 像素可以具有對應(yīng)于相關(guān)聯(lián)的像素的灰度級的單色調(diào)值?;蛘撸斖ㄟ^諸如紅色、綠色和藍 色之類的多色通道來表示掃描內(nèi)容時,每個像素可以具有對應(yīng)于相關(guān)聯(lián)的像素的每個色調(diào) 級的色調(diào)值。在一個實施例中,色調(diào)的色調(diào)值在8位系統(tǒng)中在0和255之間。例如,0可以 表示黑色,255可以表示白色,并且在0和255之間的中間值可以表示特定級的灰色、紅色、 藍色或綠色。或者,所述色調(diào)值的范圍可小于或大于8位系統(tǒng)中的色調(diào)值的范圍。分段裝置112便于將掃描內(nèi)容自動地分割為不同的內(nèi)容類型,諸如文本、藝術(shù)線條和圖像。如在此使用的,術(shù)語“圖像”與“掃描內(nèi)容”區(qū)分地被使用來表示內(nèi)容類型而不 是文件本身的圖形表示。在某些實施例中,分段裝置112實現(xiàn)修改內(nèi)容數(shù)據(jù)集(未示出), 以便利掃描內(nèi)容數(shù)據(jù)集114的分段。分段裝置112可以是對掃描器系統(tǒng)100本地的,如圖 所示,或可以在掃描器系統(tǒng)100遠處。參見圖2而更詳細地示出和描述了分段裝置112的 一個示例。圖2描述了實際上可類似于圖1的分段裝置112的分段裝置200的一個實施例。 所圖解的分段裝置200包括圖像模塊202、修改模塊204、識別模塊206、分段模塊208、面積 計算模塊210、面積比較模塊212、子圖像模塊214、直方圖計算模塊216、直方圖比較模塊 218和相鄰模塊220。除了下面馬上說明的之外,參見圖6-8的流程圖進一步說明這些模塊 的每個的功能的實施例。在一個實施例中,圖像模塊202訪問掃描內(nèi)容數(shù)據(jù)集114。掃描內(nèi)容數(shù)據(jù)集114可 以作為修改內(nèi)容數(shù)據(jù)集的基礎(chǔ),所述修改內(nèi)容數(shù)據(jù)集繼而可以用于識別掃描內(nèi)容的可能內(nèi) 容類型。在一個實施例中,修改模塊204從掃描內(nèi)容數(shù)據(jù)集114建立修改內(nèi)容數(shù)據(jù)集。以 這種方式,掃描內(nèi)容數(shù)據(jù)集114可以保持不變,同時操縱修改內(nèi)容數(shù)據(jù)集以確定在掃描內(nèi) 容內(nèi)的各個段的內(nèi)容類型。如在此使用的,術(shù)語“段(segment)”表示在掃描內(nèi)容內(nèi)的一致 內(nèi)容類型的區(qū)域。在一個實施例中,可以通過與掃描內(nèi)容的其他段的物理分離來識別段。例 如,文本的一個段落可以由從藝術(shù)線條繪制的空白來分離。類似地,通過掃描文件內(nèi)的間隔 或邊緣,可以將畫面、圖形、圖表或圖像與文本分離。參見圖3,更詳細地示出和說明內(nèi)容類 型的一些示例。為了建立修改內(nèi)容數(shù)據(jù)集,修改模塊204可以向掃描內(nèi)容數(shù)據(jù)集114應(yīng)用數(shù)學(xué)函 數(shù)。在一個實施例中,修改模塊204向掃描內(nèi)容數(shù)據(jù)集114應(yīng)用S形函數(shù),以便建立修改內(nèi) 容數(shù)據(jù)集。參見圖4,更詳細地示出和說明S形函數(shù)的曲線圖的一個示例。一般地,數(shù)學(xué)S形函數(shù)可以便于將數(shù)據(jù)向極性極端強制。在像素值的情況下,數(shù)學(xué) S形函數(shù)可以用于將掃描內(nèi)容數(shù)據(jù)集114的中間值轉(zhuǎn)換為更接近0或255的新值。以這種 方式,向掃描內(nèi)容數(shù)據(jù)集114應(yīng)用數(shù)學(xué)S形函數(shù),可以便于在雙級段(例如文本和藝術(shù)線 條)和半色調(diào)段(例如圖像)之間區(qū)分。數(shù)學(xué)S形函數(shù)的一個示例如下<formula>formula see original document page 8</formula>
<formula>formula see original document page 9</formula>其中,η是用于確定S形函數(shù)的形狀的參數(shù),χ是掃描內(nèi)容數(shù)據(jù)集114的像素的像 素值,f(x)定義修改內(nèi)容數(shù)據(jù)集的修改像素的對應(yīng)修改像素值。在替代實施例中,可以使用 數(shù)學(xué)S形函數(shù)的其他變形。在進一步的實施例中,修改模塊204可以應(yīng)用類似于數(shù)學(xué)S形 函數(shù)的其他函數(shù),以便建立修改內(nèi)容數(shù)據(jù)集。在一個實施例中,識別模塊206分析所述修改內(nèi)容數(shù)據(jù)集,以從掃描內(nèi)容識別獨 立的段。在一個實施例中,識別模塊206可以使用8相鄰連接性確定來識別修改內(nèi)容數(shù)據(jù) 集的內(nèi)容段。一般地,8相鄰連接性的確定指分析所選擇的像素的相鄰像素,確定是否相 鄰像素連接到所選擇的像素。換句話說,可以使用8相鄰連接性來確定一個段包括相鄰像 素的程度。當通過多個迭代而擴展時,8相鄰連接性便于了內(nèi)容段的周長的識別。參見圖5 而說明關(guān)于8相鄰連接性的進一步的細節(jié)。在一個實施例中,分段模塊208識別在修改內(nèi)容數(shù)據(jù)集內(nèi)的內(nèi)容段的內(nèi)容段類 型。對應(yīng)地,分段模塊208識別掃描內(nèi)容數(shù)據(jù)集114的內(nèi)容段的內(nèi)容段類型。在一個實施 例中,分段模塊208響應(yīng)于判定所計算的段表面面積小于預(yù)定的最小圖像表面面積,識別 內(nèi)容段的內(nèi)容段類型為文本。在另一個實施例中,如果所述段表面面積不小于預(yù)定的最小圖像表面面積,則分 段模塊208響應(yīng)于修改內(nèi)容直方圖類似于掃描內(nèi)容直方圖的判定,將內(nèi)容段的內(nèi)容段類型 識別為藝術(shù)線條。否則,分段模塊208可以響應(yīng)于修改內(nèi)容直方圖不類似于掃描內(nèi)容直方 圖的判定,將內(nèi)容段的內(nèi)容段類型識別為圖像。在一個實施例中,面積計算模塊210計算 在修改內(nèi)容數(shù)據(jù)集內(nèi)的內(nèi)容段的段表面面積??梢砸远喾N方式來計算所述段表面面積。例 如,可以通過相加在內(nèi)容段內(nèi)的“導(dǎo)通(on)”像素的總數(shù)而計算內(nèi)容段的段表面面積。所述 “導(dǎo)通”像素來自使用內(nèi)容段的左、右、上、下坐標而建立的矩形限制方框的位圖。在一個實施例中,面積比較模塊212將所計算的內(nèi)容段的段表面面積與預(yù)定的最 小圖像表面面積相比較??梢砸韵袼?、量度或描述可以與所計算的段表面面積相比較的最 小圖像尺寸的任何其他量,表達所述最小圖像表面面積。在一個實施例中,預(yù)定的最小圖 像表面面積的使用預(yù)先假定所有的非文本段將具有大子任何文本段的最大尺寸的最小盡 寸。否則,可以將具有等于或大于最小圖像表面面積的表面面積的文本段處理為圖形而不 是文本。但是,在給定識別和處理雙級圖形的能力的情況下,這樣的處理可能不會對于過大 的文本的圖像質(zhì)量有害,如下所述。在一個實施例中,子圖像模塊214定義子圖像窗口,它包括被確定為等于或大于 最小圖像表面面積的內(nèi)容段。換句話說,如果內(nèi)容段被確定為不是文本,則子圖像模塊214 可以定義大約圍繞所述非文本段的子圖像窗口。所述子圖像窗口可以用于識別修改內(nèi)容數(shù) 據(jù)集的數(shù)據(jù)的一部分或掃描內(nèi)容數(shù)據(jù)集114的對應(yīng)部分。在一個實施例中,所述子圖像窗 口可以是矩形的,其寬度和高度大約等于但是略大于所選擇的內(nèi)容段的所計算的寬度和高 度。參見圖3更詳細示出和說明子圖像窗口的一個示例。在一個實施例中,直方圖計算模塊216計算用于描述掃描內(nèi)容數(shù)據(jù)集114的掃描 內(nèi)容直方圖。具體上,直方圖計算模塊216可以計算對應(yīng)于被應(yīng)用到掃描內(nèi)容數(shù)據(jù)集114 的子圖像窗口的掃描內(nèi)容直方圖。類似地,直方圖計算模塊216可以計算對應(yīng)于被應(yīng)用到修改內(nèi)容數(shù)據(jù)集的子圖像窗口的修改內(nèi)容直方圖。一般地,直方圖是被分析數(shù)據(jù)的不同灰 度級的頻率分布的表示。在一個實施例中,直方圖比較模塊218將修改內(nèi)容直方圖與掃描內(nèi)容直方圖相比 較。如上所述,在所述直方圖之間的類似性可以被分段模塊208解釋為指示對應(yīng)的內(nèi)容段 是雙級藝術(shù)線條,因為應(yīng)用S形函數(shù)對于基本上黑和白的圖形有很小的影響。或者,在所述 直方圖之間的不類似性可以被分段模塊208解釋為指示對應(yīng)的內(nèi)容段是半色調(diào)圖像,因為 S形函數(shù)的應(yīng)用使得中間色調(diào)級圖像失真。在一個實施例中,相鄰模塊220將預(yù)定范圍的像素值轉(zhuǎn)換為在所述預(yù)定范圍內(nèi)的 單個像素值。換句話說,相鄰模塊220向某組像素值內(nèi)的每個像素分配單個像素值。例如, 相鄰模塊220可以識別具有在0和10之間的像素值的、在掃描內(nèi)容數(shù)據(jù)集114內(nèi)的所有像 素。然后相鄰模塊220可以使用黑色模塊222,向所有那些被識別的像素分配0值。以這 種方式,假定是黑色的所有的像素實際上被分配為黑色。類似地,相鄰模塊220可以識別具 有在245和255之間的像素值的所有像素,并且使用白色模塊224將它們轉(zhuǎn)換為255的值。 相鄰模塊220也可以執(zhí)行彩色像素的類似操作,改變單個色調(diào)(例如紅色、綠色和藍色)或 色調(diào)的組合。有益的是,相鄰模塊220可以提高掃描數(shù)據(jù)的動態(tài)范圍,并且去除噪音。
圖3描述了具有各種類型的內(nèi)容的文件300的一個實施例。所圖解的文件300表 示可掃描的文件,諸如來自書籍的頁面,它可以由掃描器系統(tǒng)100掃描。文件300也圖解可 以被掃描內(nèi)容數(shù)據(jù)集114表示的掃描內(nèi)容302 (由最外部的虛線示出)。所述的文件300包括在可掃描的文件的區(qū)域內(nèi)的三種不同的內(nèi)容類型。可掃描文 件的最上面的內(nèi)容段包括雙級藝術(shù)線條內(nèi)容。可掃描文件的中間的內(nèi)容段包括雙級文本 (由方框表示)??蓲呙璧奈募淖畹偷膬?nèi)容段包括半色調(diào)圖像。如在此所述,分段裝置200識別表示掃描內(nèi)容的掃描內(nèi)容數(shù)據(jù)集114的各種內(nèi)容 段。分段裝置200可以使用修改內(nèi)容數(shù)據(jù)集來便利這樣的識別。分段裝置200也識別每個 內(nèi)容段的內(nèi)容類型。在所述的實施例中,掃描內(nèi)容數(shù)據(jù)集114包括三個內(nèi)容段。藝術(shù)線條內(nèi) 容對應(yīng)于藝術(shù)線條段304。文本內(nèi)容對應(yīng)于文本段306。在另一個實施例中,每個文本字符 可以被定義為獨立文本段306。圖像內(nèi)容對應(yīng)于圖像段308。圖6-8的流程圖提供了分段 裝置200可以執(zhí)行來識別每個內(nèi)容段及其內(nèi)容類型的操作的一個實施例的進一步的細節(jié)。圖4描述了數(shù)學(xué)S形函數(shù)的一個實施例。S形函數(shù)的所圖解的圖形表示400僅僅 是一個示例表示。其他類型的S形函數(shù)部分地根據(jù)所使用的常數(shù),可以產(chǎn)生更多或更少線 性的表示。雖然如上所述給出了數(shù)學(xué)S形函數(shù)的具體示例,參見圖2的說明,可以使用具有 更少或更多的常數(shù)或其他數(shù)學(xué)項的其他數(shù)學(xué)函數(shù)。另外,可以線性地或按照其他方式調(diào)整 一些數(shù)學(xué)S形函數(shù),以容納在0和255之間的像素值的范圍。所圖解的S形函數(shù)在修改內(nèi)容數(shù)據(jù)集和掃描內(nèi)容數(shù)據(jù)集114的像素值之間產(chǎn)生非 線性關(guān)系。在給定所示出的示例S形函數(shù)的情況下,與掃描內(nèi)容數(shù)據(jù)集114的對應(yīng)像素相 比較,可以將修改內(nèi)容數(shù)據(jù)集的像素的像素值調(diào)整為更接近極性極端的任一個。對于大約在值128之下的掃描內(nèi)容數(shù)據(jù)集114的每個像素值,可以將修改內(nèi)容數(shù) 據(jù)集的對應(yīng)像素的值調(diào)整為更接近值0?;蛘撸瑢τ诖蠹s在值128之上的掃描內(nèi)容數(shù)據(jù)集 114的每個像素值,可以將修改內(nèi)容數(shù)據(jù)集的對應(yīng)像素的值調(diào)整為更接近值255。在一個實 施例中,這種修改建立了修改內(nèi)容數(shù)據(jù)集,它人為地將掃描器的動態(tài)像素值范圍(對于8位掃描器而言通常在大約20和230之間)擴展到更大的范圍(例如在0和255之間)。圖5描述了用于說明8相鄰連接性的像素陣列500的一個實施例。像素陣列500 包括一個中心像素P1和8個相鄰像素N1到隊。所選擇的像素P1基本上是黑色的。8相鄰 連接性的概念用于確定所述相鄰像素N1到N8的哪個也基本上是黑色的(假定掃描內(nèi)容包 括相對于亮背景的黑色印刷)。在一個實施例中,識別模塊206分析所述相鄰像素N1到N8的每個,并且確定哪些像素類似于所選擇的像素Pi??梢酝ㄟ^比較每個像素的像素值來確定所述類似性?;蛘撸?如果像素在像素值的預(yù)定范圍內(nèi),則可確定類似性。例如,可以將具有在230和255之間的 像素值的任何像素確定為類似。在另一個示例中,可以將具有小于20的像素值的任何像素 確定為類似。在所圖解的實施例中,識別模塊206可以確定相鄰像素NpN2和N5到N8與所 選擇的像素P1類似。圖6描述了可以由分段裝置200與掃描器系統(tǒng)100結(jié)合來執(zhí)行的分段方法600的 一個實施例。所圖解的分段方法600開始,并且修改模塊204建立(602)對應(yīng)于掃描內(nèi)容 數(shù)據(jù)集114的修改內(nèi)容數(shù)據(jù)集。所述修改內(nèi)容數(shù)據(jù)集可以被存儲在電子存儲器件106上或 在另一個電子存儲器件上。在一個實施例中,修改模塊204向掃描內(nèi)容數(shù)據(jù)集114應(yīng)用S 形函數(shù),以便建立修改內(nèi)容數(shù)據(jù)集,如上所述。使用所述修改內(nèi)容數(shù)據(jù)集,然后識別模塊206識別(604)在所述修改內(nèi)容數(shù)據(jù)集 內(nèi)的內(nèi)容段?;蛘撸R別模塊206可以識別(604)在修改內(nèi)容數(shù)據(jù)集內(nèi)的所有內(nèi)容段。在 識別模塊206識別內(nèi)容段后,然后分段模塊208根據(jù)所識別的內(nèi)容段的內(nèi)容而識別(606) 內(nèi)容段類型。在一個實施例中,分段模塊208將所述內(nèi)容段類型識別為文本、藝術(shù)線條或圖 像?;蛘撸侄文K208可以更一般地(例如文本或畫面、圖形或雙級或半色調(diào))或更具體 地(例如文本、藝術(shù)線條和圖像的子類等)識別內(nèi)容。然后所述的分段方法600結(jié)束。圖7描述了通過圖6的分段方法600的段識別操作604的示例而給出的段識別方 法700的一個實施例。所圖解的段識別方法700開始,并且識別模塊206識別(702)開始 像素,如參見圖5的像素陣列500所述的被選擇像素Pp然后識別模塊206確定(704)是否存在可以處理的更多的像素。如果存在,則識 別模塊206確定(706)是否已經(jīng)在組合的段像素周圍檢測到白色邊界(假定基本上黑色的 內(nèi)容段)。如果還沒有建立這樣的邊界,則識別模塊206確定(708)是否被處理的像素的面 積超過定義總的處理面積的窗口大小,它對應(yīng)于掃描內(nèi)容302。然后識別模塊206識別(710)所選擇的像素的相鄰像素。在一個實施例中,識別 模塊206使用8相鄰連接性來識別(710)相鄰像素。對于被識別的相鄰像素,識別模塊206 確定(712)哪些像素是基本上黑色的,并且調(diào)整(714)用于定義內(nèi)容段的段窗口。當更多 的黑色像素被識別為屬于特定的內(nèi)容段時,對應(yīng)的段窗口被擴展(714)以包括被識別的像
ο所圖解的段識別方法700迭代地繼續(xù)在段中選擇像素,直到滿足終止標準。當識 別模塊206確定(704)已經(jīng)處理了所有的像素、確定(706)已經(jīng)對于所述段建立了白色邊 界或確定(708)所處理的面積超過了像素處理窗口時,所描述的段識別方法700結(jié)束。圖8描述了通過圖6的分段方法600的識別操作606的示例而給出的類型識別方 法800的一個實施例。所圖解的類型識別方法800開始,并且識別模塊206識別(802)內(nèi)容段之一,它可能已經(jīng)按照如上所述的段識別方法700而被識別出。然后面積計算模塊210 計算(804)所選擇的內(nèi)容段的段表面面積。然后面積比較模塊212將所計算的段表面面積 與預(yù)定的最小圖像表面面積相比較,以確定(806)是否所述段表面面積小于所述最小圖像 表面面積。如果所述段表面面積小于所述最小圖像表面面積,則分段模塊208將所述段類 型識別(808)為文本內(nèi)容。如果段表面面積不小于最小圖像表面面積,則子圖像模塊214定義(810)圍繞所 述段的子圖像窗口。然后直方圖計算模塊216計算(812)對應(yīng)于所述子圖像窗口的掃描內(nèi) 容數(shù)據(jù)集114的掃描內(nèi)容直方圖。直方圖計算模塊216也計算(814)對應(yīng)于所述子圖像窗 口的修改內(nèi)容數(shù)據(jù)集的修改內(nèi)容直方圖。直方圖比較模塊218隨后將修改內(nèi)容直方圖和掃描內(nèi)容直方圖相比較,以確定 (816)是否所述直方圖是類似的。如果所述直方圖被確定(816)為類似的,則分段模塊208 將所述段識別(818)為藝術(shù)線條內(nèi)容。否則,如果所述直方圖被確定(816)為不類似,則分 段模塊208將所述段識別(820)為圖像內(nèi)容。在將段識別為文本、藝術(shù)線條或圖像內(nèi)容后,分段裝置200確定(822)是否另外的 段需要被處理,如果需要,則迭代地返回以選擇(802)隨后的內(nèi)容段。否則,所描述的類型 識別方法800結(jié)束。有益的是,所提供的實施例自動地識別掃描內(nèi)容的段,并且識別每個內(nèi)容段的內(nèi) 容類型。獨立段的內(nèi)容類型的識別便于按照其內(nèi)容類型而適當?shù)靥幚砻總€段。另外,這樣 的掃描段提高了掃描數(shù)字化和再現(xiàn)的質(zhì)量。在此包括的所述示意流程圖被一般地描述為邏輯流程圖。因此,所述順序和標注 的操作指示所提供的方法的一個實施例??梢韵胂笤诠δ?、邏輯或效果上等同于所說明的 方法的一個或多個操作或其部分的其他操作和方法。另外,所使用的格式和符號被提供來 說明所述方法的邏輯操作,并且被理解為不限制所述方法的范圍。雖然各種箭頭類型和線 條類型可以被用于所述流程圖中,但是它們被理解為不限制對應(yīng)方法的范圍。事實上,一些 箭頭或其他連接符可以用于僅僅指示所述方法的邏輯流程。例如,箭頭可以指示在所述方 法的所列舉操作之間的未指定持續(xù)時間的等待或監(jiān)視時段。另外,特定方法發(fā)生的順序可 以或可以不嚴格地遵守所示出的對應(yīng)操作的順序。遍及本說明書對于“一個(an,one)實施例”或類似語言的引用,表示有關(guān)所述實 施例所述的特定特征、結(jié)構(gòu)或特性被包括在本發(fā)明的至少一個實施例中。因此,遍及本說明 書出現(xiàn)詞語“在一個(an,one)實施例中”和類似語言,可以、但不必然全部指同一實施例。對于信號承載介質(zhì)的引用可以采取能夠產(chǎn)生信號、使得產(chǎn)生信號或使得在數(shù)字處 理裝置上執(zhí)行機器可讀指令的程序的任何形式。信號承載介質(zhì)可以體現(xiàn)為傳輸線路、致密 盤、數(shù)字視頻盤、磁帶、伯努里驅(qū)動器、磁盤、穿孔卡、快閃存儲器、集成電路或其他數(shù)字處理 裝置存儲設(shè)備。而且,可以在一個或多個實施例中以任何適當?shù)姆绞絹斫M合本發(fā)明的所述特征、 結(jié)構(gòu)或特性。在隨后的說明中,提供了多種具體細節(jié),諸如編程、軟件模塊、用戶選擇、網(wǎng)絡(luò) 交易、數(shù)據(jù)庫查詢、數(shù)據(jù)庫結(jié)構(gòu)、硬件模塊、硬件電路、硬件芯片等的示例,以提供對本發(fā)明 實施例的完全理解。但是,本領(lǐng)域內(nèi)的技術(shù)人員將會明白,在沒有一個或多個所述具體細節(jié) 的情況下,或使用其他方法、部件、材料等,可以實踐本發(fā)明。在其他情況下,不詳細示出或說明公知結(jié)構(gòu)、材料或操作,以避免模糊本發(fā)明的各方面。 在不脫離本發(fā)明的精神或基本特性的情況下,本發(fā)明可以被體現(xiàn)為其他具體形式。所述實施例在各個方面都要被考慮為僅僅是說明性的而不是限定性的。因此,本發(fā)明 的范圍由權(quán)利要求而不是由上述的說明指示。在權(quán)利要求的等同內(nèi)容的含義和范圍內(nèi)的所 有改變要被包含在它們的范圍內(nèi)。
權(quán)利要求
一種用于識別在掃描圖像內(nèi)的內(nèi)容的系統(tǒng),所述系統(tǒng)包括掃描器,配置為捕獲和數(shù)字化具有內(nèi)容段的掃描內(nèi)容;電子數(shù)據(jù)存儲器件,配置為存儲用于描述掃描內(nèi)容的掃描內(nèi)容數(shù)據(jù)集;以及分段裝置,配置為識別所述內(nèi)容段的內(nèi)容段類型,并被配置為通過向掃描內(nèi)容數(shù)據(jù)集應(yīng)用S形函數(shù)而建立修改內(nèi)容數(shù)據(jù)集,其中所述修改內(nèi)容數(shù)據(jù)集對應(yīng)于修改內(nèi)容直方圖,該修改內(nèi)容直方圖比對應(yīng)于掃描內(nèi)容數(shù)據(jù)集的掃描內(nèi)容直方圖更極化。
2.按照權(quán)利要求1的系統(tǒng),其中,所述修改內(nèi)容數(shù)據(jù)集按照S形函數(shù)而與掃描內(nèi)容數(shù)據(jù) 集相關(guān),其中所述S形函數(shù)被定義為基本上類似如下形式<formula>formula see original document page 2</formula>其中,η是用于確定S形函數(shù)的形狀的參數(shù),χ是掃描內(nèi)容數(shù)據(jù)集的像素的像素值,f (χ) 定義修改內(nèi)容數(shù)據(jù)集的修改像素的對應(yīng)修改像素值。
3.按照權(quán)利要求1的系統(tǒng),其中,所述分段裝置還被配置為響應(yīng)于所述修改內(nèi)容直方 圖與所述掃描內(nèi)容直方圖類似的判定,將所述內(nèi)容段的內(nèi)容段類型識別為藝術(shù)線條。
4.按照權(quán)利要求1的系統(tǒng),其中,所述分段裝置進一步被配置為響應(yīng)于所述修改內(nèi)容 直方圖不與掃描內(nèi)容直方圖類似的判定,將所述內(nèi)容段的內(nèi)容段類型識別為圖像。
5.按照權(quán)利要求1的系統(tǒng),其中,所述修改內(nèi)容數(shù)據(jù)集包括對應(yīng)于至少一個彩色通道 的數(shù)據(jù)。
6.按照權(quán)利要求1的系統(tǒng),其中,所述分段裝置進一步被配置為確定與基本上黑色的 像素的8相鄰連接性,以識別在所述內(nèi)容段內(nèi)的像素。
7.按照權(quán)利要求1的系統(tǒng),其中,所述分段裝置被進一步配置為響應(yīng)于內(nèi)容段表面面 積小于最小圖像表面面積的判定,將所述內(nèi)容段的內(nèi)容段類型識別為文本。
8. 一種用于識別在掃描圖像內(nèi)的內(nèi)容的方法,所述方法包括捕獲具有內(nèi)容段的掃描內(nèi)容;存儲用于描述掃描內(nèi)容的掃描內(nèi)容數(shù)據(jù)集;識別所述內(nèi)容段的內(nèi)容段類型;以及通過向掃描內(nèi)容數(shù)據(jù)集應(yīng)用S形函數(shù)而建立修改內(nèi)容數(shù)據(jù)集,其中所述修改內(nèi)容數(shù)據(jù) 集對應(yīng)于修改內(nèi)容直方圖,該修改內(nèi)容直方圖比對應(yīng)于掃描內(nèi)容數(shù)據(jù)集的掃描內(nèi)容直方圖 更極化。
9.按照權(quán)利要求8的方法,其中,所述修改內(nèi)容數(shù)據(jù)集按照S形函數(shù)而與掃描內(nèi)容數(shù)據(jù) 集相關(guān),其中所述S形函數(shù)被定義為基本上類似如下形式<formula>formula see original document page 2</formula>其中,η是用于確定S形函數(shù)的形狀的參數(shù),χ是掃描內(nèi)容數(shù)據(jù)集的像素的像素值,f (χ) 定義修改內(nèi)容數(shù)據(jù)集的修改像素的對應(yīng)修改像素值。
10.按照權(quán)利要求8的方法,其中,所述識別內(nèi)容段類型還包括響應(yīng)于所述修改內(nèi)容直方圖與所述掃描內(nèi)容直方圖類似的判定,將所述內(nèi)容段的內(nèi)容 段類型識別為藝術(shù)線條。
11.按照權(quán)利要求8的方法,其中,所述識別內(nèi)容段類型還包括響應(yīng)于所述修改內(nèi)容直方圖不與掃描內(nèi)容直方圖類似的判定,將所述內(nèi)容段的內(nèi)容段 類型識別為圖像。
12.按照權(quán)利要求8的方法,其中,所述修改內(nèi)容數(shù)據(jù)集包括對應(yīng)于至少一個彩色通道 的數(shù)據(jù)。
13.按照權(quán)利要求8的方法,還包括確定與基本上黑色的像素的8相鄰連接性,以識別在所述內(nèi)容段內(nèi)的像素。
14.按照權(quán)利要求8的方法,其中,所述識別內(nèi)容段類型還包括響應(yīng)于內(nèi)容段表面面積小于最小圖像表面面積的判定,將所述內(nèi)容段的內(nèi)容段類型識 別為文本。
全文摘要
公開了一種用于識別在掃描圖像內(nèi)的內(nèi)容的系統(tǒng)和方法。所述系統(tǒng)包括掃描器,配置為捕獲和數(shù)字化具有內(nèi)容段的掃描內(nèi)容;電子數(shù)據(jù)存儲器件,配置為存儲用于描述掃描內(nèi)容的掃描內(nèi)容數(shù)據(jù)集;以及分段裝置,配置為識別所述內(nèi)容段的內(nèi)容段類型,并被配置為通過向掃描內(nèi)容數(shù)據(jù)集應(yīng)用S形函數(shù)而建立修改內(nèi)容數(shù)據(jù)集,其中所述修改內(nèi)容數(shù)據(jù)集對應(yīng)于修改內(nèi)容直方圖,該修改內(nèi)容直方圖比對應(yīng)于掃描內(nèi)容數(shù)據(jù)集的掃描內(nèi)容直方圖更極化。
文檔編號G06K9/20GK101819632SQ201010156688
公開日2010年9月1日 申請日期2006年8月25日 優(yōu)先權(quán)日2005年8月25日
發(fā)明者李紅, 約瑟夫·S·齊斯茲克澤維斯基, 詹姆斯·T·史密斯第二 申請人:普馳有限責(zé)任公司