日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

一種數(shù)據(jù)規(guī)范化處理方法和系統(tǒng)的制作方法

文檔序號:9375672閱讀:443來源:國知局
一種數(shù)據(jù)規(guī)范化處理方法和系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及計算機(jī)排版技術(shù)領(lǐng)域,尤其涉及一種數(shù)據(jù)規(guī)范化處理方法和系統(tǒng)。
【背景技術(shù)】
[0002] 目前,出版社把電子文件印刷成圖書或刊物之前需要專業(yè)的編輯人員進(jìn)行排版, 包括對文字、圖片以及表格等進(jìn)行排版。對于文字類的文檔進(jìn)行處理時,對于文檔中的漢字 需要使用漢字字模庫進(jìn)行處理,但是對于文檔中除了漢字之外的數(shù)據(jù)還沒有規(guī)范化的處理 系統(tǒng)或數(shù)據(jù)庫進(jìn)行處理,特別是教材、教輔、科技圖書等教科類圖書常會出現(xiàn)大量的數(shù)據(jù)內(nèi) 容,往往還會有單位包含特殊符號的內(nèi)容。
[0003] 編輯人員在處理教輔或者科技類圖書時,經(jīng)常會遇到圖書中存在大量的數(shù)據(jù)內(nèi) 容,在對漢字進(jìn)行規(guī)范化處理后,還需要對這些數(shù)據(jù)內(nèi)容進(jìn)行規(guī)范化。編輯人員往往需要投 入大量的時間和精力對這些數(shù)據(jù)內(nèi)容進(jìn)行逐一處理,其工作量大,周期長。
[0004] 根據(jù)上述,采用人工方式對文檔中的數(shù)據(jù)進(jìn)行規(guī)范化處理的過程中存在如下缺 點:人工手動處理數(shù)據(jù)費時費力,需編輯人員對文檔逐行進(jìn)行肉眼觀察,導(dǎo)致處理速度過 慢,導(dǎo)致出版周期過長,直接降低了出版效率。同時編輯人員人工處理的速度慢,對于內(nèi)容 較多、篇幅較長的文檔需要多個編輯人員進(jìn)行處理,需耗費大量的人力資源,導(dǎo)致企業(yè)處理 此類文檔的成本升高。最重要的是,采用人工方法對文檔中數(shù)據(jù)內(nèi)容進(jìn)行規(guī)范化處理還存 在較高的出錯率,很有可能會由于編輯人員的疏忽出現(xiàn)漏掉未處理的數(shù)據(jù)。因此,如何提高 此類出版物的數(shù)據(jù)處理能力,減少編輯的工作量,快速地對文檔數(shù)據(jù)進(jìn)行規(guī)范化,成為當(dāng)前 出版行業(yè)的重要問題。

【發(fā)明內(nèi)容】

[0005] (一)要解決的技術(shù)問題
[0006] 針對上述缺陷,本發(fā)明要解決的技術(shù)問是如何快速對文檔中的數(shù)據(jù)進(jìn)行規(guī)范化處 理,節(jié)省人力。
[0007] (二)技術(shù)方案
[0008] 為解決上述問題,本發(fā)明提供了本發(fā)明提供了一種數(shù)據(jù)規(guī)范化處理方法,包括:
[0009] S1、根據(jù)文檔類型創(chuàng)建關(guān)鍵詞以及關(guān)鍵詞類型;
[0010] S2、對文檔中的數(shù)據(jù)內(nèi)容進(jìn)行搜索,并對獲取的數(shù)據(jù)內(nèi)容進(jìn)行存儲;
[0011] S3、對數(shù)據(jù)內(nèi)容的位置進(jìn)行定位,并對文檔中與數(shù)據(jù)內(nèi)容相關(guān)聯(lián)的上下文進(jìn)行提 取,得到上下文內(nèi)容;
[0012] S4、根據(jù)關(guān)鍵詞類型對上下文內(nèi)容進(jìn)行規(guī)范化處理。
[0013] 進(jìn)一步地,步驟Sl根據(jù)文檔類型創(chuàng)建關(guān)鍵詞以及關(guān)鍵詞類型之前還包括對文檔 進(jìn)行格式化處理,生成符合W3C標(biāo)準(zhǔn)的XML格式文件。
[0014] 進(jìn)一步地,所述文檔類型的確定具體包括:基于文檔的語境對文檔進(jìn)行分類,確定 文檔類型。
[0015] 進(jìn)一步地,所述關(guān)鍵詞類型包括單位數(shù)據(jù)類型和財務(wù)數(shù)據(jù)類型。
[0016] 進(jìn)一步地,對文檔中的數(shù)據(jù)內(nèi)容進(jìn)行搜索具體包括:根據(jù)API函數(shù)使用正則表達(dá) 式獲取文檔中的所有數(shù)據(jù)內(nèi)容。
[0017] 進(jìn)一步地,所述對文檔中與數(shù)據(jù)內(nèi)容相關(guān)聯(lián)的上下文進(jìn)行提取具體包括:
[0018] 根據(jù)數(shù)據(jù)內(nèi)容的當(dāng)前位置向前提取前一個分詞的位置和內(nèi)容,向后提取后一個分 詞的位置和內(nèi)容。
[0019] 進(jìn)一步地,在步驟S3之后、步驟S4之前還包括:建立關(guān)鍵詞類型與規(guī)范化處理模 塊之間的映射關(guān)系,單位數(shù)據(jù)類型的上下文與單位數(shù)據(jù)處理模塊相關(guān)聯(lián),財務(wù)數(shù)據(jù)類型的 上下文與財務(wù)數(shù)據(jù)處理模塊相關(guān)聯(lián)。
[0020] 進(jìn)一步地,步驟S4進(jìn)行規(guī)范化處理具體包括:
[0021] 根據(jù)關(guān)鍵詞類型對上下文內(nèi)容進(jìn)行識別,并根據(jù)識別結(jié)果選擇相關(guān)聯(lián)的處理模塊 進(jìn)行規(guī)范化處理。
[0022] 為解決上述技術(shù)問題,本發(fā)明還提供了一種數(shù)據(jù)規(guī)范化處理系統(tǒng),包括:
[0023] 分類模塊,用于根據(jù)文檔類型創(chuàng)建關(guān)鍵詞以及關(guān)鍵詞類型;
[0024] 數(shù)據(jù)查詢模塊,用于對文檔中的數(shù)據(jù)內(nèi)容進(jìn)行搜索,并對獲取的數(shù)據(jù)內(nèi)容進(jìn)行存 儲;
[0025] 上下文提取模塊,用于對數(shù)據(jù)內(nèi)容的位置進(jìn)行定位,并對文檔中與數(shù)據(jù)內(nèi)容相關(guān) 聯(lián)的上下文進(jìn)行提取,得到上下文內(nèi)容;
[0026] 處理模塊,用于根據(jù)關(guān)鍵詞類型對上下文內(nèi)容進(jìn)行規(guī)范化處理。
[0027] 進(jìn)一步地,還包括映射關(guān)系模塊,用于建立關(guān)鍵詞類型與規(guī)范化處理模塊之間的 映射關(guān)系,單位數(shù)據(jù)類型的上下文與單位數(shù)據(jù)處理模塊相關(guān)聯(lián),財務(wù)數(shù)據(jù)類型的上下文與 財務(wù)數(shù)據(jù)處理模塊相關(guān)聯(lián)。
[0028] 進(jìn)一步地,還包括識別模塊,用于根據(jù)分類模塊得到的關(guān)鍵詞類型對上下文提取 模塊得到的上下文內(nèi)容進(jìn)行識別,并根據(jù)識別結(jié)果選擇相關(guān)聯(lián)的處理模塊進(jìn)行處理。
[0029] 進(jìn)一步地,所述處理模塊包括單位數(shù)據(jù)處理模塊和財務(wù)數(shù)據(jù)處理模塊,單位數(shù)據(jù) 處理模塊用于對單位數(shù)據(jù)類型的內(nèi)容進(jìn)行處理,財務(wù)數(shù)據(jù)處理模塊用于對財務(wù)數(shù)據(jù)類型的 內(nèi)容進(jìn)行處理。
[0030] (三)有益效果
[0031] 本發(fā)明提供了一種數(shù)據(jù)規(guī)范化處理方法和系統(tǒng),其中處理方法包括:根據(jù)文檔類 型創(chuàng)建關(guān)鍵詞以及關(guān)鍵詞類型;對文檔中的數(shù)據(jù)內(nèi)容進(jìn)行搜索,并對獲取的數(shù)據(jù)內(nèi)容進(jìn)行 存儲;對數(shù)據(jù)內(nèi)容的位置進(jìn)行定位,并對文檔中與數(shù)據(jù)內(nèi)容相關(guān)聯(lián)的上下文進(jìn)行提取,得到 上下文內(nèi)容;根據(jù)關(guān)鍵詞類型對上下文內(nèi)容進(jìn)行規(guī)范化處理。采用本發(fā)明所述的方法,解決 了現(xiàn)有技術(shù)中人為對數(shù)據(jù)進(jìn)行規(guī)范化處理效率低下的問題,從而大大提高編輯處理文檔的 效率,在節(jié)約成本的同時保證較高的準(zhǔn)確率。
【附圖說明】
[0032] 圖1為本發(fā)明實施例一提供的一種數(shù)據(jù)規(guī)范化處理方法的步驟流程圖;
[0033] 圖2為本發(fā)明實施例一中以處理Word文檔為例的最優(yōu)方案的流程圖;
[0034] 圖3為本發(fā)明實施例二中提供的一種數(shù)據(jù)規(guī)范化處理系統(tǒng)的組成示意圖。
【具體實施方式】
[0035] 下面結(jié)合附圖和實施例,對本發(fā)明的【具體實施方式】作進(jìn)一步詳細(xì)描述。以下實施 例用于說明本發(fā)明,但不用來限制本發(fā)明的范圍。
[0036] 實施例一
[0037] 本發(fā)明實施例一提供了一種數(shù)據(jù)規(guī)范化處理方法,步驟流程圖如圖1所示,具體 包括以下步驟:
[0038] 步驟S1、根據(jù)文檔類型創(chuàng)建關(guān)鍵詞以及關(guān)鍵詞類型。
[0039] 步驟S2、對文檔中的數(shù)據(jù)內(nèi)容進(jìn)行搜索,并對獲取的數(shù)據(jù)內(nèi)容進(jìn)行存儲。
[0040] 步驟S3、對數(shù)據(jù)內(nèi)容的位置進(jìn)行定位,并對文檔中與數(shù)據(jù)內(nèi)容相關(guān)聯(lián)的上下文進(jìn) 行提取,得到上下文內(nèi)容。
[0041] 步驟S4、根據(jù)關(guān)鍵詞類型對上下文內(nèi)容進(jìn)行規(guī)范化處理。
[0042] 本實施例提供的數(shù)據(jù)規(guī)范化處理方法,通過對數(shù)據(jù)內(nèi)容的上下文進(jìn)行提取以及對 文檔類型進(jìn)行分類的處理,從而快速實現(xiàn)文檔中數(shù)據(jù)內(nèi)容的規(guī)范化處理,解決現(xiàn)有技術(shù)中 人工處理低效率、出錯率高的問題。
[0043] 進(jìn)一步地,步驟Sl中根據(jù)文檔類型創(chuàng)建關(guān)鍵詞以及關(guān)鍵詞分類庫之前還包括對 文檔進(jìn)行格式化處理,生成符合W3C標(biāo)準(zhǔn)的XML格式文件。
[0044] 進(jìn)一步地,步驟Sl中文檔類型的確定具體包括:基于文檔的語境對文檔進(jìn)行分 類,確定文檔類型。
[0045] 進(jìn)一步地,步驟Sl中關(guān)鍵詞類型包括單位數(shù)據(jù)類型和財務(wù)數(shù)據(jù)類型。
[0046] 進(jìn)一步地,步驟S2中對文檔中的數(shù)據(jù)內(nèi)容進(jìn)行搜索具體包括:根據(jù)API函數(shù)使用 正則表達(dá)式獲取文檔中的所有數(shù)據(jù)內(nèi)容。
[0047] 進(jìn)一步地,步驟S3中對文檔中與數(shù)據(jù)內(nèi)容相關(guān)聯(lián)的上下文進(jìn)行提取具體包括:
[0048] 根據(jù)數(shù)據(jù)內(nèi)容的當(dāng)前位置向前提取前一個分詞的位置和內(nèi)容,向后提取后一個分 詞的位置和內(nèi)容。
[0049] 進(jìn)一步地,在步驟S3之后、步驟S4之前還包括:
[0050] 步驟S3'、建立關(guān)鍵詞類型與規(guī)范化處理模塊之間的映射關(guān)系,單位數(shù)據(jù)類型的上 下文與單位數(shù)據(jù)處理模塊相關(guān)聯(lián),財務(wù)數(shù)據(jù)類型的上下文與財務(wù)數(shù)據(jù)處理模塊相關(guān)聯(lián)。
[0051 ] 進(jìn)一步地,步驟S4進(jìn)行規(guī)范化處理具體包括:
[0052] 根據(jù)關(guān)鍵詞類型對上下文內(nèi)容進(jìn)行識別,并根據(jù)識別結(jié)果選擇相關(guān)聯(lián)的處理模塊 進(jìn)行規(guī)范化處理。
[0053] 基于上述,本實施例中以最為常見的Word文檔為舉例文檔對象,具體以單位數(shù)據(jù) 規(guī)范化以及財務(wù)數(shù)據(jù)規(guī)范化為具體實施例,上述步驟可細(xì)化為下列步驟:
[0054] 步驟101、首先定義關(guān)鍵詞并對關(guān)鍵詞進(jìn)行分類確定不同的關(guān)鍵詞類型,即通過分 類模塊采用XML對文檔類型進(jìn)行區(qū)分,對關(guān)鍵詞以及關(guān)鍵詞類型進(jìn)行定義,具體定義內(nèi)容 如下:
[0055]
[0056]
[0057] 上述Type節(jié)點:定義了關(guān)鍵詞的類型,name屬性定義了分類的名稱。
[0058] 〈type name = 〃unit〃>定義了規(guī)范化的單位數(shù)據(jù)類型,當(dāng)檢索上下文中含有kg, g等單位時對數(shù)據(jù)內(nèi)容進(jìn)行處理。
[0059] 〈type name = "finance"〉定義了規(guī)范化的財務(wù)數(shù)據(jù)類型,當(dāng)檢索上下文中含有 人民幣或者美元符號的時候進(jìn)行處理。
[0060] Key節(jié)點:定義了關(guān)鍵詞的名稱,例如本實施例中定義的單位數(shù)據(jù)類關(guān)鍵詞有kg, g,km,m,cm ;定義的財務(wù)數(shù)據(jù)類型關(guān)鍵詞有美元符號$和人民幣符號Y。
[0061] 需要說明的是,本實施例中只是以單位數(shù)據(jù)和財務(wù)數(shù)據(jù)作為數(shù)據(jù)內(nèi)容的兩種類型 為例,定義的兩類關(guān)鍵詞也只是舉例說明,但是并不表明對本實施例處理方法中數(shù)據(jù)類型 的限定。
[0062] 步驟201、創(chuàng)建數(shù)據(jù)查詢模塊,對文檔中的數(shù)據(jù)內(nèi)容進(jìn)行搜索,并對獲取的數(shù)據(jù)內(nèi) 容進(jìn)行存儲。本實例中處理Word文檔時采用Office提供的API函數(shù),即Find函數(shù),使用 正則表達(dá)式可以獲取文檔中的
當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1